DiVoMiner® 使用手冊

  1. Home
  2. Docs
  3. DiVoMiner® 使用手冊
  4. 演算法探勘
  5. 主題模型(LDA)

主題模型(LDA)

LDA(Latent Dirichlet Allocation,潛在狄利克雷分布)是一個三層的貝氏模型(文件層、主題層、特徵詞層),每層均有相應的隨機變數或參數控制。其基本原理是文本由潛在的主題隨機混合生成,每個主題對應特定的特徵詞分布。LDA模型假設所有文件存在多個潛在主題,要生成一篇文件,首先生成該文件的一個主題分布,然後再生成詞的集合;要生成一個詞,需要根據文件的主題分布隨機選擇一個主題,然後根據主題中的詞的分布隨機選擇一個詞,重複這個過程直到生成文件,並通過尋找分布參數從而確定最終主題分布。

由文件、主題、單詞組成的三層貝氏生成模型,每篇文件由服從多項式分布的主題組成,每個主題由服從多項式分布的詞組成。

適用場景

(1) 整體概覽文本的主題,適合文本主題分類。
(2) 相似文檔發現,結合回歸分析做內容推薦,話題排名。

Was this article helpful to you? Yes No

How can we help?