LDA(Latent Dirichlet Allocation,潛在狄利克雷分布)是一個三層的貝氏模型(文件層、主題層、特徵詞層),每層均有相應的隨機變數或參數控制。其基本原理是文本由潛在的主題隨機混合生成,每個主題對應特定的特徵詞分布。LDA模型假設所有文件存在多個潛在主題,要生成一篇文件,首先生成該文件的一個主題分布,然後再生成詞的集合;要生成一個詞,需要根據文件的主題分布隨機選擇一個主題,然後根據主題中的詞的分布隨機選擇一個詞,重複這個過程直到生成文件,並通過尋找分布參數從而確定最終主題分布。
由文件、主題、單詞組成的三層貝氏生成模型,每篇文件由服從多項式分布的主題組成,每個主題由服從多項式分布的詞組成。
適用場景
(1) 整體概覽文本的主題,適合文本主題分類。
(2) 相似文檔發現,結合回歸分析做內容推薦,話題排名。