反饋

主題模型

主題模型（topic model）是以非監督學習的方式對文集的隱含語義結構（latent semantic structure）進行聚類（clustering）的統計模型^[1] 。

主題模型主要被用於自然語言處理（Natural language processing）中的語義分析（semantic analysis）和文本挖掘（text mining）問題，例如按主題對文本進行收集、分類和降維；也被用於生物信息學（bioinfomatics）研究^[2] 。隱含狄利克雷分佈Latent Dirichlet Allocation, LDA）是常見的主題模型^[3] 。

中文名: 主題模型
外文名: topic model
類型: 聚類算法

提出者: C. Papadimitriou，H. Tamaki，
提出時間: 1998年
應用: 自然語言處理，生物信息學

主題模型歷史

對主題模型的研究最早來自1998年Christos H. Papadimitriou、Prabhakar Raghavan、Hisao Tamaki和Santosh Vempala提出的潛在語義索引（Latent Semantic Indexing, LSI）^[1] 。1999年，Thomas Hofmann提出了概率性潛在語義索引（Probabilistic LST, PLST）^[4] 。

2003年，David M.Blei、Andrew Ng和Jordan I. Michael提出了隱含狄利克雷分佈（Latent Dirichlet Allocation, LDA）^[3] 。LDA得到了廣泛使用，並衍生出了很多改進版本，例如在2006年由Wei Li和Andrew McCallum提出的彈珠機分佈模型（pachinko allocation model）^[5] 。

主題模型理論

在主題模型中，主題（topic）是以文本中所有字符為支撐集的概率分佈，表示該字符在該主題中出現的頻繁程度，即與該主題關聯性高的字符有更大概率出現。在文本擁有多個主題時，每個主題的概率分佈都包括所有字符，但一個字符在不同主題的概率分佈中的取值是不同的^[6] 。一個主題模型試圖用數學框架來體現文檔的這種特點。主題模型自動分析每個文檔，統計文檔內的詞語，根據統計的信息來斷定當前文檔含有哪些主題，以及每個主題所佔的比例各為多少^[7] 。

舉例而言，在“狗”主題中，與該主題有關的字符，例如“狗”、“骨頭”等詞會頻繁出現；在“貓”主題中，“貓”、“魚”等詞會頻繁出現。若主題模型在分析一篇文章後得到10%的“貓”主題和“90%”的狗主題，那意味着字符“狗”和“骨頭”的出現頻率大約是字符“貓”和“魚”的9倍。

主題模型應用

在自然語言處理中，主題模型被用於對文本的表徵（representation）進行降維（dimensionality reduction）、按主題對文本進行聚類、以及根據用户偏好形成文本推薦系統^[6] 。

參考資料

1. Papadimitriou, C.H., Raghavan, P., Tamaki, H. and Vempala, S., 2000. Latent semantic indexing: A probabilistic analysis. Journal of Computer and System Sciences, 61(2), pp.217-235.
2. Zheng, B., McLean, D.C. and Lu, X., 2006. Identifying biological concepts from a protein-related corpus with a probabilistic topic model. BMC bioinformatics, 7(1), p.58.
3. Blei, D.M., Ng, A.Y. and Jordan, M.I., 2003. Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), pp.993-1022.
4. Hofmann, T., 2017, August. Probabilistic latent semantic indexing. In ACM SIGIR Forum (Vol. 51, No. 2, pp. 211-218). ACM.
5. Li, W. and McCallum, A., 2006. Pachinko allocation: DAG-structured mixture models of topic correlations. In Proceedings of the 23rd international conference on Machine learning (pp. 577-584). ACM.
6. Polykovskiy, D. and Novikov, A., Bayesian Methods for Machine Learning ．Coursera and National Research University Higher School of Economics．2017[引用日期2018-12-21]
7. 徐戈, 王厚峯. 自然語言處理中主題模型的發展[J]. 計算機學報, 2011, 34(8):1423-1436.

詞條統計

瀏覽次數：次
編輯次數：3次歷史版本
最近更新： Kang1523200 （2021-12-11）

1 歷史
2 理論
3 應用

主題模型

目錄

主題模型歷史

主題模型理論

主題模型應用