主题模型
七月算法 邹博
2015年5月9日
2/53 julyedu.com
朴素贝叶斯的文本分类
给定M封邮件,每个邮件被标记为垃圾邮件
或者非垃圾邮件,给出第M+1封非标记邮件
是垃圾邮件的概率。
朴素贝叶斯的基本假设:
一个特征出现的概率,与其他特征(条件)独立
(特征独立性)
其实是:对于给定分类的条件下,特征独立
每个特征同等重要(特征均衡性)
3/53 julyedu.com
分析
类别c:垃圾邮件c1,非垃圾邮件c2
词汇表,两种建立方法:
使用现成的单词词典;
将所有邮件中出现的单词都统计出来,得到词典。
记单词数目为N
将每个邮件m映射成维度为N的向量x
若单词wi在邮件m中出现过,则xi=1,否则,xi=0。即邮
件的向量化:m(x1,x2……xN)
贝叶斯公式:P(c|x)=P(x|c)*P(c) / P(x)
P(c1|x)=P(x|c1)*P(c1) / P(x)
P(c2|x)=P(x|c2)*P(c2) / P(x)
注意这里x是向量
4/53 julyedu.com
朴素贝叶斯的分析
可以胜任许多文本分类问题。
无法解决语料中一词多义和多词一义的问题——它
更像是词法分析,而非语义分析。
如果使用词向量作为文档的特征,一词多义和多词
一义会造成计算文档间相似度的不准确性。
可以通过增加“主题”的方式,一定程度的解决上述
问题:
一个词可能被映射到多个主题中
——一词多义
多个词可能被映射到某个主题的概率很高
——多词一义
5/53 julyedu.com
pLSA模型
基于概率统计的pLSA模型(probabilistic latent
semantic analysis, 概率隐语义分析),增加了
主题模型,形成简单的贝叶斯网络,可以使
用EM算法学习模型参数。
6/53 julyedu.com
pLSA模型
D代表文档,Z代表主题(隐含类别),W代表单词;
P(di)表示文档di的出现概率,
P(zk|di)表示文档di中主题zk的出现概率,
P(wj|zk)表示给定主题zk出现单词wj的概率。
每个主题
邮件/概率/特征/模型/主题/单词/july/垃圾/分析/文档/
邮件/概率/特征/模型/主题/单词/july/垃圾/分析/文档/
-->