13.主题模型.pdf


立即下载 早岁那知世事艰
2026-02-06
邮件 概率 特征 模型 主题 单词 july 垃圾 分析 文档
1.6 MB

主题模型
七月算法 邹博
2015年5月9日
2/53 julyedu.com
朴素贝叶斯的文本分类
 给定M封邮件,每个邮件被标记为垃圾邮件
或者非垃圾邮件,给出第M+1封非标记邮件
是垃圾邮件的概率。
 朴素贝叶斯的基本假设:
 一个特征出现的概率,与其他特征(条件)独立
(特征独立性)
 其实是:对于给定分类的条件下,特征独立
 每个特征同等重要(特征均衡性)
3/53 julyedu.com
分析
 类别c:垃圾邮件c1,非垃圾邮件c2
 词汇表,两种建立方法:
 使用现成的单词词典;
 将所有邮件中出现的单词都统计出来,得到词典。
 记单词数目为N
 将每个邮件m映射成维度为N的向量x
 若单词wi在邮件m中出现过,则xi=1,否则,xi=0。即邮
件的向量化:m(x1,x2……xN)
 贝叶斯公式:P(c|x)=P(x|c)*P(c) / P(x)
 P(c1|x)=P(x|c1)*P(c1) / P(x)
 P(c2|x)=P(x|c2)*P(c2) / P(x)
 注意这里x是向量
4/53 julyedu.com
朴素贝叶斯的分析
 可以胜任许多文本分类问题。
 无法解决语料中一词多义和多词一义的问题——它
更像是词法分析,而非语义分析。
 如果使用词向量作为文档的特征,一词多义和多词
一义会造成计算文档间相似度的不准确性。
 可以通过增加“主题”的方式,一定程度的解决上述
问题:
 一个词可能被映射到多个主题中
 ——一词多义
 多个词可能被映射到某个主题的概率很高
 ——多词一义
5/53 julyedu.com
pLSA模型
 基于概率统计的pLSA模型(probabilistic latent
semantic analysis, 概率隐语义分析),增加了
主题模型,形成简单的贝叶斯网络,可以使
用EM算法学习模型参数。
6/53 julyedu.com
pLSA模型
 D代表文档,Z代表主题(隐含类别),W代表单词;
 P(di)表示文档di的出现概率,
 P(zk|di)表示文档di中主题zk的出现概率,
 P(wj|zk)表示给定主题zk出现单词wj的概率。
 每个主题


邮件/概率/特征/模型/主题/单词/july/垃圾/分析/文档/ 邮件/概率/特征/模型/主题/单词/july/垃圾/分析/文档/
-1 条回复
登录 后才能参与评论
-->