13.主题模型.pdf

立即下载 作者: 早岁那知世事艰
上传时间: 2026-02-06
关键词: 邮件概率特征模型主题单词 july 垃圾分析文档
大小 1.6 MB
描述

   主题模型
七月算法 邹博
2015年5月9日
2/53 julyedu.com
朴素贝叶斯的文本分类
 给定M封邮件，每个邮件被标记为垃圾邮件
或者非垃圾邮件，给出第M+1封非标记邮件
是垃圾邮件的概率。
 朴素贝叶斯的基本假设：
 一个特征出现的概率，与其他特征(条件)独立
(特征独立性)
 其实是：对于给定分类的条件下，特征独立
 每个特征同等重要(特征均衡性)
3/53 julyedu.com
分析
 类别c：垃圾邮件c1，非垃圾邮件c2
 词汇表，两种建立方法：
 使用现成的单词词典；
 将所有邮件中出现的单词都统计出来，得到词典。
 记单词数目为N
 将每个邮件m映射成维度为N的向量x
 若单词wi在邮件m中出现过，则xi=1，否则，xi=0。即邮
件的向量化：m(x1,x2……xN)
 贝叶斯公式：P(c|x)=P(x|c)*P(c) / P(x)
 P(c1|x)=P(x|c1)*P(c1) / P(x)
 P(c2|x)=P(x|c2)*P(c2) / P(x)
 注意这里x是向量
4/53 julyedu.com
朴素贝叶斯的分析
 可以胜任许多文本分类问题。
 无法解决语料中一词多义和多词一义的问题——它
更像是词法分析，而非语义分析。
 如果使用词向量作为文档的特征，一词多义和多词
一义会造成计算文档间相似度的不准确性。
 可以通过增加“主题”的方式，一定程度的解决上述
问题：
 一个词可能被映射到多个主题中
 ——一词多义
 多个词可能被映射到某个主题的概率很高
 ——多词一义
5/53 julyedu.com
pLSA模型
 基于概率统计的pLSA模型(probabilistic latent
semantic analysis, 概率隐语义分析)，增加了
主题模型，形成简单的贝叶斯网络，可以使
用EM算法学习模型参数。
6/53 julyedu.com
pLSA模型
 D代表文档，Z代表主题(隐含类别)，W代表单词；
 P(di)表示文档di的出现概率，
 P(zk|di)表示文档di中主题zk的出现概率，
 P(wj|zk)表示给定主题zk出现单词wj的概率。
 每个主题

目录
邮件/概率/特征/模型/主题/单词/july/垃圾/分析/文档/ 邮件/概率/特征/模型/主题/单词/july/垃圾/分析/文档/

-1 条回复

登录后才能参与评论