在线监督式主题建模及其演变分析的方法专利登记公告
专利名称:在线监督式主题建模及其演变分析的方法
摘要:本发明公开了一种在线监督式主题建模及其演变分析的方法。包括如下步骤:1)从新闻媒体网站下载新闻文本,并按一定的时间粒度进行划分;2)对各时间段的新闻文本进行分词处理,根据词频过滤更新词汇表3)提取文本特征,形成单词与文本的关系矩阵,构成在线监督式主题模型的输入;4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题建模方法检测主题,得到单词关于主题的分布矩阵及主题在文本上的分布矩阵;5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变
专利类型:发明专利
专利号:CN201210059495.6
专利申请(专利权)人:浙江大学
专利发明(设计)人:邵健;张寅;任鸿凯;吴飞
主权项:一种在线监督式主题建模及其演变分析的方法,其特征在于包括如下步骤:1)编写爬虫程序,从新闻媒体网站上下载一段时间的新闻文本,并以一周为时间粒度构成新闻文本数据集D={S1,S2......St},Si表示一周的数据;2)对当前时间段的新闻文本进行分词处理,根据词频过滤确定当前的词汇表;3)提取新闻文本特征,形成单词与新闻文本的关系矩阵,作为在线监督式主题模型的输入;4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题模型检测主题,得到单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ
专利地区:浙江
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。