超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

在线监督式主题建模及其演变分析的方法专利登记公告


专利名称:在线监督式主题建模及其演变分析的方法

摘要:本发明公开了一种在线监督式主题建模及其演变分析的方法。包括如下步骤:1)从新闻媒体网站下载新闻文本,并按一定的时间粒度进行划分;2)对各时间段的新闻文本进行分词处理,根据词频过滤更新词汇表3)提取文本特征,形成单词与文本的关系矩阵,构成在线监督式主题模型的输入;4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题建模方法检测主题,得到单词关于主题的分布矩阵及主题在文本上的分布矩阵;5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变

专利类型:发明专利

专利号:CN201210059495.6

专利申请(专利权)人:浙江大学

专利发明(设计)人:邵健;张寅;任鸿凯;吴飞

主权项:一种在线监督式主题建模及其演变分析的方法,其特征在于包括如下步骤:1)编写爬虫程序,从新闻媒体网站上下载一段时间的新闻文本,并以一周为时间粒度构成新闻文本数据集D={S1,S2......St},Si表示一周的数据;2)对当前时间段的新闻文本进行分词处理,根据词频过滤确定当前的词汇表;3)提取新闻文本特征,形成单词与新闻文本的关系矩阵,作为在线监督式主题模型的输入;4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题模型检测主题,得到单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ

专利地区:浙江