超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种基于百度百科的文本语义主题抽取方法专利登记公告


专利名称:一种基于百度百科的文本语义主题抽取方法

摘要:本发明一种基于百度百科的文本语义主题抽取方法,利用百度百科首先建立百科词条前缀关系库,并计算出整个词条空间的语义关系,再利用前缀关系库来对未知文本进行词条发现与候选语义主题统计,并建立语义主题图,依据主题关系矩阵对语义主题图中各顶点进行权值调整,再根据语义主题图的语义离散度来抽取最终语义主题,避开传统通过单纯的词条统计方式,能在很大程度上解决基于词条统计的文本主题方法准确率不高的问题。

专利类型:发明专利

专利号:CN201210068103.2

专利申请(专利权)人:华侨大学

专利发明(设计)人:陈叶旺

主权项:一种基于百度百科的文本语义主题抽取方法,其特征在于包括以下几个步骤:(1)将所有的百度百科词条转化成为一个百科词库前缀关系;(2)计算出所有百度百科词条之间的语义关系,形成一个主题关系矩阵;(3)对于一段未知文本,利用百度百科词库前缀关系,进行快速词条发现,找出所有可能涉及的词条,形成候选词条集合;(4)把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题;(5)通过主题关系矩阵,将上述候选语义主题转化成为一张有向语义主题图;(6)、根据主题关系矩阵对有向语义主题图的权值进行调整;(7)、将有向

专利地区:福建