一种基于百度百科的文本语义主题抽取方法专利登记公告
专利名称:一种基于百度百科的文本语义主题抽取方法
摘要:本发明一种基于百度百科的文本语义主题抽取方法,利用百度百科首先建立百科词条前缀关系库,并计算出整个词条空间的语义关系,再利用前缀关系库来对未知文本进行词条发现与候选语义主题统计,并建立语义主题图,依据主题关系矩阵对语义主题图中各顶点进行权值调整,再根据语义主题图的语义离散度来抽取最终语义主题,避开传统通过单纯的词条统计方式,能在很大程度上解决基于词条统计的文本主题方法准确率不高的问题。
专利类型:发明专利
专利号:CN201210068103.2
专利申请(专利权)人:华侨大学
专利发明(设计)人:陈叶旺
主权项:一种基于百度百科的文本语义主题抽取方法,其特征在于包括以下几个步骤:(1)将所有的百度百科词条转化成为一个百科词库前缀关系;(2)计算出所有百度百科词条之间的语义关系,形成一个主题关系矩阵;(3)对于一段未知文本,利用百度百科词库前缀关系,进行快速词条发现,找出所有可能涉及的词条,形成候选词条集合;(4)把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题;(5)通过主题关系矩阵,将上述候选语义主题转化成为一张有向语义主题图;(6)、根据主题关系矩阵对有向语义主题图的权值进行调整;(7)、将有向
专利地区:福建
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。