超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种基于百度百科的网络文本语义的分类方法专利登记公告


专利名称:一种基于百度百科的网络文本语义的分类方法

摘要:本发明一种基于百度百科的网络文本语义的分类方法,利用百度百科把一段文本从外延词条集合映射到能体现内涵的语义主题空间中,再通过对文本语义主题的统计规律性来计算文本与文本、文本与类别之间的相似度,进而完成文本分类,避开通过穷举词条的统计方式,解决了传统文本分类算法需要大量训练数据和无法应对网络词汇和新生词汇的难题。

专利类型:发明专利

专利号:CN201210066606.6

专利申请(专利权)人:华侨大学

专利发明(设计)人:陈叶旺

主权项:一种基于百度百科的网络文本语义的分类方法,其特征在于主要包括如下步骤:步骤1、建立一个百度百科词库前缀关系;步骤2、对于一段文本T,利用百度百科词库前缀关系,进行快速词条发现,找出所有可能涉及的词条,形成候选词条集合;步骤3、把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题,并统计形成候选语义主题的权重向量;步骤4、对训练数据中的每一个类别,分别计算该类别的主题权重向量,相互之间进行正交化;步骤5、按向量相似度算法计算文本T与已知类别的相似度和文本T的语义离散度值,并根据语义离散度值选取相似

专利地区:福建