超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种基于机器学习的本体实例学习方法专利登记公告


专利名称:一种基于机器学习的本体实例学习方法

摘要:本发明属于一种自然语言处理和本体学习技术领域,涉及一种基于机器学习的本体实例学习方法,包括:对文档进行预处理后,进行标注语料;选取包括词特征、词性特征、词和词性特征的组合特征在内的各种特征,将语料及待识别的文本转换为特征向量的形式;进行最大熵模型训练,利用标注好的语料训练最大熵模型的参数,得到最大熵分类器;利用最大熵分类器进行实例抽取。本发明可以快速、有效地从大量文本中学习本体的实例。

专利类型:发明专利

专利号:CN201210121839.1

专利申请(专利权)人:天津大学

专利发明(设计)人:张萌;王文俊

主权项:一种基于机器学习的本体实例学习方法,用于从文本中识别出属于本体实例的词语,并对其分类,包括下列步骤:(1)文档预处理:提取正文部分作为后续步骤的输入;(2)文本预处理:对提取出的正文进行分词、分句处理,形成标注了词性的文本集;(3)标注语料:对标注了词性的文本集进行人工标注,在属于本体实例的词语的后面加上类型标签,形成标注文本,即语料;(4)特征选择:选取包括词特征、词性特征、词和词性特征的组合特征在内的各种特征,将语料及待识别的文本转换为特征向量的形式;(5)最大熵模型训练。建立最大熵模型,利用标注好的

专利地区:天津