一种基于机器学习的本体实例学习方法专利登记公告

专利名称：一种基于机器学习的本体实例学习方法

摘要：本发明属于一种自然语言处理和本体学习技术领域，涉及一种基于机器学习的本体实例学习方法，包括：对文档进行预处理后，进行标注语料；选取包括词特征、词性特征、词和词性特征的组合特征在内的各种特征，将语料及待识别的文本转换为特征向量的形式；进行最大熵模型训练，利用标注好的语料训练最大熵模型的参数，得到最大熵分类器；利用最大熵分类器进行实例抽取。本发明可以快速、有效地从大量文本中学习本体的实例。

专利类型：发明专利

专利号：CN201210121839.1

专利申请（专利权）人：天津大学

专利发明（设计）人：张萌;王文俊

主权项：一种基于机器学习的本体实例学习方法，用于从文本中识别出属于本体实例的词语，并对其分类，包括下列步骤：(1)文档预处理：提取正文部分作为后续步骤的输入；(2)文本预处理：对提取出的正文进行分词、分句处理，形成标注了词性的文本集；(3)标注语料：对标注了词性的文本集进行人工标注，在属于本体实例的词语的后面加上类型标签，形成标注文本，即语料；(4)特征选择：选取包括词特征、词性特征、词和词性特征的组合特征在内的各种特征，将语料及待识别的文本转换为特征向量的形式；(5)最大熵模型训练。建立最大熵模型，利用标注好的

专利地区：天津

超过800万条软件/作品著作权公告信息！

一种基于机器学习的本体实例学习方法专利登记公告