一种基于机器学习的本体实例学习方法专利登记公告
专利名称:一种基于机器学习的本体实例学习方法
摘要:本发明属于一种自然语言处理和本体学习技术领域,涉及一种基于机器学习的本体实例学习方法,包括:对文档进行预处理后,进行标注语料;选取包括词特征、词性特征、词和词性特征的组合特征在内的各种特征,将语料及待识别的文本转换为特征向量的形式;进行最大熵模型训练,利用标注好的语料训练最大熵模型的参数,得到最大熵分类器;利用最大熵分类器进行实例抽取。本发明可以快速、有效地从大量文本中学习本体的实例。
专利类型:发明专利
专利号:CN201210121839.1
专利申请(专利权)人:天津大学
专利发明(设计)人:张萌;王文俊
主权项:一种基于机器学习的本体实例学习方法,用于从文本中识别出属于本体实例的词语,并对其分类,包括下列步骤:(1)文档预处理:提取正文部分作为后续步骤的输入;(2)文本预处理:对提取出的正文进行分词、分句处理,形成标注了词性的文本集;(3)标注语料:对标注了词性的文本集进行人工标注,在属于本体实例的词语的后面加上类型标签,形成标注文本,即语料;(4)特征选择:选取包括词特征、词性特征、词和词性特征的组合特征在内的各种特征,将语料及待识别的文本转换为特征向量的形式;(5)最大熵模型训练。建立最大熵模型,利用标注好的
专利地区:天津
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。