融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法专利登记公告
专利名称:融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
摘要:本发明属于多媒体信息处理技术领域,具体为一种融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法。本发明包含四个步骤:预处理和参数估计、基于Web的翻译候选获取、基于多特征的翻译候选表示、翻译结果的排序与评估。本发明采用Web挖掘获取语料,多特征表示翻译候选以及基于有监督学习的翻译候选排序相结合的方法。与传统方法相比较,本发明的优势在于:语料获取方法及预处理简单、表示翻译候选的特征全面、翻译结果准确率高。未登录词翻译一直是文本处理的重点和难点之一,本发明提出较为有效的汉英未登录词翻译方法,这对于机器翻
专利类型:发明专利
专利号:CN201210100424.6
专利申请(专利权)人:复旦大学
专利发明(设计)人:张玥杰;苏艳霞;金城;薛向阳
主权项:一种融合Web挖掘、多特征表示和有监督学习的汉英未登录词翻译方法,其特征在于具体步骤如下:(1)?预处理和参数估计:给定一个中文未登录词,将其作为查询输入至Google搜索引擎中搜索,设置搜索引擎返回英文结果,获取初始的网页摘要集;然后,对摘要集过滤、去除超链接,只保留正文中由中文和英文片段组成的文本信息,作为最终用于翻译的语料;在翻译工作开始之前,进行参数估计,这些参数包括返回的网页摘要数、翻译候选的初始排序方法、用于英文翻译候选噪声过滤;(2)?抽取英文关键词:从返回的网页摘要集中,先抽取在文本中连续
专利地区:上海
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。