一种基于分布式并行计算框架的机器翻译方法专利登记公告
专利名称:一种基于分布式并行计算框架的机器翻译方法
摘要:本发明涉及一种基于分布式并行计算框架的机器翻译方法,首先在机群上部署分布式计算环境,并在每个数据节点都部属机器翻译引擎;将需要翻译的语言信息经过预处理后分块存储在分布式文件系统中,然后启动多个任务进行分布式并行翻译,并将翻译之后的结果进行汇总,形成最终翻译之后的文档。本发明通过采用分布式并行计算框架实现了翻译任务的并行执行,大大提高了翻译系统的翻译效率,并具有良好的可扩展性。
专利类型:发明专利
专利号:CN201110453278.0
专利申请(专利权)人:北京理工大学
专利发明(设计)人:翟岩龙;罗壮;黄河燕;刘培志
主权项:一种基于分布式并行计算框架的机器翻译方法,包括以下步骤:第一步:在机群上部署Hadoop分布式计算环境,其中一台为调度节点即名字节点,其余为计算节点即数据节点,然后在每个计算节点上都部署机器翻译引擎;第二步:设定HDFS分布式文件系统的数据分块大小;第三步:对于输入的海量语言信息进行预处理,将待翻译信息按照文档、段落、句子进行编号;将预处理后的待翻译文档以Hadoop特有文件格式HAR进行文件聚合,将大量小文件聚合为大文件,然后提交给MapReduce集群计算系统中的调度节点;第四步:调度节点根据设定的数
专利地区:北京
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。