一种文本数据的对齐方法和装置专利登记公告
专利名称:一种文本数据的对齐方法和装置
摘要:本发明提供了一种文本数据的对齐方法及装置,该方法包括:获取第一语言文本数据和第二语言文本数据;对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量;根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言文本数据的相似度;根据相似度对第一语言文本数据和第二语言文本数据进行对齐。通过上述方式,本发明提供的文本数据的对齐方法及装置基于跨语言主题进行相
专利类型:发明专利
专利号:CN201110053885.8
专利申请(专利权)人:北京百度网讯科技有限公司
专利发明(设计)人:吴华;蓝翔;沈文竹
主权项:一种文本数据的对齐方法,其特征在于,所述对齐方法包括:a.获取第一语言文本数据和第二语言文本数据;b.对所述第一语言文本数据和所述第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;c.计算所述第一语言文本数据属于每一所述跨语言主题的概率,以形成第一特征向量,并计算所述第二语言文本数据属于每一所述跨语言主题的概率,以形成第二特征向量;d.根据所述第一特征向量和所述第二特征向量计算所述第一语言文本数据和所述第二语言文本数据的相似度;e.根据所述相似度对所述第一语言文本数据和所述第二语言文本数据进行对齐
专利地区:北京
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。