超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种文本数据的对齐方法和装置专利登记公告


专利名称:一种文本数据的对齐方法和装置

摘要:本发明提供了一种文本数据的对齐方法及装置,该方法包括:获取第一语言文本数据和第二语言文本数据;对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量;根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言文本数据的相似度;根据相似度对第一语言文本数据和第二语言文本数据进行对齐。通过上述方式,本发明提供的文本数据的对齐方法及装置基于跨语言主题进行相

专利类型:发明专利

专利号:CN201110053885.8

专利申请(专利权)人:北京百度网讯科技有限公司

专利发明(设计)人:吴华;蓝翔;沈文竹

主权项:一种文本数据的对齐方法,其特征在于,所述对齐方法包括:a.获取第一语言文本数据和第二语言文本数据;b.对所述第一语言文本数据和所述第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;c.计算所述第一语言文本数据属于每一所述跨语言主题的概率,以形成第一特征向量,并计算所述第二语言文本数据属于每一所述跨语言主题的概率,以形成第二特征向量;d.根据所述第一特征向量和所述第二特征向量计算所述第一语言文本数据和所述第二语言文本数据的相似度;e.根据所述相似度对所述第一语言文本数据和所述第二语言文本数据进行对齐

专利地区:北京