超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种基于双视图主动学习技术的跨语言文本分类方法专利登记公告


专利名称:一种基于双视图主动学习技术的跨语言文本分类方法

摘要:本发明涉及一种基于双视图主动学习技术的跨语言文本分类方法,具体步骤为:(1)构造双视图:利用机器翻译工具,将所有源语言文本翻译成目标语言,将所有目标语言文本翻译成源语言,则每一篇文本都有了两种语言的版本;(2)训练初始分类器:首先利用其源语言的版本训练得到一个分类器,再利用其目标语言的版本训练得到一个分类器;(3)主动学习过程:扩充训练集,并利用新的训练集,重新训练分类器,最后得到两个增强的分类器;(4)分类过程:使用增强的分类器进行分类。本发明通过主动学习技术增强跨语言文本分类效果,同时需要人工标注的目

专利类型:发明专利

专利号:CN201110453251.1

专利申请(专利权)人:北京理工大学

专利发明(设计)人:戴林;刘越

主权项:一种基于双视图主动学习技术的跨语言文本分类方法,设源语言和目标语言分别表示为E和C,源语言训练集表示为TRe,另有额外的目标语言未标注文本集合表示为Uc;则跨语言文本分类方法具体步骤如下:(1)构造双视图:利用机器翻译工具,将所有源语言文本翻译成目标语言,将所有目标语言文本翻译成源语言,则每一篇文本都有了两种语言的版本;将每种语言的版本看作是一种视图,则每篇文本都具有了两种视图,分别为E视图和C视图;对于TRe,其双视图版本表示为TR;对于Uc,其双视图版本表示为U;(2)训练初始分类器:用TR作为训练集

专利地区:北京