一种基于双视图主动学习技术的跨语言文本分类方法专利登记公告
专利名称:一种基于双视图主动学习技术的跨语言文本分类方法
摘要:本发明涉及一种基于双视图主动学习技术的跨语言文本分类方法,具体步骤为:(1)构造双视图:利用机器翻译工具,将所有源语言文本翻译成目标语言,将所有目标语言文本翻译成源语言,则每一篇文本都有了两种语言的版本;(2)训练初始分类器:首先利用其源语言的版本训练得到一个分类器,再利用其目标语言的版本训练得到一个分类器;(3)主动学习过程:扩充训练集,并利用新的训练集,重新训练分类器,最后得到两个增强的分类器;(4)分类过程:使用增强的分类器进行分类。本发明通过主动学习技术增强跨语言文本分类效果,同时需要人工标注的目
专利类型:发明专利
专利号:CN201110453251.1
专利申请(专利权)人:北京理工大学
专利发明(设计)人:戴林;刘越
主权项:一种基于双视图主动学习技术的跨语言文本分类方法,设源语言和目标语言分别表示为E和C,源语言训练集表示为TRe,另有额外的目标语言未标注文本集合表示为Uc;则跨语言文本分类方法具体步骤如下:(1)构造双视图:利用机器翻译工具,将所有源语言文本翻译成目标语言,将所有目标语言文本翻译成源语言,则每一篇文本都有了两种语言的版本;将每种语言的版本看作是一种视图,则每篇文本都具有了两种视图,分别为E视图和C视图;对于TRe,其双视图版本表示为TR;对于Uc,其双视图版本表示为U;(2)训练初始分类器:用TR作为训练集
专利地区:北京
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。