一种文本的候选关键词的提取方法专利登记公告
专利名称:一种文本的候选关键词的提取方法
摘要:本发明公开了一种文本的候选关键词的提取方法,给每个自然词确定对应的词项,并存储到自然词数据库中,设置多个候选关键词模板,存入模板库,根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项,从模板库中按顺序抽取候选关键词模板,按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应当前文约束项序列的自然词组合作为候选关键词,直到所有的候选关键词模板完成比对。采用了本发明的技术方案,能够提高文本的标引质
专利类型:发明专利
专利号:CN201110337333.X
专利申请(专利权)人:天脉聚源(北京)传媒科技有限公司
专利发明(设计)人:韩建波
主权项:一种文本的候选关键词的提取方法,其特征在于,包括以下步骤:A、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中;B、设置不少于1个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括不少于2个约束项,每个约束项包括一个自然词字段和一个预定的词项;C、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项;D、从模板库中按顺序抽取1个候选关键词模板;E、按照所述文本的自然词的
专利地区:北京
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。