基于句子级别的文本特征提取方法和文档拷贝检测系统专利登记公告
专利名称:基于句子级别的文本特征提取方法和文档拷贝检测系统
摘要:本发明属于拷贝检测技术领域,具体为一种基于句子级别的文本特征提取方法和文档拷贝检测系统。本发明提出的基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子;本还提出基于句子级别的文档拷贝检测系统,该系统包括文档读取子系统、断句子系统、特征提取子系统、拷贝检测子系统和序列匹配子系统,可以高速准确地找出文档集合中包含部分拷贝的文档对,并定位互为拷贝的范围。
专利类型:发明专利
专利号:CN201210000918.7
专利申请(专利权)人:复旦大学
专利发明(设计)人:俞昊旻;张奇;黄萱菁
主权项:一种基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子;?设一个Low?IDF?Sig特征si表示为一条紧跟在一个先行词ai后的具有固定长度ci的词链,该词链的取词间隔为一个固定值dj?;使用标记ai(di,ci)表示一个先行词为ai,词链长度为ci,取词间隔为di的Low?IDF?Sig特征si;具体步骤如下:(1)给定先行词集合A,词链长度c,取词间隔d;(2)遍历句子中的每个词,若词汇出现在先行词集合中,词汇当前位
专利地区:上海
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。