超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

基于句子级别的文本特征提取方法和文档拷贝检测系统专利登记公告


专利名称:基于句子级别的文本特征提取方法和文档拷贝检测系统

摘要:本发明属于拷贝检测技术领域,具体为一种基于句子级别的文本特征提取方法和文档拷贝检测系统。本发明提出的基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子;本还提出基于句子级别的文档拷贝检测系统,该系统包括文档读取子系统、断句子系统、特征提取子系统、拷贝检测子系统和序列匹配子系统,可以高速准确地找出文档集合中包含部分拷贝的文档对,并定位互为拷贝的范围。

专利类型:发明专利

专利号:CN201210000918.7

专利申请(专利权)人:复旦大学

专利发明(设计)人:俞昊旻;张奇;黄萱菁

主权项:一种基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子;?设一个Low?IDF?Sig特征si表示为一条紧跟在一个先行词ai后的具有固定长度ci的词链,该词链的取词间隔为一个固定值dj?;使用标记ai(di,ci)表示一个先行词为ai,词链长度为ci,取词间隔为di的Low?IDF?Sig特征si;具体步骤如下:(1)给定先行词集合A,词链长度c,取词间隔d;(2)遍历句子中的每个词,若词汇出现在先行词集合中,词汇当前位

专利地区:上海