一种分布式文本拷贝检测系统专利登记公告
专利名称:一种分布式文本拷贝检测系统
摘要:本发明属于电子文本拷贝检测技术领域,具体为一种针对大规模文档集中两两文档间进行拷贝检测的分布式索引建立以及分发方法和一种分布式文本拷贝检测系统。所述方法是将整个文档集上的拷贝检测分割成个若干的子任务,每个子任务中只用到单个计算机节点中保存的文档和整个文档集所有文档集的一部分文档组成的索引,从而使得每个子任务可以在单独的节点上运行,减小了网络开销。系统基于Map-Reduce技术,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架,具有良好的可扩展性,适合处理大规模文本集上的拷贝检测,电子文
专利类型:发明专利
专利号:CN201210001424.0
专利申请(专利权)人:复旦大学
专利发明(设计)人:张玥;张奇;黄萱菁
主权项:一种分布式文本拷贝检测系统,其特征在于系统基于Map?Reduce技术,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架;电子文本数据集通过磁盘等介质作为输入进入到拷贝检测系统,系统由多台计算机组成的集群对电子文本数据进行处理,将互为拷贝的文档对结果以文件形式输出到磁盘上;电子文本数据集简称文档集,每个文档包括一个唯一标示的ID和内容;本系统包括为:分布式计算框架子系统,特征提取子系统,文本索引子系统,索引分发子系统,拷贝检测子系统,分布式文件存储子系统,分布式缓存子系统七个子系统;?所
专利地区:上海
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。