一种基于循环策略的深层网页数据获取方法专利登记公告
专利名称:一种基于循环策略的深层网页数据获取方法
摘要:本发明公开了一种基于循环策略的深层网页数据获取方法。本发明提出使用循环策略分多次完成对所有数据源的数据获取,当获取某一数据源的效率下降到某一阈值时,停止当前数据源的数据获取,爬虫开始获取下一个数据源的数据,依次类推直到把所有待集成数据源都获取一遍;然后再重复上述过程,直到所有待集成数据源都已达到结束条件。本发明使一部分应该从一些数据源数据获取后期获得的数据,从另一些数据源数据获取的前期或中期获得。与传统一次性穷尽数据获取方法相比,本发明能减少数据源后期的数据获取,降低了数据获取的代价,同时也能减少重复数据
专利类型:发明专利
专利号:CN201210151881.8
专利申请(专利权)人:江苏省现代企业信息化应用支撑软件工程技术研发中心
专利发明(设计)人:鲜学丰;崔志明;杨元峰;赵朋朋;梁颖红
主权项:一种基于循环策略的深层网页数据获取方法,其特征在于,包括以下步骤:步骤一、分别对多个同一领域的数据拳中的每一个数据源预设多个不同的查询关键词;步骤二、依次对每一个数据源进行数据获取,其中,当对所述多个数据源中的第一个数据源进行数据获取时,计算当前数据源中的各查询关键词的查询效率,并按照查询效率对当前数据源中的查询关键词进行排序,根据查询效率从大到小的顺序依次选择各查询关键词对当前数据源进行一次又一次的数据获取,直到所述当前数据源的连续进行的α次数据获取的新数据获取率均不大于一新数据获取率阈值,则中止对当前
专利地区:江苏
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。