一种基于动态知识的深层网页数据获取方法专利登记公告
专利名称:一种基于动态知识的深层网页数据获取方法
摘要:本发明公开了一种基于动态知识的深层网页数据获取方法。本发明利用集成系统已获取的数据动态构建知识,并在集成系统动态知识的基础之上进行查询关键词的选择,也就是说在对数据源进行数据获取时,利用所获取的数据提取新的查询关键词,以扩展查询候选池,并更新查询关键词的统计知识,从而提高了查询选择的准确性,并进一步提高了数据获取的覆盖率。在使用循环策略进行数据获取时,对于每个数据源可以多次利用丰富后的集成系统动态知识进行查询选择,从而有效率提高查询选择的准确性,提高数据获取的效率。
专利类型:发明专利
专利号:CN201210150789.X
专利申请(专利权)人:崔志明;鲜学丰;赵朋朋;杨元峰
专利发明(设计)人:崔志明;鲜学丰;赵朋朋;杨元峰
主权项:一种基于动态知识的深层网页数据获取方法,其特征在于,对同一领域的多个数据源进行数据获取,其中,对所述多个数据源中的一个数据源进行数据获取,是通过以下过程实现的,包括以下步骤:步骤一、为当前数据源预设n个查询关键词,从n个查询关键词中选择第一个查询关键词,根据该查询关键词在当前数据源上进行第一次数据获取,所述数据获取过程为:在当前数据源上执行,从当前数据源下载与当前查询关键词匹配的数据记录;步骤二、重复步骤一,且当重复步骤一的次数达到rK次之后,其中rK<n,r为大于等于1的整数,在根据第rK+1个查询关键
专利地区:江苏
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。