一种面向主题的获取动态页面内容的方法及系统专利登记公告
专利名称:一种面向主题的获取动态页面内容的方法及系统
摘要:本发明公开了一种面向主题的获取动态页面内容的方法及系统,属于网络数据采集技术领域。本方法为:1)在抓取服务器端建立一JavaScript过滤库和一JavaScript本地库;2)获取每一抓取页面的页面信息,生成当前页面的DOM对象;3)根据过滤库检验当前页面中请求的外部文件,如果与主题无关,则在当前页面的DOM对象相应位置设置无需加载标记,否则设置正常加载标记;4)如果标记为正常加载的外部文件存在于本地库,则设置本地加载标记,否则设置正常加载标记;5)执行当前页面中的JavaScript,获取动态页面信息
专利类型:发明专利
专利号:CN201210060335.3
专利申请(专利权)人:中国科学院计算机网络信息中心
专利发明(设计)人:归文胜;黎建辉;杨风雷
主权项:一种面向主题的获取动态页面内容的方法,其步骤为:1)在抓取服务器端建立一JavaScript过滤库和一JavaScript本地库;2)获取每一抓取页面的页面信息,生成当前页面的DOM对象;如果当前页面中使用宿主对象,则该抓取服务器将其实例化为相应对象;3)根据所述JavaScript过滤库检验当前页面中请求的外部JavaScript文件,如果与主题无关,则在当前页面的DOM对象相应位置设置无需加载标记,否则设置正常加载标记;4)对于标记为正常加载的外部JavaScript文件,如果当前处理的JavaScr
专利地区:北京
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。