超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种面向主题的获取动态页面内容的方法及系统专利登记公告


专利名称:一种面向主题的获取动态页面内容的方法及系统

摘要:本发明公开了一种面向主题的获取动态页面内容的方法及系统,属于网络数据采集技术领域。本方法为:1)在抓取服务器端建立一JavaScript过滤库和一JavaScript本地库;2)获取每一抓取页面的页面信息,生成当前页面的DOM对象;3)根据过滤库检验当前页面中请求的外部文件,如果与主题无关,则在当前页面的DOM对象相应位置设置无需加载标记,否则设置正常加载标记;4)如果标记为正常加载的外部文件存在于本地库,则设置本地加载标记,否则设置正常加载标记;5)执行当前页面中的JavaScript,获取动态页面信息

专利类型:发明专利

专利号:CN201210060335.3

专利申请(专利权)人:中国科学院计算机网络信息中心

专利发明(设计)人:归文胜;黎建辉;杨风雷

主权项:一种面向主题的获取动态页面内容的方法,其步骤为:1)在抓取服务器端建立一JavaScript过滤库和一JavaScript本地库;2)获取每一抓取页面的页面信息,生成当前页面的DOM对象;如果当前页面中使用宿主对象,则该抓取服务器将其实例化为相应对象;3)根据所述JavaScript过滤库检验当前页面中请求的外部JavaScript文件,如果与主题无关,则在当前页面的DOM对象相应位置设置无需加载标记,否则设置正常加载标记;4)对于标记为正常加载的外部JavaScript文件,如果当前处理的JavaScr

专利地区:北京