超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

基于RSS的多线程图文信息同步爬取的控制方法及系统专利登记公告


专利名称:基于RSS的多线程图文信息同步爬取的控制方法及系统

摘要:本发明提供一种基于RSS的多线程图文信息同步爬取控制方法,用于对网页中的图片、文字信息进行分类获取,其包括如下步骤:a.通过RSS文档分析程序分析待爬取的目标网页文件;b.获取所述目标网页的URL;c.对所述目标网页数据进行过滤分析,采用广度优先策略获取有用信息的URL;d.将所述有用信息的URL进行存储;e.下载所述步骤d中的每个所述有用信息的URL对应的网页内容;f.针对所述步骤e中的每个网页内容执行所述步骤a。本发明还提供一种基于RSS的多线程图文信息同步爬取控制系统。本发明具有以下优点:(1)适宜

专利类型:发明专利

专利号:CN201110002993.2

专利申请(专利权)人:华东师范大学

专利发明(设计)人:吕钊;李琴;黄小霞;俞云飞;梁璐;蔡颂梅;陈鹏

主权项:?一种基于RSS的多线程图文信息同步爬取控制方法,其用于对网页中的图片、文字信息进行分类获取,其特征在于,包括如下步骤:a.?通过RSS文档分析程序分析待爬取的目标网页文件;b.?获取所述目标网页的URL;c.?对所述目标网页数据进行过滤分析,采用广度优先策略获取有用信息的URL;d.?将所述有用信息的URL进行存储;e.?下载所述步骤d中的每个所述有用信息的URL对应的网页内容;f.?针对所述步骤e中的每个网页内容执行所述步骤a。

专利地区:上海