基于RSS的多线程图文信息同步爬取的控制方法及系统专利登记公告
专利名称:基于RSS的多线程图文信息同步爬取的控制方法及系统
摘要:本发明提供一种基于RSS的多线程图文信息同步爬取控制方法,用于对网页中的图片、文字信息进行分类获取,其包括如下步骤:a.通过RSS文档分析程序分析待爬取的目标网页文件;b.获取所述目标网页的URL;c.对所述目标网页数据进行过滤分析,采用广度优先策略获取有用信息的URL;d.将所述有用信息的URL进行存储;e.下载所述步骤d中的每个所述有用信息的URL对应的网页内容;f.针对所述步骤e中的每个网页内容执行所述步骤a。本发明还提供一种基于RSS的多线程图文信息同步爬取控制系统。本发明具有以下优点:(1)适宜
专利类型:发明专利
专利号:CN201110002993.2
专利申请(专利权)人:华东师范大学
专利发明(设计)人:吕钊;李琴;黄小霞;俞云飞;梁璐;蔡颂梅;陈鹏
主权项:?一种基于RSS的多线程图文信息同步爬取控制方法,其用于对网页中的图片、文字信息进行分类获取,其特征在于,包括如下步骤:a.?通过RSS文档分析程序分析待爬取的目标网页文件;b.?获取所述目标网页的URL;c.?对所述目标网页数据进行过滤分析,采用广度优先策略获取有用信息的URL;d.?将所述有用信息的URL进行存储;e.?下载所述步骤d中的每个所述有用信息的URL对应的网页内容;f.?针对所述步骤e中的每个网页内容执行所述步骤a。
专利地区:上海
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。