超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法专利登记公告


专利名称:基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法

摘要:本发明公开了一种基于垂直搜索和聚焦爬虫技术的网页分类识别系统,其特征在于所述系统包括应用表示模块、数据采集模块和内容解析模块,所述数据采集模块通过Web协议完成对网页数据的采集,然后将采集到的页面数据交给内容解析模块;所述内容解析模块根据数据采集模块采集的页面数据进行HTML解析,提取页面中的超链接,将超链接加入到URL队列中,得到网址类别和URL的对应关系表;所述应用表示模块接受用户输入关键字进行搜索,将搜索到的特定领域的网址和/或所属的网址类别结果反馈给用户。通过开发建设过程中实际运行和测试,很好的体

专利类型:发明专利

专利号:CN201210034195.2

专利申请(专利权)人:苏州亚新丰信息技术有限公司

专利发明(设计)人:曹武龙;王国圃

主权项:?一种基于垂直搜索和聚焦爬虫技术的网页分类识别系统,其特征在于所述系统包括应用表示模块、数据采集模块和内容解析模块,所述数据采集模块通过Web协议完成对网页数据的采集,然后将采集到的页面数据交给内容解析模块;所述内容解析模块根据数据采集模块采集的页面数据进行HTML解析,提取页面中的超链接,将超链接加入到URL队列中,得到网址类别和URL的对应关系表;所述应用表示模块接受用户输入关键字进行搜索,将搜索到的特定领域的网址和/或所属的网址类别结果反馈给用户。

专利地区:江苏