基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法专利登记公告
专利名称:基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
摘要:本发明公开了一种基于垂直搜索和聚焦爬虫技术的网页分类识别系统,其特征在于所述系统包括应用表示模块、数据采集模块和内容解析模块,所述数据采集模块通过Web协议完成对网页数据的采集,然后将采集到的页面数据交给内容解析模块;所述内容解析模块根据数据采集模块采集的页面数据进行HTML解析,提取页面中的超链接,将超链接加入到URL队列中,得到网址类别和URL的对应关系表;所述应用表示模块接受用户输入关键字进行搜索,将搜索到的特定领域的网址和/或所属的网址类别结果反馈给用户。通过开发建设过程中实际运行和测试,很好的体
专利类型:发明专利
专利号:CN201210034195.2
专利申请(专利权)人:苏州亚新丰信息技术有限公司
专利发明(设计)人:曹武龙;王国圃
主权项:?一种基于垂直搜索和聚焦爬虫技术的网页分类识别系统,其特征在于所述系统包括应用表示模块、数据采集模块和内容解析模块,所述数据采集模块通过Web协议完成对网页数据的采集,然后将采集到的页面数据交给内容解析模块;所述内容解析模块根据数据采集模块采集的页面数据进行HTML解析,提取页面中的超链接,将超链接加入到URL队列中,得到网址类别和URL的对应关系表;所述应用表示模块接受用户输入关键字进行搜索,将搜索到的特定领域的网址和/或所属的网址类别结果反馈给用户。
专利地区:江苏
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。