网页数据抓取过滤方法专利登记公告
专利名称:网页数据抓取过滤方法
摘要:本发明公开了一种网页数据抓取过滤方法,包括如下步骤:a)获取网页Html代码;b)将Html转化为XML序列表;c)对XML序列表利用信息关键词进行模糊匹配获取网页数据。本发明提供的网页数据抓取过滤方法,通过先将Html全面XML序列化,再采用模糊过滤的方式获取XML文件中的网页数据,从而实现快速、较准确的对海量网站数据进行抓取及过滤。
专利类型:发明专利
专利号:CN201110448055.5
专利申请(专利权)人:维构(上海)文化传媒有限公司
专利发明(设计)人:金炜杰
主权项:一种网页数据抓取过滤方法,其特征在于,包括如下步骤:a)?获取网页Html代码;b)?将Html转化为XML序列表;c)?对XML序列表利用信息关键词进行模糊匹配获取网页数据。
专利地区:上海
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。