面向深层网页面数据自动抽取方法专利登记公告
专利名称:面向深层网页面数据自动抽取方法
摘要:本发明公开了一种面向深层网页面数据自动抽取方法,属于计算机数据挖掘领域,首先获取同一站点的两个深层网页面,分别标记为页面一和页面二;用HTMLTidy转换工具将页面一和页面二的HTML文档转换为XHTML文档;然后对页面一和页面二进行清噪处理;将页面一和页面二进行重复模式消除处理后生成网页数据抽取包装器;提取页面时先将待抽取数据的页面进行清噪处理;然后用网页数据抽取包装器先对经过清噪后的页面进行标记,最后抽取标记后的页面,本发明提高了重复模式消除算法和匹配算法的效率,降低了抽取复杂度,该方法中针对重复模式
专利类型:发明专利
专利号:CN201210086024.4
专利申请(专利权)人:重庆大学
专利发明(设计)人:冯永;王慧娟;钟将;周尚波;李季
主权项:一种面向深层网页面数据自动抽取方法,其特征在于包括以下步骤:S1、获取同一站点的两个深层网页面,分别标记为页面一和页面二;用HTML?Tidy转换工具将页面一和页面二的HTML文档转换为XHTML文档;?S2、对页面一和页面二进行清噪处理;S3、将页面一和页面二进行重复模式消除处理;S4、生成网页数据抽取包装器;S5、将待抽取数据的页面????????????????????????????????????????????????进行清噪处理;S6、网页数据抽取包装器先对步骤S5中经过清噪后的页面进行标记
专利地区:重庆
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。