超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种文章类型网页智能抽取系统及其方法专利登记公告


专利名称:一种文章类型网页智能抽取系统及其方法

摘要:一种文章类型网页智能抽取系统,包括:待抽取网页载入模块、包装器查询模块、网页抽取模块、抽取失败网页收集模块、学习判断模块、网页学习模块、抽取包装器管理模块。

专利类型:发明专利

专利号:CN201110455156.5

专利申请(专利权)人:凤凰在线(北京)信息技术有限公司

专利发明(设计)人:吴华鹏;曾明;厉锟

主权项:一种文章类型网页智能抽取系统,包括:(1)待抽取网页载入模块,定时查询本地索引,发现新索引就按照索引将网页载入系统内存中;(2)包装器查询模块,对所有待抽取的网页,查询具体抽取包装器信息,如果查询到,就按照抽取包装器,进入抽取模块,进行具体抽取,否则,将网页标记为抽取失败;(3)网页抽取模块,从网页中抽取出具体文章信息,借助已有的抽取包装器;(4)抽取失败网页收集模块,将本轮抽取失败的网页收集起来,按网站分类,以方便进行集中学习;(5)学习判断模块,按同网站查询抽取失败网页集合,根据每一网站的失败网页数量

专利地区:北京