一种提取网页内容的实现方法专利登记公告
专利名称:一种提取网页内容的实现方法
摘要:一种提取网页内容的实现方法,包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,首先判断出导航页,并将导航页删除;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。本发明提供一种适用性良好、兼有较好实时性的提取
专利类型:发明专利
专利号:CN201210078159.6
专利申请(专利权)人:浙江盘石信息技术有限公司
专利发明(设计)人:刘金玉;田宁;刘崟;谭磊
主权项:一种提取网页内容的实现方法,其特征在于:所述实现方法包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,根据统计的根节点的链接总长度α、文本总长度β、链接总个数γ,定义链接密度为设定R是链接密度的阈值,T是链接总个数的阈值,如果当前的布局块的链接密度和链接总个数均大于阈值,则判定为导航页;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表
专利地区:浙江
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。