超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种提取网页内容的实现方法专利登记公告


专利名称:一种提取网页内容的实现方法

摘要:一种提取网页内容的实现方法,包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,首先判断出导航页,并将导航页删除;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。本发明提供一种适用性良好、兼有较好实时性的提取

专利类型:发明专利

专利号:CN201210078159.6

专利申请(专利权)人:浙江盘石信息技术有限公司

专利发明(设计)人:刘金玉;田宁;刘崟;谭磊

主权项:一种提取网页内容的实现方法,其特征在于:所述实现方法包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,根据统计的根节点的链接总长度α、文本总长度β、链接总个数γ,定义链接密度为设定R是链接密度的阈值,T是链接总个数的阈值,如果当前的布局块的链接密度和链接总个数均大于阈值,则判定为导航页;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表

专利地区:浙江