一种基于网页结构语义的互联网信息对象定位方法专利登记公告
专利名称:一种基于网页结构语义的互联网信息对象定位方法
摘要:本发明属于互联网技术领域,具体为一种基于网页结构语义的互联网信息对象定位方法。本发明方法首先将检索到的相关网页的HTML代码转换为DOM树结构;然后根据互联网信息对象语义词典为每个文本节点进行语义匹配,分配不同的语义角色,对每一个DOM树的内部节点(非叶节点)计算其结构语义熵值,以衡量其语义丰富程度;最后综合熵值与网页的层次结构关系,反映某个节点内语义信息的聚集程度,在大量网页中判断指定信息对象所在的网页区域,进而抽取出所需数据。本发明的一种应用实例是互联网药品信息搜索和分析。
专利类型:发明专利
专利号:CN201210061434.3
专利申请(专利权)人:复旦大学
专利发明(设计)人:李银胜;廖逸;吴晓彦;顾轶灵;沈元一
主权项:一种基于网页结构语义的互联网信息对象定位方法,其特征在于具体步骤如下:第一步:网页预处理?首先,根据语义词典中DOM元素的定义,过滤掉HTML代码中的样式控制的标签,并且将与网页实际内容无关的标签及其内容去除;然后,利用开源的NekoHTML工具包对HTML代码进行处理,扫描HTML代码并进行标签补偿;最后,将HTML源代码转换成DOM树形式,使抽取程序可以通过标准的DOM接口访问其信息;第二步:语义匹配?首先在DOM树中找出包含语义信息的节点,为节点内的文本分配语义角色,从而为定位属性聚集区域提供语义信
专利地区:上海
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。