一种基于网页结构语义的互联网信息对象定位方法专利登记公告

专利名称：一种基于网页结构语义的互联网信息对象定位方法

摘要：本发明属于互联网技术领域，具体为一种基于网页结构语义的互联网信息对象定位方法。本发明方法首先将检索到的相关网页的HTML代码转换为DOM树结构；然后根据互联网信息对象语义词典为每个文本节点进行语义匹配，分配不同的语义角色，对每一个DOM树的内部节点（非叶节点）计算其结构语义熵值，以衡量其语义丰富程度；最后综合熵值与网页的层次结构关系，反映某个节点内语义信息的聚集程度，在大量网页中判断指定信息对象所在的网页区域，进而抽取出所需数据。本发明的一种应用实例是互联网药品信息搜索和分析。

专利类型：发明专利

专利号：CN201210061434.3

专利申请（专利权）人：复旦大学

专利发明（设计）人：李银胜;廖逸;吴晓彦;顾轶灵;沈元一

主权项：一种基于网页结构语义的互联网信息对象定位方法，其特征在于具体步骤如下：第一步：网页预处理?首先，根据语义词典中DOM元素的定义，过滤掉HTML代码中的样式控制的标签，并且将与网页实际内容无关的标签及其内容去除；然后，利用开源的NekoHTML工具包对HTML代码进行处理，扫描HTML代码并进行标签补偿；最后，将HTML源代码转换成DOM树形式，使抽取程序可以通过标准的DOM接口访问其信息；第二步：语义匹配?首先在DOM树中找出包含语义信息的节点，为节点内的文本分配语义角色，从而为定位属性聚集区域提供语义信

专利地区：上海

超过800万条软件/作品著作权公告信息！

一种基于网页结构语义的互联网信息对象定位方法专利登记公告