一种基于标点连续性的通用网页正文提取方法及其系统专利登记公告
专利名称:一种基于标点连续性的通用网页正文提取方法及其系统
摘要:本发明公开了一种基于标点连续性的通用网页正文提取方法及其系统,包括读入文件,转化为Unicode的处理步骤;去除噪声标记信息的处理步骤;生成html标记树的处理步骤;处理正文格式信息的处理步骤;提取文本节点生成文本句子序列的处理步骤;利用常用的标点对文本序列块重新分句的处理步骤和利用标点的连续性原理提取最长连续正文的处理步骤。这种利用标点的连续性来获取网页正文的方式,具有处理速度快、适应性强和通用性强的特点。
专利类型:发明专利
专利号:CN201110446701.4
专利申请(专利权)人:厦门市美亚柏科信息股份有限公司
专利发明(设计)人:胡海斌;赵庸;张雪峰
主权项:一种基于标点连续性的通用网页正文提取方法,其特征在于:包括如下步骤:读入文件,并把读入的文件转化为Unicode的字符流形式的html源代码;对html源代码进行预处理,用预置的噪声标记来去除html源代码中存在的一些对于网页正文提取无帮助作用的字符串;生成html标记树,通过预置的解析工具把html源代码表示成标记树的形式;对标记树中的正文格式信息进行处理,用预置的特定字符去替换对应的格式信息;提取文本文字的节点并采用过滤算法生成html标记树中的文字节点序列;定义一个文章的常用标点集合P={。,:;“
专利地区:福建
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。