一种违规在线商品检测方法专利登记公告
专利名称:一种违规在线商品检测方法
摘要:一种违规在线商品检测方法,包括以下步骤:(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取;(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,找到包含网页中多个结构相似的信息块的最小深度的节点为临界节点,形成相关联信息点进行抽取的规则并建立模板,从爬虫获取的网页信息中提取商品属性信息数据;(3)建立语义字典,对提取的商品属性信息通过基于字符匹配的方法进行分词;(4)采用人工建立违规语义库,通过函数IllegalList将违规语义库中的词汇,和经过分词的商品属性信息相关内容词语字段进行识别
专利类型:发明专利
专利号:CN201210078995.4
专利申请(专利权)人:浙江盘石信息技术有限公司
专利发明(设计)人:张兰兰;田宁;谭磊;刘崟
主权项:一种违规在线商品检测方法,其特征在于:所述检测方法包括以下步骤:(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取:(11)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度并设定阀值,过滤掉与主题相关度小于阀值的页面,保留主题密切的链接放入队列,根据优先级从队列选取链接爬取,直到存放页面URL的队列为空为止;(12)对网络爬虫抓取的HTML网页,利用HTMLCleaner解析其结构层次关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构;(2)通过分析待检测在线商品所在的电子商
专利地区:浙江
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。