超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

一种通过链接快速识别网页类型的方法及系统专利登记公告


专利名称:一种通过链接快速识别网页类型的方法及系统

摘要:本发明公开了一种通过链接快速识别网页类型的方法,包括步骤:1)构建链接归一词典;2)提取链接;3)读取链接归一词典,生成前缀字符串;4)快速预判链接前缀类型;5)判别链接类型;6)有效链接传给网络蜘蛛。本发明还公开了实现上述方法的系统,包括:链接归一词典、链接提取模块、前缀提取模块、类型预判模块以及类型判别模块。该系统及方法利用网页链接地址的命名规律,从链接地址中提取出前缀字符串和归一字符串,利用字符串之间的比对,快速判断出网页的类型,从而提高了网页类型识别的速度和网络蜘蛛的工作效率。

专利类型:发明专利

专利号:CN201010590389.1

专利申请(专利权)人:盛乐信息技术(上海)有限公司

专利发明(设计)人:陈运文

主权项:一种通过链接快速识别网页类型的方法,其特征在于,包括以下步骤:1)构建链接归一词典,将所需网页类型和对应的链接归一规则及归一字符串保存到该链接归一词典中;2)从网络蜘蛛已经抓取的网页中提取出所有链接;3)到链接归一词典中读取归一字符串,从中提取出前缀字符串;4)判断步骤2)的链接中是否包含有步骤3)的前缀字符串,若有,则到链接归一词典中找出该前缀字符串对应的归一字符串、归一规则和网页类型,转到步骤5);若没有,则转到步骤3),处理下一条链接;5)根据步骤4)的归一规则,生成该链接的归一字符串,并与步骤4)

专利地区:上海