文本串的二次散列提取专利登记公告
专利名称:文本串的二次散列提取
摘要:本发明涉及数据压缩和关键词识别。第一遍走查文本串、生成各个项、为每个生成项计算散列值。对于每个散列值,创建一个散列桶,其中维护相关联的出现计数。散列桶可以根据出现计数进行排序,并且少数几个排在前面的桶得到保留。一旦知道了这些排在前面的桶,则第二遍可以走查该文本串、生成各个项、为每个生成项计算散列值。如果项的散列值与某一个保留的桶的散列值匹配,则可以认为这个项是频繁项。因此,这个项就连同相对应的频率计数一起添加到词典中。然后,可以对词典进行审查,移除并非频繁但是由于散列冲突而出现的那些项。
专利类型:发明专利
专利号:CN200880109407.0
专利申请(专利权)人:微软公司
专利发明(设计)人:D·普赞
主权项:一种用于识别文本的方法,所述方法包括:生成用在文本串(105)中的多个生成项(305);从所述多个生成项(305)计算多个散列值;创建分别与所述多个散列值相对应的多个散列桶(310);维护分别对应于所述多个散列桶(310)的多个出现计数值,所述多个出现计数值中的每一个分别指示所述多个生成项(305)中的具有分别对应于所述多个出现计数值各自的散列桶的散列值的那些项在所述文本串(105)中出现的次数;舍弃所述多个散列桶(310)中其各自的出现计数值小于第一预定值的那些桶;将词典项添加到词典(120)中,所述词
专利地区:美国
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。