超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

自动过滤停用词的方法专利登记公告


专利名称:自动过滤停用词的方法

摘要:本发明揭示了一种自动过滤停用词的方法,用于过滤掉文本中的停用词,该方法包括:预处理步骤,预处理步骤中将文本进行分解和类化,以压缩词库的规模;查找绝对停用词并过滤绝对停用词步骤,其中绝对停用词包括与语料特异性质无关的词;查找相对停用词并过滤相对停用词步骤,其中相对停用词采用自然语言而非离散关键词的组合表述;动态识别停用词步骤,基于与一个词相关联的上下文的文本长度和词的位置计算词为停用词的条件概率,将具有大于一条件概率阈值的条件概率的词识别为停用词并进行过滤。采用本发明的自动过滤停用词的方法,对于停用词的判断

专利类型:发明专利

专利号:CN201010607997.9

专利申请(专利权)人:上海杉达学院

专利发明(设计)人:王宵栋;张丽晓

主权项:一种自动过滤停用词的方法,用于过滤掉文本中的停用词,其特征在于,该方法包括:预处理步骤,预处理步骤中将文本进行分解和类化,以压缩词库的规模;查找绝对停用词并过滤绝对停用词步骤,其中绝对停用词包括与语料特异性质无关的词;查找相对停用词并过滤相对停用词步骤,其中相对停用词采用自然语言而非离散关键词的组合表述;动态识别停用词步骤,基于与一个词相关联的上下文的文本长度和词的位置计算所述词为停用词的条件概率,将具有大于一条件概率阈值的条件概率的词识别为停用词并进行过滤。

专利地区:上海