自动过滤停用词的方法专利登记公告
专利名称:自动过滤停用词的方法
摘要:本发明揭示了一种自动过滤停用词的方法,用于过滤掉文本中的停用词,该方法包括:预处理步骤,预处理步骤中将文本进行分解和类化,以压缩词库的规模;查找绝对停用词并过滤绝对停用词步骤,其中绝对停用词包括与语料特异性质无关的词;查找相对停用词并过滤相对停用词步骤,其中相对停用词采用自然语言而非离散关键词的组合表述;动态识别停用词步骤,基于与一个词相关联的上下文的文本长度和词的位置计算词为停用词的条件概率,将具有大于一条件概率阈值的条件概率的词识别为停用词并进行过滤。采用本发明的自动过滤停用词的方法,对于停用词的判断
专利类型:发明专利
专利号:CN201010607997.9
专利申请(专利权)人:上海杉达学院
专利发明(设计)人:王宵栋;张丽晓
主权项:一种自动过滤停用词的方法,用于过滤掉文本中的停用词,其特征在于,该方法包括:预处理步骤,预处理步骤中将文本进行分解和类化,以压缩词库的规模;查找绝对停用词并过滤绝对停用词步骤,其中绝对停用词包括与语料特异性质无关的词;查找相对停用词并过滤相对停用词步骤,其中相对停用词采用自然语言而非离散关键词的组合表述;动态识别停用词步骤,基于与一个词相关联的上下文的文本长度和词的位置计算所述词为停用词的条件概率,将具有大于一条件概率阈值的条件概率的词识别为停用词并进行过滤。
专利地区:上海
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。