超过800万条软件/作品著作权公告信息!

提供基于中国版权保护中心以及各省市版权局著作权登记公告信息查询

标识文档内的关键短语专利登记公告


专利名称:标识文档内的关键短语

摘要:本发明涉及用于标识文档内的关键短语的方法、系统,以及计算机程序产品。本发明的实施例包括使用标签索引来确定文档主要与什么相关。一般而言,集成的数据流和提取-变换-加载流水线对数据库表中的文档大的语料库进行爬行、解析和断词。可将文档分成多个元组。可将元组发送至基于启发式的算法,该算法使用统计语言模型和权重+交叉熵阈值函数以将文档概括为其“前N个”统计上最显著的短语。因此,本发明的实施例有效地(例如,线性地)扩展,并可按显著和相关关键短语(标签)表征(潜在大量的)文档。

专利类型:发明专利

专利号:CN201110415245.7

专利申请(专利权)人:微软公司

专利发明(设计)人:S·盖尔曼;K·穆克吉

主权项:一种在包括一个或多个处理器和系统存储器的计算机系统处的用来标识文档内的关键短语的方法,所述方法包括:访问文档(112)的动作;计算所述文档(112)内多个不同文本短语(131,132,133)的出现频率(141,142,143)的动作,每一文本短语(131,132,133)包括指定语言的一个或多个单词;访问所述指定语言的语言模型(159)的动作,所述语言模型(159)至少为所述指定语言的各单词(161,162)定义期望出现频率(171,172);对于所述多个不同文本短语(131,132,133)中的每一文

专利地区:美国