基于分布式计算的大规模社交网络信息抽取方法专利登记公告
专利名称:基于分布式计算的大规模社交网络信息抽取方法
摘要:本发明公开了一种基于分布式计算的大规模社交网络信息抽取方法,首先预处理新闻论坛网站,抽取其新闻-用户关系网络,使用新闻-用户列表的元组将新闻-用户关系网络以文件的形式进行存储,其中每个元组包含了某个新闻及其相关用户列表;以新闻-用户列表元组文件作为输入,计算出每个实体用户相关的新闻数量以及每对用户之间共同评论的新闻数量,并分别以相应的元组形式储存为中间结果文件;以求出的两个中间结果文件构造用户新闻表以及用户新闻共同评论表,扫描这两张表来得到|N(u)N(v)|的值,由此计算最终的关系强度。本发明提出了一种
专利类型:发明专利
专利号:CN201210098643.5
专利申请(专利权)人:南通大学
专利发明(设计)人:施佺;陈建平;邵叶秦;丁卫平;何鹏
主权项:一种基于分布式计算的大规模社交网络信息抽取方法,其特征是:包括下列步骤:(1)首先预处理新闻论坛网站,抽取其新闻?用户关系网络,使用新闻?用户列表的元组将新闻?用户关系网络以文件的形式进行存储,其中每个元组包含了某个新闻及其相关用户列表;(2)以步骤(1)新闻?用户列表元组文件作为输入,通过两轮Map/Reduce分布式计算,当用户调用程序Map/Reduce函数,要实现对每个用户累积评论的新闻数量统计的大型文档文件,通过基于分布式计算的Map/Reduce来实现社交网络中各个用户新闻评论的次数信息抽取,
专利地区:江苏
关于上述专利公告申明 : 上述专利公告转载自国家知识产权局网站专利公告栏目,不代表该专利由我公司代理取得,上述专利权利属于专利权人,未经(专利权人)许可,擅自商用是侵权行为。如您希望使用该专利,请搜索专利权人联系方式,获得专利权人的授权许可。