[ 返回 EurekAlert! 中文 ] 公开发布日期: 2016年01月11日
[ | 用电子邮件传送文章 ]
[ 中文 (Chinese) | 英文 (English) ]

联系人: 刘知远
liuzy@tsinghua.edu.cn
中国科学杂志社

量化分析技术揭秘中文社交媒体谣言

“突发心脏病时,口服两颗阿司匹林可以救命!”、“三星赔偿苹果10亿美元的5美分硬币。”你很有可能曾在微博或微信中看到过类似信息,但实际上它们都是被反复证伪过的谣言。社交媒体上都流传着哪些谣言?这些谣言都是谁发布的?为什么会有人相信并主动参与传播这些谣言?近日,一项针对中文社交媒体谣言的研究,利用自然语言处理等量化分析技术,为我们揭开了这些谣言的神秘面纱。

该研究由清华大学智能技术与系统国家重点实验室的刘知远助理研究员和孙茂松教授主持,其他研究人员包括博士生张乐和涂存超。研究相关论文题为“中文社交媒体谣言统计语义分析”,发表于《中国科学:信息科学》2015年第12期的“社会媒体处理专题”。

谣言大肆传播是让中外在线社交媒体头疼不已的问题。当出现自然灾害、事故灾难、公共安全等突发事件时,谣言便如魅影般四处游荡,对社会秩序造成极大破坏,甚至引发舆情危机。作为重要的社会现象,谣言一直是社会学家们的重点关注对象。然而受到数据收集和分析手段的限制,目前关于中文社交媒体谣言的研究主要是针对个别案例的定性分析,让我们无从了解社交媒体谣言的全貌。

清华大学研究团队收集了在新浪微博平台上广泛传播的近万个谣言案例,利用自然语言处理等定量分析技术,对谣言大数据进行了全面的统计、语义和时序分析,为我们揭开了社交媒体谣言传播背后许多不为人知的秘密。

这项研究发现,大量举报谣言的用户所举报的谣言往往与自己相关,例如微博用户“美汁源饮料”举报了大量关于“‘美汁源果粒橙’含有农药”的谣言。而大量发布谣言的用户,则往往带有网络水军的性质。

这项研究利用主题分析技术,将谣言划分为“政治类”、“经济类”、“欺诈类”、“社会生活类”和“常识类”五大类。通过时序分析技术,研究发现,“常识类”谣言由于受众广、辟谣难度大,经常会在社交媒体反复出现,形成多次传播高峰。关于知名人士或机构的谣言,由于关注人数众多,经常会在发布之初出现转发峰值;而由于辟谣难度低(相关人士或机构会迅速出面辟谣),这些谣言往往在一周内就会消亡。这项研究还揭示了人们相信谣言的两大原因——知识受限(“阿司匹林可以治疗心脏病”)和时空受限(某时某地发生某个事件)。

有句谚语称“当真相还在穿鞋,谣言已经跑遍半个世界”,如何高效地从海量信息中甄别谣言,已成为在线社交媒体面临的巨大挑战。该研究采用自然语言处理和专家发现技术,有机融合机器智能和群体智能,提出了面向社交媒体的自动辟谣框架,为社交媒体实现快速辟谣提供了可行方案和参考依据。

###

该项研究得到了国家自然科学基金(No.61202140)、国家社科基金重大招标项目(No.13&ZD190)、国家973计划(No.2014CB340501)的资助。

更多详情请阅原文:刘知远, 张乐, 涂存超, 孙茂松. 中文社交媒体谣言统计语义分析. 中国科学 信息科学, 2015, 45(12): 1536-1546. http://info.scichina.com/sciF/CN/10.1360/N112015-00243

《中国科学》杂志社

Science China Press http://www.scichina.com/



[ 返回 EurekAlert! 中文 ] [ | 用电子邮件传送文章 ]
[ 中文 (Chinese) | 英文 (English) ]