本文摘自《拆穿数据胡扯》作者:[美]卡尔·伯格斯特龙/[美]杰文·韦斯特著,36氪经授权发布。

创业时,刘强东说京东的员工都是自己的“兄弟”,兄弟是不会被京东开除的,还放话要让每位员工的收入都堪比县处级干部的水平。

而现在,京东恭喜这些员工顺利从京东“毕业了”。

刘强东是在说谎吗?不,他只是在胡扯。

他这种胡扯很容易被发现,这种老派胡扯一般采用花哨的修辞加上华丽的辞藻,试图将人绕晕。

比如:

别人问你得过什么大奖,你说“美国《时代周刊》2006年度人物《感动中国》2008年度人物特别奖”。

吃瓜群众不得不惊呼一声“牛B”。

实际上,2006的《时代周刊》年度人物是:You。“You”指的是使用用户分享网站的每一个网民。

而2008年感动中国年度人物特别大奖,获奖者是全体“中国人”。

(来源:百度)

科技在进步,胡扯也有了新手段,新派胡扯使用数学、科学和统计语言来制造严谨 准确的印象。它们利用数字、统计数据和数据图表粉饰那些可疑的论断,给它们披上了一层合理的外衣,大众认可的一个观点是“用数据说话”。

比如一些关于中国男足的事实:

即使是巴西队这样的世界强队也仅战胜过中国队1次

中国队在世界杯正赛阶段的不失球记录已延续19年

世界杯淘汰赛的点球大战中中国队完成恐怖的0失球……

这种欺骗性数据是该报警的地步。

互联网的隐蔽性给了胡扯很好的表演场所,社交媒体的兴起给了胡扯完美的传播速度。

可以说互联网引发了前所未有的胡扯大流行

借用富兰克林·D.罗斯福的国务卿科德尔·赫尔说的话,那就是:

“真相还没来得及穿好裤子,谎言就已经跑过半个地球了”。

所以,为了能够网上冲浪时保持头脑清醒,我们需要拆穿胡扯。

真相只有一个,胡扯也有套路

那么胡扯到底是什么?

胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的。

胡扯为什么无处不在呢?

首先就是每个个体都在试图向别人兜售某些东西,商品或者是想法,想想那些大饼都是怎么画出来的;

其次,人类拥有认知工具,知道哪些胡扯是有效的;

最后,复杂的语言使得人们可以制造出无数种胡扯。

有些话听起来很有道理,但也只是听起来

人们很喜欢收集两件事存在关联性的证据,然后告诉你一件事导致了另一件事。

18世纪,英国哲学家休谟提出了一种怀疑主义观点,他认为,人们从来没有亲身体验或亲眼证实过因果关系本身,人们看到的永远是两个相继发生的现象。所以,一切被称为因果关系的东西都是值得怀疑的,应该重新审视。

如果有人说吸烟不会导致癌症,而是癌症导致吸烟呢?

似乎很荒唐,但这正是史上最伟大的统计学家之一罗纳德·费希尔试图证明的论断。费希尔指出,肺部的慢性炎症与癌症或癌前的状态存在关联性。他推测,也许这种炎症会造成一种不适,而吸烟的行为可以缓解这种不适。

如果是这样,处于癌症发展过程中的人可能会把吸烟作为一种缓解症状的方式。那些没有患癌症的人就不太可能染上这种习惯。

那么,说癌症导致吸烟是不是有些言过其实了呢?

当然,事实证明费希尔的想法不正确,但他一直很重视对因果关系的推断提出质疑——同时也可能是为他喜爱吸烟斗这个习惯进行辩护。

选择偏倚,你看到什么取决于你看的是哪儿

如果想要了解2019年的婚姻制度有多健康,可是试试脸书的搜索查询:

可以看到这些自动补全都是甜蜜的。因为在脸书上,人们会尽可能把生活描述的尽可能好。但如果将同样的内容放到谷歌搜索中,就会看到非常不同的结果:

人们在寻求帮 助时似乎都会求助于谷歌,在吹嘘自己的生活时则会用到脸书。我们 找到什么样的结果,取决于我们看的是哪儿。

放到国内的平台,小红书人均富婆、收入百万,知乎人均985。

但是打开国家统计局网站,可以看到2021年全国居民人均可支配收入35128元;

根据第46次《中国互联网络发展状况 统计报告》,可以看到,大学本科及以上的网民只占8.8%。

(来源:中国互联网络发展状况 统计报告)

在生活中,我们会将一些事情归结于坏运气。比如等的公交车永远不来,一旦不需要赶公交,就会发现那班车随时都在出现;排队时自己那一列永远最慢,只要一换到一旁,原本那列就会迅速移动。

这其实是一种选择效应,因为我们可能只是在较长的公交车间隔期出现,所以需要等待很长的时间。

数据可视化,越花哨越可疑

在纽约长岛弗兰德斯有一个高大的鸭子雕像。它是一个养鸭户在1931年建造的,用来出售鸭子和鸭蛋。现在这里已经不再出售鸭子,而是成为一个路边景点了。

(来源:网络)

但作为一座建筑,大鸭子并没有什么特别的功能。在建筑理 论中,它已经成为形式优先于功能的标志。而

“鸭子”一词被用来指代装饰超过用途的建筑。

数据可视化是将数据转换成图或表等,以一种更直观的方式展现和呈现数据。

数据可视化中的“鸭子”让数据装得很可爱,冲淡了图形中有意义的数据,读者很难理解它表示的数据。

这是一个被扭曲成羊角的饼形图,看起来足够有趣,但是读者很难对这些数量进行数量比较。

数据可视化中的“鸭子”可能 不是彻头彻尾的胡扯,但他们会朝着那个方向演变。

而且数据可视化中的“鸭子”数据图正在慢慢渗入科学文献中。

还有一类被称为“水晶鞋”的数据可视化可以说是完美的胡扯。

在格林兄弟的原版《灰姑娘》中,灰姑娘的姐姐为了能够穿上又小又硬的水晶鞋,一个人切掉了脚趾,一个人削平了脚后跟。

“水晶鞋”将一种类型的数据强行填入完全不合适的 数据可视化形式中,从而给人一种严谨的错觉,来表现自己的权威性。

维恩图(由相互重叠 的椭圆构成,用于表示隶属于多个群组项的成员关系)就是非常受欢 迎的“水晶鞋”。

这是一篇关于利用推特数据研究公众参与撰写科学论文的科学论 文中的配图,看起来像是韦恩图,但实际上相互嵌套的椭圆只是3个数字和5个单词的装饰背景,看不出来它要表达什么。

数据可视化可能有意或无意地造成误导。幸运的是,如果你 知道自己在寻找什么,那么大部分的欺骗还是很容易辨别的。

问问自己,设计者设计的图表是为了准确地反映底层数据,还是 说希望它传递的信息更贴近设计者希望你相信的信息。

如何撕掉数据伪装直面真实

华盛顿大学打算开一门课叫“Calling Bullshit”,教给大家在大数据时代摈弃那些打着数学和统计学幌子的信息噪声。

名人演讲中的数据、媒体报道中的科学新进展,你能分辨哪些是值得留意的信号,哪些是胡扯的噪声吗?

华盛顿大学的教授卡尔·伯格斯特龙和杰文·韦斯特一同撰写了《拆穿数据胡扯》,教给读者如何判断数据胡扯,撕破那些披着科学语言外衣的观点,找到真正有用的信息。

所以,如何能够看透网络上的胡扯呢?

一些书中小tips:

1.证实和三角互证

一条辨别胡扯的一般性原则:如果一个说法好得(或者糟糕得)不像是真的,那它很可能就不是真的。

如果你遇到令人惊讶的言论或戏剧性的新闻报道,而且发现它们来源不明,就应该使用搜索引擎看看你是否能从其他来源找到同样的言论。

如果没有,那就非常可疑。即使一家新闻机构发现了一条独家新闻,在它第一个报道之后,其他报纸也会迅速跟进。

一定要确保报道这件事的人有可靠的消息来源。造谣活动可能会在不可靠的媒体植入同一条假消息的多个不同版本。

2.质疑信息来源

受过专业训练的记者在遇到任何一条信息时,都会问下面这些简单的问题:

这个消息是谁告诉我的?他或她是怎么知道的?他们想向我兜售什么东西?

当我们浏览社交媒体信息或听晚间新闻,或者阅读刚出版的杂志关于健康的那一页内容时,我们需要问同样的问题。

3.追溯消息的最初来源

不要仅看新闻标题或推文,要阅读完整的新闻报道。如果发现新闻报道来自一个经常耸人听闻的渠道,溯源工作不要就此打住。继续挖掘新闻报道涉及的第一手的文章或报道,或者在深入挖掘之后自行研究挖掘到的那些数据。

4.使用反向图像搜索。一些搜索引擎提供了反向图像搜索服务,你上传一张图片或视频中的几个画面,搜索引擎会告诉你在网上的什么地方可以找到该图片或该视频。这是网上没有充分利用的事实核查工具之一。

5.避免证真偏差

极端言论在社交媒体上很受欢迎,那些再一次确认我们本来就相信的事实的帖子也是如此。这就给我们带来了辨别胡扯的又一条经验法则:避免证真偏差。

证真偏差是指人们往往会注意、相信和分享与我们已有信念相一致的信息。如果某个言论与我们相信的东西相一致,我们更倾向于接受它,而不太可能怀疑它的真实性。

证真偏差是互联网上错误信息泛滥的一个重要因素。我们一直在努力训练自己避免证真偏差。我们希望自己能做到高度谨慎,敢于质疑与我们对这个世界的既有认识相一致的言论。

6.注意深度换脸等合成技术

互联网上的陌生人可能是身处任何地方的任何人。所谓的深度换脸技术可以生成不存在的人的逼真图像。要记住,即使有人出现在“照片”中,他或她也可能不是真人。

7.确保你知道你在和谁打交道

网络很虚假的,和你聊天到深夜的可能是秃头大汉,带你发财致富的人可能坐在电脑前正在买跑路的机票。

就像其他网络诈骗者一样,假新闻制造者会花样百出,让他们提供的信息显得更加真实可信。通过精心设计,假新闻可能会让人觉得是一家大型报纸或电视台发布的数百条新闻中的一条,但如果你再深入挖掘,就会发现这家报纸或电视台根本不存在。

有时候,假新闻网站的广告看起来像是来自有一定声誉的商家,但实际上是把你送到骗子网站的陷阱。

8.减少信息摄入

休息一下,一天发几次呆,在“华丽错过”时能做到怡然自得,而不是为错过的东西焦虑不安。这会增强你在网上以怀疑的眼光处理信息的能力。

最重要的是,使用社交媒体时,一定要记住“多思考,少分享”这句箴言。社交媒体不仅信息量大,还可以加快我们互动的速度,因此有可能让我们上瘾。但作为负责任的公民,我们必须让我们的信息环境尽可能地保持洁净。在信息高速公路上,我们应该约束自己。上网时,我们不能再像以前那样随手把垃圾扔出车窗,然后一头扎进匿名的黑夜。

《拆穿数据胡扯》带你看透互联网的虚假与真实,从海量数据和观点中,分辨科学的信号与噪声,并培养摒弃信息噪声的本能。

书名:《拆穿数据胡扯》作者:[美]卡尔·伯格斯特龙/[美]杰文·韦斯特,出版社:中信出版集团

作者简介

卡尔·伯格斯特龙(Carl Bergstrom)

美国华盛顿大学生物学系教授。他研究流行病如何在人群中传播,以及信息如何大规模地在生物和社会系统中流动——从细胞内对基因表达的控制到社交媒体上错误信息的传播。他最为人所知的是跨界整合自然科学和社会科学思想的能力,特别是在信息研究领域造诣很深。2010年以来,他发表了多篇前瞻性的文章,涉及信息科学、计算机科学、控制论、进化生物学、信息论、科学哲学、物理学等方面。其中有很多都发表在《自然》《科学》《美国国家科学院院刊》上。

杰文·韦斯特(Jevin D.West)

美国华盛顿大学信息学院副教授、公众知情中心主任。

推荐内容