本文选自中信书院阅读时差栏目。阅读时差动态实时同步全球前沿新知,为你打破知识的国界。
本期阅读时差为你分享的这本书是《人人都在说谎》。
《人人都在说谎》
赛思·斯蒂芬斯-达维多维茨 著
在这本书中,作者将带你用大数据揭示生活中那些常见谎言背后的真相。
你知道在自由平等的口号下,许多美国人仍然是种族歧视者吗?人们都喜欢听那些让他们自我感觉良好的谎言,然而凭借互联网的保护,人们却敢在网上坦陈最为奇怪的事情。在屏幕前,人们放下戒备,用键入字符的方式表达自己心中的不快与万千思绪,这些数据将成为窥探人类心灵的前所未有的机会,在这本书中,数据会带领你走向一个比现实更加真实的世界,你会发现这个世界的运转方式与你猜测的大相径庭。
本书的作者赛思·斯蒂芬斯-达维多维茨是《纽约时报》的专栏作家、沃顿商学院客座讲师,前谷歌数据科学家。他从斯坦福大学获得了哲学学士学位,后又获得了哈佛大学经济学博士学位。他深入挖掘互联网的新数据,试图带领读者了解人们的真实想法,这些数据会让你捧腹大笑,会让你大吃一惊,甚至会让你深感不安,但最重要的是,这些数据会让你重新思考。
接下来我将按照作者在原书中的思路,从三个方面为你详细阐述本书的内容。
首先,我们来看看大数据是如何颠覆我们的直觉的;
其次,是大数据在哪些方面可以发挥什么样的功用;
最后,是大数据在应用时有什么做不到和不能去做的事情。
好了,让我们系上安全带,一起去感受大数据的洪流给我们的认知带来的颠覆吧。
1
如何用数据重新审视世界
虽然好的数据有时是一种出乎意料的直觉,但直觉并不总是忠诚于现实。比如,直觉通常会告诉我们在贫穷家庭长大的孩子更容易进入NBA球队,但事实上,在调查了职业篮球运动员的出生地、得分王母亲的婚姻状况等相关条件之后,这种看法被证明是错误的,球员所在家庭的社会经济地位越高,成长的家庭氛围越幸福,进入NBA球队的可能性越大,这样违反常理的直觉有着合乎理性的解释,因为良好的经济条件保障了球员成长过程中的营养水平,使其身高、体型等身体素质潜能得以充分释放,另外,在幸福家庭下成长的球员情商相对较高,这意味着他们有更强的适应力去应对复杂的环境。
我们生活中还有很多直觉经不起大数据的检验,例如,经验告诉我们,如今的互联网导致了人们日渐疏离,因为互联网给了我们不加干涉的自由选择空间,大部分人只在互联网中寻找与他们志趣相投的人,但数据证伪了这种直觉,之前有两位经济学家用数据估量了互联网上的政治隔离状况,他们发现在同一新闻网站上,持有对立观点的人“相遇”的概率约为45%,而在生活中遇到和你持有对立政治观点的同事的概率约为42%,朋友则低至35%。因此比起互联网的隔离,在线下生活中你对同事、朋友等的过滤与选择反倒会造成比互联网更加严重的信息隔离。
既然直觉没有大数据那么可靠,那大数据究竟有哪些强大的功能可以帮助我们重新审视世界呢?接下来我们来看本书的第二部分内容,大数据的强大功能。
2
大数据的强大功能
1
大数据的第一大功能:它是“数字吐真剂”,就是说大数据可以提供真实、可信的数据。正是借着互联网的保护,人们得以在屏幕前吐露最真实的心声。
生活中,人们可以将自己的性癖好隐藏起来,但却瞒不过互联网,作者第一次接触色情网站时,发现了一些让人惊讶的事实,大量访问主流色情网站的人都在搜索乱伦主题的图片,男性搜索排名前100的词条中,有16个在搜索乱伦主题的视频,涉及的是关于母子的场景,而女性搜索前100的词条中有9个是关于父女乱伦场景的搜索。
虽然色情网站的数据无法准确地告诉我们,在观看视频时,人们真正幻想的人是谁,他们真的是在幻想和自己的父母发生关系吗?关于这点,谷歌搜索可以提供更多的线索,的确有很多人有这样的欲望。我们都知道谷歌搜索中会有自动补全的功能,试试“我想和某某人做爱”这个形式的搜索你就会发现,补全这个搜索最常见的词汇就是“妈妈”,另外根据妻子对丈夫的检索记录可以发现,最常见的成年男性恋物癖,有些是希望穿着尿布让妈妈哺乳。显然,儿时的生活经历对成年男性的性幻想产生了巨大的影响,这些广泛使用的色情内容,以及随后生成的搜索和观点数据,是我们人类了解性行为及其背后秘密的重大进步。
有关性的话题,人们往往在互联网上要比现实中更加诚实,但性爱并不是人们唯一会隐藏的秘密,互联网能吐露更多的真相。
比如说,在谷歌上你会发现有许多人会问“为什么黑人很粗鲁”“为什么犹太人如此邪恶”这样的问题,更让人惊讶的是,美国人搜索“杀死穆斯林”和搜索“鸡尾酒马提尼配方”、“偏头痛症状”的频率是相同的,虽然政治上处处在宣扬美国早就已经是一个平等、自由、没有偏见的社会,但是互联网上的数据却与现实大不相同,借由这个功能,我们可以发现看似阳光普照的美国社会中依然存在着对少数族裔的歧视、对同性恋的偏见与压迫,对儿童的虐待等阴暗的角落,这些我们所不愿意承认的真相,在互联网面前暴露无遗。
2
大数据不仅提供了真实可信的数据,还带来了新的视角,如今不同主题、不同形式的数据为我们打开了许多扇窗户,让过去仅能进行猜测的领域,借由数据得以一窥其样貌,接下来我们来看大数据的第二点功能:提供新型数据。
新型的数据不仅仅包括我们最常见的数字化数据,图片和文字也能作为大数据的数据来源。
文字怎么成为数据呢?几位科学家曾发起过一项关于约会中词语的使用对约会结果影响的研究,他们除了考量身高、职业、爱好等常规因素之外,让约会者带上录音机,对约会的录音做了数字化处理,记录下双方使用的词汇、笑声和语气。他们发现,特定词汇的使用能表现出双方的兴趣线索,如果女性在约会中频频使用“大概”“我猜” “可能”这样模棱两可的词汇时,说明她们可能不太喜欢约会的男性。当她们大量地使用“我”这样凸显自我表达的词汇,以及采用“你知道吗?我的意思是说……”这样温暖、友好、能够吸引听者注意力的词汇时,则表达了她们想要与对方产生联系。你懂我的意思,对吗?
文字同样也可以用于对媒体政治倾向的研究,一个相同的概念,不同的党派通常会用不同的语言进行表述,每个词语都有自己的属性,通过统计这些含有倾向性词语的使用,我们能判断一个媒体是更倾向于保守还是激进,我们还发现报纸的自由度是由特定地区政治倾向所决定的,也就是说媒体为了吸引读者总是为他们的群众提供他们想要的报道,总之,连新闻都是产品,人们撰写新闻报道时,对词语的考量就跟研究超市货架的摆放没有什么区别。
除了文字,图片也能成为数据的一部分并有着重要的价值,比如超市流水线的照片、货摊上货物的充足程度能反映一个地区经济的状况,数百年来人们的面部表情的变化也能推测人们思维状况的改变,这些新的发现都是基于这些新型数据得出的,新型、非常规的数据拓宽了大数据的定义,当站在一个更广的视野下去定义什么是大数据时,我们会对许多事物有新的洞见。
3
有了如此多的数据,即便我们只提取大数据的一小部分子集数据进行分析,也是很有意义的,大数据的第三个功能就是允许我们放大数据的子集。
你觉得美国是一个充满机遇的国家吗?在之前一项关于机会平等的传统调查中,数据显示,在美国,如果父母身处收入分配最底层的20%,那么孩子长大后进入收入分配前20%的概率为7.5%,这一数据在丹麦是11.7%,在加拿大是13.5%,那得分并不高的美国是一个很难实现梦想的地方吗?大数据会告诉你:这取决于你出生在美国的什么地方。
与传统研究不同的是,大数据会通过放大不同地理区域的数据进行比较,研究团队发现在加州、华盛顿州这样高等学府分布较多的地区,孩子成功的概率明显高于美国的平均水平,也就是说,在某些地方,美国确实是一个充满了机遇的地方,但有一些地方不是。
放大数据子集还给我们提供了了解人类行为的诸多视角,曾有一项关于暴力电影究竟能在多大的程度上引起暴力行为的研究,两位经济学家将十年来美国联邦调查局每小时的犯罪数据、电影票房数据和每部电影的暴力指数三大数据整合在一起进行了比较研究,结果发现在放映人气颇高的暴力电影的周末,犯罪率不升反降。传统的心理学实验可能得出暴力电影会引起暴力行为的结论,但是大数据在放大了每个小时犯罪率的变化之后,发现正是电影的放映阻止了这些潜在的施暴者走向街头饮酒、游荡与犯罪。
如果不进行数据的局部放大,我们很有可能得出错误的结论,也很难发现这个世界是如此之复杂。
4
大数据还有最后一个更令人印象深刻的功能——它允许我们进行快速且受控制的试验。允许我们进行因果实验是大数据的第四大功能,什么意思呢?
试想你并没有足够的时间和财力去测试两个不同广告牌对产品销售带来的影响,但是这在网上就可以轻易实现,你只需要动几行代码,就能轻松地制作两种不同的界面,进而比较哪种特定的字体、颜色会让人更加频繁地使用你们的网站,或者在游戏中,哪项任务能够留住更多的用户。在网络上,这样的试验成本低,速度快,结果反馈快,操作简单,能够让我们在短期内得出准确的结果,填补了我们对认知的许多空白。
这样的试验虽然容易实现,但并非总能办到,例如你不能模拟一个国家在失去了一位重要领导人之后会发生什么,显然我们不能让领导人消失,然后做对照试验。所以说我们只能寻求自然条件下的试验,这也是经济学家最喜欢做的研究之一,最具有代表性的就是彩票的例子。为了检验意外横财的因果效应,经济学家比较了那些中彩票大奖的人和买彩票却没中的人,研究普遍发现,中彩票大奖短期内并不会使人快乐,但从长远来看确实会。
了解了大数据可以测试因果性这样一个强大的作用之后,我们便能从直觉的误区中走出来,通过真正的试验更好地理解世界,进而改善我们的决策。虽然这些测试现阶段大多用于商业,但它们将来一定会成为社会科学家的强大工具。
到这里我们来总结一下数据的四大功能:
第一是“数字吐真剂”,大数据提供了真实、可信的数据;
第二,大数据提供了新型的数据;
第三,大数据允许我们放大数据的子集;
第四,大数据允许我们进行因果测试。
那么大数据听起来这么全能,真的是无所不能吗?答案是否定的,其实大数据在应用的过程中存在诸多限制,这些限制有些是技术上的,有些则是伦理上的,让我们来看最后一部分,大数据做不到和不应该去做的事。
3
大数据做不到和不应该去做的事
大数据的技能在预测股票时能力就受限了,如果你想要用大数据来预测股价的涨跌,就很容易陷入到维度的诅咒中去,因为新的数据会带来比传统数据更多的变量和更多的维度。可能你哪天偶然发现一个因素与一个变量刚好相关,但是当你测试了足够多的样本后,发现两者并无关系,这就叫维度的诅咒,那么如何克服维度的诅咒呢?只能是必须保持谦虚,时刻对结果保持谨慎。
其次,在将大数据授权企业和政府使用时,还涉及到一些伦理道德问题。
授权企业时,部分企业会根据一些不相关的指标来判断用户是否应该享有他们的服务,例如在考量求职者的时候,雇主会考察其社交媒体上的信息,在银行借贷时,银行也会索引用户的社交媒体,根据社交媒体的信息判断是否应该向此人提供贷款,这并不是新的伦理问题,却给我们发出了一个警告:数据革命会带来一个危险,就是说,如果我们的真实生活不断地被量化,那些综合判断我们自身的数据终将侵犯到我们自己,听不懂?其实就是说,数据对我们预测得越准确,我们就越有可能被更加恶意而隐秘的歧视所限制。
授权政府时,大数据可以用来预防自杀和预测犯罪,举个例子,如果一个人频繁搜索如何杀死女友,那么他就有嫌疑去做这件事情,这就涉及到政府是否应该在犯罪行为发生之前就追究个人责任的问题,而且这似乎是对隐私权的侵犯,依靠政府干预个人犯罪层面,我们必须要小心谨慎。
总 结
书中的第一部分讲述了大数据是如何打破我们的直觉,带来新的认知机会的;
第二部分,我们了解了大数据的四个作用,即提供真实、可信的数据;提供新型的数据、允许放大数据子集、允许进行因果和相关性测试;
最后一部分则提醒我们大数据并非无所不能,而且在应用时有伦理道德的限制,我们必须将大数据小心轻放。
这就是本书的主要内容,也许大数据还需要一段时间才能引领社会科学和行为科学在人类的爱情、学习、生活等方面取得巨大进步,但我们相信,这种进步即将到来,希望你能在本书中看到这种发展进步的轮廓,希望你也能受到启迪,推动这种进步的产生。
评论留言