有了大数据这个工具，“社会科学”也许可以变得更让人信服！

原创傅一平与数据同行 2021-10-16

收录于话题 #傅一平的大数据思维 27个内容

这是傅一平的第248篇原创

作者：傅一平

个人微信：fuyipingmnb

突然要写这篇文章是发现朋友圈好友贴了这篇文章：《左派右派不只不共戴天终于发现一些共识》，见下图，然后质疑道：“调查方法和脚本科学吗？样本可信且无污染吗？样本数量足够大吗？.......我怀疑教授看不懂我的问题。”

的确，以前没大数据只能设计下问卷抽样调查，那叫没办法，但大家都知道问卷调研其实问题很多，数量太少、样本偏差、诱导式提问都会导致完全不一样的结果，这些传统方法在诸如预测谁当总统等场景的时候败得一塌糊涂.

而讨论左派右派这种复杂、敏感性的社会问题，嘴上说的、心里想的、实际做的可以完全不同，问卷调研实施难度就更大了，你说怎么办？

因此，我们需要新的手段，而在这个人人会上网的时代，人们向搜索引擎吐露了心声。

当前大数据已经突飞猛进，但在社会领域，很多学者似乎还没有适应这些新的工具，即使号称用到了这些方法，也很少说明怎么做的。

笔者想，现在很多的企业大数据都搞得如火如荼，是否大学的社会研究也要与时俱进，如果有志于用数据分析解决真正的社会问题，这个领域现在非常值得进入。

最近正好读到万维刚在得到《精英日课》讲解的书籍《人人说谎：大数据、新数据以及关于真实的你我，互联网能告诉我们什么》（ Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are ），里面提到很多用大数据洞察的社会科学的问题，作者是赛斯·史蒂芬斯-大卫德威茨（Seth Stephens-Davidowitz）。）。

赛斯的简历很有意思，本科是在斯坦福大学学的哲学，博士是哈佛学的经济学，他之前在Google做数据科学家，现在在沃顿商学院当老师。

万维刚说：我们的文科教育似乎不太可能培养出来数据科学家 —— 而赛斯这个跨学科的经历，对他在这本书里说的事情却是十分重要的。

我们来看看赛斯是如何利用大数据这个工具，来讨论社会问题的，虽然这本书的各种结论不是完全可靠，但至少比“”常识“可信，而且他用的数据很多还是公开的，笔者自己也验证了下，还是蛮有趣的。

01 如何判断左派和右派？

就以美国为例，假设共和党偏右，民主党偏左，我们就有一些判别办法，同样一件事情，共和党和民主党在叙事的时候，关注点和措辞会有所不同，比如房地产产税，民主党管它叫“estate tax（遗产税）”，而共和党就管它叫“死亡税（death tax）”，倾向性非常明显，咱们来欣赏下两党的不同说法：

美国共和党和民主党对于同一词汇的不同表达

研究者可以从各种社交媒体中去找这些词组，你就大致可以判定哪些媒体偏左，哪些媒体偏右，用到个人身上大致也靠谱。结果发现，媒体的政治偏见，是由地域决定的，这家媒体覆盖地区的人大多有什么样的政治倾向，这家媒体就是什么政治立场，如此说来，媒体并没有什么自己的立场，他们只是看读者想听什么，他们就说什么，真正起决定性作用的是市场。

笔者其实很想知道，中国网民左派占比6.2%，右派占比38.7%，这些数字到底是怎么统计来的，不会是冲上去问你是左派还是右派吧，很多人根本不知道左派和右派到底是什么意思。

02 种族，地域歧视如何判别？

问两个社会问题，奥巴马嫩刚当上总统，是否说明美国没有种族歧视？某某省人真的被更多的人歧视吗，到底有多严重？

第一个问题赛斯有自己的研究手段，即Google Trends，第二个问题笔者用了百度指数。

“nigger”这个词的意思是“黑鬼”，是对黑人非常严重的辱骂，赛斯发现，奥巴马第一次当选总统前夕，跟“Obama”这个词连在一起的搜索中，有1%，包含“nigger”这个词，在某些州，搜索“nigger president（黑鬼总统）”的人，比搜索“first black president（第一位黑人总统）”的人还要多。

这个比例似乎不大，但是落实到选票上，赛斯估计，以全国总数而言，奥巴马至少因为种族歧视少拿了4个百分点的选票，奥巴马当选总统，不是因为美国没有种族歧视，也不是因为种族歧视对选举的影响很小，而是因为奥巴马和民主党在其它方面的优势实在太大！

然后笔者很想知道美国的黑人歧视趋势是否在变好，因此自己去验证了一下，2004年1月的时候“nigger”这个词的搜索指数是91，而到了2018年10月只有45了，说明14年间美国黑人歧视严重程度下降了一半。

美国搜索“nigger（黑鬼）”关键词的变化趋势（Google Trends）

同理，要判定国内地域歧视也可以采取类似的方法，这里笔者选了涉及歧视的诸如XX省人等关键词，然后通过百度指数做了比对，不同省被歧视的程度是完全不同的，比如这里的两个省被歧视程度就差了2-3倍：

关于某两个省的地域歧视关键词的比对（百度指数）

当然采用这种研究方法，最担心的问题是使用网上搜索数据获得的结论可能是有偏见的，毕竟你研究的都是“会使用搜索引擎的人”，这些人都有多大的代表性呢？他们的文化程度，甚至收入水平，可能都高于一般人。

但有三个方面的因素让我觉得方法还是靠谱的，第一是现在大部分人都已经学会了上网，2018年8月中国网民已经超过8亿，第二是大部分人在网上搜索的东西是和他自身状况相关的，像我这样纯粹出于好奇心去搜索的人应该很少，第三研究采用的要么是搜索结果和搜索结果比对，要么是看发展趋势，比如不是比较搜索和未搜索的人比对，而是这个省和那个省对于同样关键词的搜索结果比较。

03 杭州如何成了抑郁高发地？

我们知道好天气能让人心情愉快，而阴雨连绵或是寒冷的天气，则让人心情也糟糕，笔者记得以前做过一个通信行为的分析，只要是下雨，人们就会减少打电话的频次，10年前这个影响是下雨让计费收入下降5个点，每次领导要求分析计费收入波动的原因时，自己就会去飘渺水云间（浙大一个BBS）查看天气版记录的去年/前年的天气情况以便比对，运营商也得看天吃饭啊。

我们回到赛斯的例子。

美国有些地方，像芝加哥的天气就常常是阴冷的，而有些地方，像加州和夏威夷，就常常是阳光灿烂，记得以前听高晓松的脱口秀栏目时，他就说自己喜欢加州，阳光明媚，躺在沙滩上等等，真的是放松心情的好地方。

好，那么现在有个问题：一个住在芝加哥的抑郁症患者，为了治疗抑郁症，他是不是应该搬家到夏威夷呢？

这个问题的关键就在于我们“知道”搬到夏威夷会缓解抑郁症，但是我们不知道这个缓解的程度是大是小。我们需要一个量化的评估。

Google搜索数据可以帮助你，研究显示，住在夏威夷的人，搜索“抑郁症”的比例，比像芝加哥这样的寒冷地区下降了40%，这个效果有多好呢？要知道，哪怕最好的抗抑郁药物，也只能让抑郁症的发病率减少20%。

笔者想通过百度指数验证下国内的情况，发现似乎没有这个规律，比较了广东和辽宁，广东日均搜索值1621（上网人口8000万），辽宁日均搜索值605（上网人口2700万），两者按人口比例算相差无几，是否是因为国人传统上并不太认可抑郁是种病，也就很少去搜索相关信息求助了，可惜Google Trends和百度指数的热度指标含义不同，否则看看搜索数量就大致可以推测了。

但看了城市的“抑郁症”搜索排名，却有些意外，排在前五的是北京，杭州，上海，深圳，成都，而杭州按人口比例算应该还超过了北京，想想杭州多如牛毛的互联网创业公司，也许你能找到答案。

搜索“抑郁症”的城市排名

04 朋友圈是真实人生吗？

赛斯说，美国有一本杂志叫《大西洋月刊》，主要是刊登时政和思想方面的内容，是比较高级的杂志，美国还有一本流行杂志叫《国民探秘者》，讲的都是明星的隐私，迎合低级趣味，你大概会愿意让别人知道你读《大西洋月刊》，但你不会想让人知道你读《国民探秘者》。通过这两个杂志的数据，我们可以对比一下公开和私下的区别。

这两本杂志的发行量是1：1，它们在网上被搜索的次数也是1：1，Google搜索可以说是非常真实地反应了这两本杂志的实际影响力。可是，这两本杂志在Facebook页面被点击喜欢按钮的次数是27：1。

在社交网站上，我们更倾向于表现出优越感，但不可否认，大家都喜欢八卦，你有那么八卦吗？你最喜欢的就是八卦，我们的朋友圈很多高大上，但我们的实际行动很多上不了台面，比如笔者前几天跑步突破6分钟，马上在朋友圈里贴了出来，但却没说其实膝盖疼的越发厉害，得再休息几天啊。

什么叫作真实呢？

来看看“读书”的热度跟“范冰冰”的热度之比是1：200，”阅读”与”范冰冰”的热度之比是1：100，就连最近的热点“诺贝尔奖”与”范冰冰”的热度之比还是1：30，你说这没可比性，笔者就特意挑了美国的最火明星泰勒·斯威夫特，但“reading”与“Taylor Swift”热度之比却是反过来的2：1。

搜索“读书”、“范冰冰”、“阅读”、“诺贝尔奖”的百度指数

搜索“Taylor Swift”、“reading”的Google指数

你说这不客观，代表读书的关键词并不仅仅是读书啊，那么，我们还可以看趋势！以为随着物质水平的提升，全民读书的热情最近几年肯定在增加啊，什么知识付费、得到、知乎、混沌大学啥的轰轰烈烈，但现实似乎很残酷，“读书”这个搜索关键词7年来竟然没有什么上升，甚至还在下降。

自2011年以来的搜索“读书”的百度指数趋势

但美国“reading”这个关键词的搜素却是增加的：

美国自2011年以来的搜索“reading”的Google指数趋势

到底是百度指数的问题，还是真的有问题？我们以为没那么夸张，但大数据也许观察到了真相。

05 是谁把你变成了粉丝？

前段时间张学友来杭州开演唱会，笔者错过了，懊悔不已，因为自己是张学友的粉丝，而当下那些流行音乐都是些什么啊，难度现在的年轻人审美真的这么LOW吗？

反思下觉得是自己不对，因为当初迷恋谭咏麟的时候，母亲也说过同样的话，这唱的什么啊，听都听不懂，当时真的难以理解父母那一辈，现在好了，大数据来帮你解惑了。

赛斯和他弟弟相差四岁，两人长得很像，但他们的兴趣爱好很不一样，比如赛斯非常喜欢棒球，而他弟弟对棒球完全无感，这个情况挺普遍的，一个家庭的几个孩子，按理说基因应该差不太多，在家里的生活环境还是一样的，为什么会有不同的爱好呢？

这个问题，一般的心理学家，什么教育专家，都很难回答，因为你不可能长期跟踪记录一个人的成长，但大数据可以，大数据发现，一个人是否会成为某只球队的球迷，跟这支球队夺冠的时候，这个人的年龄有关。

下面这张图说的是棒球，横坐标是一只球队夺冠的时候，你的年龄是多少岁，纵坐标是这个夺冠事件让你在成年以后成为球迷的概率增加了多少：

最关键的年龄是八到十岁。如果你八岁的时候，家乡的一支球队夺冠了，你就容易成为这支球队的球迷，并且因此爱上这项运动，终生都是球迷。可是如果球队夺冠的时候你已经二十岁了，那这个事件对你的影响就很小。

换句话说，人的兴趣爱好的养成，有一个窗口期，就好像那些青春小说里说的一样，想要爱上什么东西，你就得在人生的关键时期遇到它。

感觉说得不错啊，自己喜欢谭咏麟，是因为记得小学三年级的时候某天，哥哥带了同学到家里，说最近谭咏麟出了张专辑《爱的根源》，然后两人在那里放录音机听，正好有首歌叫做“捕风的汉子”，狂放的节奏、磁性的声音和两人陶醉的样子让我瞬间迷上了谭咏麟，还有喜欢马拉多纳是因为1986，喜欢上AC米兰三剑客是因为意甲，自己似乎所有的喜欢都停留在了那个年纪。

想想TFBOYS、鹿晗、吴亦凡等也许就是这一代娃娃的永不磨灭的记忆吧，虽然感觉好奇怪。

如此说来，如果你想长期经营一个东西，“从娃娃抓起”这句话可真是没错啊，想想觉得中国足球有点悲哀，现在娃娃有几个在踢球啊，而大数据还告诉你现在20多岁的人基本也成不了球迷，倒觉得电子竞技肯定辉煌，因为大家的娃娃都在玩。

06 说教其实没啥用？

2015年12月2日，美国发生了一次穆斯林持枪大屠杀事件，导致多人死亡。作为“白左”的优秀代表，奥巴马发表演讲对美国人民进行说教，说千万不要因此仇恨所有的穆斯林，不要搞种族歧视。主流媒体对奥巴马的这个演讲一致赞美，但是演讲的实际效果如何呢？

Google 关键词的实时数据显示，在奥巴马发表演讲的同时，仇恨穆斯林的搜索比平时高出两倍。这么看来，奥巴马的演讲还不如不讲。他越讲不要歧视穆斯林，老百姓越反对穆斯林移民，整个起了反作用。

那这个问题怎么解决呢？过了一段时间后，奥巴马又发表了一次演讲。这次演讲中，奥巴马说到一句话：穆斯林不仅仅是恐怖分子，他们也是我们的邻居和同事，穆斯林中还有很多伟大的运动员，他们代表美国在国际上争得了荣誉，还有许多穆斯林参加了美军，正在为美国而战。

奥巴马刚说完这句话，Google 搜索可能是有史以来第一次，和穆斯林有关的搜索中，排名第一的是运动员，而不是恐怖分子。美国观众非常想知道到底有哪些运动员是穆斯林。

简单的说教没用，但如果你能给人提供一些新的事实，激发别人的好奇心，就非常有效。

07 你是否是孤独的？

大数据能够使得我们能更加了解别人，让我们知道，别人的状况比我们好不了多少，如果有什么怪癖，或者对自己的身体不满意，现在大数据可以告诉你，你并不是孤独的。

比如笔者跑步突然膝盖痛，有点担心是不是自己出了大问题，然后百度指数里一搜问题“膝盖疼是怎么回事”，竟然每天有4300人在问同样的问题，这样我就放心了，因为代表自己并不特殊。

老师鼓励学生要勇于提问，总爱说一句话，“世界上没有愚蠢的问题！” 老师说，你觉得愚蠢的问题，也许正是你的同学也想问的。这套说辞其实没啥说服力，我们依然害怕提出一个太简单的问题而被嘲笑，而Google可以告诉你，人们就是在问一些愚蠢的问题。

比如2014年，奥巴马的一次国情咨文讲话，Google就捕捉了很多“愚蠢的”问题，要知道这时候奥巴马已经当了6年的美国总统，老百姓应该对他非常熟悉了，可是你知道奥巴马讲话过程中，Google搜索上关于他最热门的问题是什么吗？是奥巴马今年多少岁。排第二的问题是副总统拜登身边的那个人是谁。排第三的问题是众议员议长今天为什么戴个绿领带。

所以你要是觉得你不懂、你很惭愧，那么你要知道，别人也不懂，如果你觉得你在某一方面很差劲，那大数据也许会告诉你别人也没那么好。

如果你还不过瘾，赛斯还提了很多有趣的用大数据解释的现象：

发现胰腺癌：先锁定那些在网上搜索“我被诊断出胰腺癌，我该怎么办”之类的人，然后再看这些人几周，几个月前是否搜索过其他跟健康有关的症状，再把这些症状跟没有得胰腺癌的人平时搜索的的健康问题比对，就能发现胰腺癌的独特症状，那可能就是前兆，比如研究者发现两组独特症状，第一组是背痛加皮肤变黄，第二组是消化不良伴随腹痛，也许一维数据不能说明问题，但两维数据就有点靠谱了。

红酒的价格预测：价格 = 12.145 + 0.00117 × 冬季降雨量 + 0.0614 × 生长期平均温度 - 0.00386 × 收获期降雨量，对于大数据来说，这个公式的道理并不重要，只要知道相关性能用就行。

男女好感衡量：男女谈恋爱能否成一般还是要看身高、性格等硬性指标，但有一个新研究，是把男女第一次约会全程的对话录下来，通过分析对话录音，就能发现重要的迹象，比如如果男性对女性有兴趣，有两个表现，首先女性讲笑话会非常配合的笑出来，其次会控制声调，因为声调起伏不大的男性更有吸引力，而如果女性对男的感兴趣，则会增加自己声调的变化，然后说话的语气会更轻，间隔会更短，更愿意多说话。如果这个女性说了很多“可能”、“我猜”，”也许”这类词，那基本表示不敢兴趣，而如果经常说很多“我”、我如何如何，女性愿意谈论自己，表明她对这位男性感兴趣。

谁能成为名人：能上维基百科的基本算是名人了，赛斯分析了美国（出生于1946至1964）上了维基百科的都有谁，这些人中每2058个人，才有一个能上维基百科，其中30%是因为文艺娱乐，29%是因为体育，9%是因为政治，只有3%是因为学术和科学，看来如果你的目标是出名的话，搞学问不是一个好办法。而名人的出生地，集中在两个地方，第一种是大学城，这可能是基因厉害，大学教授和研究生的子女比一般人聪明一点，更重要的可能是大学城提供了一个好环境，第二种是大城市，大城市是人才和创新资源集中的地方。但是教育投入跟成为名人关系不大，现代教育系统是批量生产普通人，而名人基本不在乎你怎么教他。

暴力电影增加犯罪是伪命题：赛斯的答案是暴力电影不但没增加暴力犯罪，反而减少了暴力犯罪，数据显示凡是有暴力电影上映的那些日子，暴力犯罪率都比平时下降了，为什么呢？原因可能让你哭笑不得，因为暴力电影把暴力倾向的人留在了电影院，没时间去犯罪，那么你要问，他们看完电影后愤怒值上升，会不会上街犯罪？也没有，因为很多人犯罪是因为喝了酒，而既然青年们都在电影院看电影，他们就没有喝酒。所以结论有点反直觉。

当然，大数据也会造成道德的困境，比如喜欢莫扎特的一般会比喜欢乡村音乐的人智商高，如果有人把这个信息告诉了你老板怎么办，毕竟这些涉及隐私，看来也只能留待未来解决了。

但不管如何，有了大数据这个工具，“社会科学”也许可以成为一门真的科学，到底有没有歧视？暴力电影到底是增加犯罪还是减少犯罪？如果没有大数据的证据，搞社会科学就感觉有点抓瞎。

这本书也在提醒我们，当你在讨论任何社会问题时，千万不要信口开河，最好能找到数据支持，要知道很多真相是反直觉的。

本来笔者想通过百度指数再深入的研究下，可惜定制化的词汇都要单独付费，想想还是算了，就留待有心人自己去研究吧，同时感觉互联网公司应该适当的开放一些数据，这对于社会科学的研究很重要，比如百度指数这个产品现在能分析的东西就非常有限，最后，用搜索工具和词频工具（Google Books Ngram View）还玩了点其它的东西。

子弹短信在某天爆发后，一落千丈，泯然众人矣！

词频分析能够作为中国顶尖大学声誉的参考，从趋势看，清华，浙大上升最快，复旦，南京基本原地踏步，中山大学在下降。

词频分析还能够可以看到电报，电话，传真，电视，计算机发展的此消彼长，比如电报最早发明，电视崛起于40年底，电话60年底超越电报，80年底超越电视，传真90年代有个高峰，然后回落。

交通方式的变化趋势则是地铁，自行车在上升，轮船在下降，飞机保持平稳，汽车一飞冲天。

完

作者：傅一平（微信号：fuyipingmnb）

写文章不易，感谢转发点赞！

近期我的读书笔记及好书推荐

大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现

：，。视频小程序赞，轻点两下取消赞在看，轻点两下取消在看

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

有了大数据这个工具，“社会科学”也许可以变得更让人信服！

《白领将是高危职业吗？读李开复新书《AI·未来》》

如何避免成为一台取数机器？

哪些广为人知的数据挖掘案例其实是一地鸡毛？

数据的价值到底如何评估？

为什么我提交的数据分析报告总是被领导K？

我如何用统计学指导自己的生活？

从吴军的“算法的油水就那么多”说起！

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

有了大数据这个工具，“社会科学”也许可以变得更让人信服！

《白领将是高危职业吗？ 读李开复新书《AI·未来》》

如何避免成为一台取数机器？

哪些广为人知的数据挖掘案例其实是一地鸡毛？

数据的价值到底如何评估？

为什么我提交的数据分析报告总是被领导K？

我如何用统计学指导自己的生活？

从吴军的“算法的油水就那么多”说起！

您可能也对以下帖子感兴趣

《白领将是高危职业吗？读李开复新书《AI·未来》》