计算社会学:数据时代的社会研究

2019-06-18 11:10:00
admin
转贴
摘要:马修•萨尔加尼克(Matthew J. Salganik),普林斯顿大学社会学教授,同时任职于该校的信息技术政策中心、数据与机器学习中心等。《科学》杂志评价他是“纯然的计算社会学家”。他的研究方向是社会网络、计算社会学。他的研究曾被微软、脸谱网和谷歌资助,并被《纽约时报》《华尔街日报》《经济学人》《纽约客》等主流媒体报道,美国公共广播电台还专题报道过他的研究成果。


这本书源于2005年在哥伦比亚大学一个地下室中发生的事情。那时,我还是一名研究生,正在为最终的毕业论文做一项在线实验。有关这项实验的学术部分我将在第4章进行介绍,但现在,我将告诉你们一件我的毕业论文或其他任何论文都未涉及的事情。这件事从根本上改变了我对研究的看法。一天早晨,当我来到位于地下室的工作室时,我发现一夜之间竟有约100个来自巴西的人参与了我的实验。这一简单的经历对我产生了深远的影响。


当时,我的几个朋友正醉心于传统的实验室实验。我知道他们必须很费心地有偿召集并指导人们来参与实验,如果一天能有10个人完成实验,就算是不错的进展了。但对我的在线实验来说,我在睡觉的同时,就有100个人参与了实验。也许,一边睡觉一边做研究听起来美好得令人难以置信,但这是事实。技术的变化,尤其是技术从模拟时代到数字时代的转变,意味着我们可以用新的方式搜集和分析社会数据。这本书就是关于如何利用这些新方式开展社会研究的。

这本书是写给那些“想研究更多数据科学的社会科学家”和“想研究更多社会科学的数据科学家”以及对这两个领域的结合感兴趣的人的。因此,这本书的目标受众自然就不仅限于学生和教授了。尽管我目前在普林斯顿大学任职,但之前也在政府部门(美国人口调查局和技术产业领域的微软研究院)工作过,因此我知道,在大学之外同样存在着很多令人兴奋的研究。因此,只要你觉得自己正在做的是社会研究,那么无论在何处就职或使用何种技术,你都可以参阅此书。

你可能已经注意到了,这本书的语言风格和许多其他的学术著作稍有不同。这其实是我特意做的一个改变。这本书的部分内容源于我从2007年起在普林斯顿大学的社会学系带领的一个“计算社会学”(Computational Social Science)研究生研讨班,因此我希望它能反


映这个研讨班的一些活力和激情。具体而言,我希望这本书能够具备以下三个特点:有帮助的、面向未来的以及乐观的。

有帮助的:我的目标是写一本对你们有帮助的书。因此,我将以坦诚的态度、非正式的写作风格,通过实例阐述我的观点。我最想传达的是一种特定的思考社会研究的方式,而经验告诉我,传达这一思考方式的最好的方法就是采取非正式的写作风格并列举大量例子。此外,在本书的参考文献中,有一个部分叫“拓展阅读”,它旨在帮你过渡到有关我所介绍的多个主题的更加详细、更加专业的内容上。最后,我希望此书能对你们自己开展研究以及评估别人的研究有所帮助。

面向未来的:我希望这本书能帮助你利用现有的以及未来将出现的数字系统开展社会研究。我是从2004年开始做这类研究的,这期间数字系统发生了诸多变化,我坚信在你们的职业生涯中,你们也会感受到数字系统的许多变化。

因此,要想让这本书“以不变应万变”,就要做到“抽象”。例如,这本书不会教你如何使用现有的推特应用程序界面(Twitter API),相反,它会教你如何受益于大数据资源(第2章)。这本书不会详细告诉你如何利用亚马逊土耳其机器人(Amazon Mechanical Turk,以下简称机器人MTurk)开展实验步骤,相反,它将教你如何设计和解读依赖于数字时代基础设施的实验(第4章)。通过采用这种抽象化的手法,我希望这本书能够成为一本主题适时、经得起时间考验的书。

乐观的:本书涉及两个群体——社会科学家和数据科学家,他们有着截然不同的背景和兴趣。除了书中将要介绍的科学方面的差异以外,我还发现,这两个群体看待事物的态度也是不同的。

数据科学家一般而言是满怀希望的,而社会科学家一般而言是更具批判性的。也就是说,同样是半杯水,数据科学家看到的是还有半杯水,而社会科学家看到的则是杯子有一半已经空了。在本书中,我将采取数据科学家的乐观态度。因此,在描述相关实例时,我将告诉你们在我看来这些例子的可取之处。


当然,鉴于没有研究是完美的,我也会指出它们的问题所在,但我会尽力用乐观积极的方式指出。我不会为批判而批判,我的批判是为了能让你们设计出更好的研究。

我们仍处于数字时代社会研究的早期阶段,但我已经发现了一些普遍存在的误解,它们的普遍程度让我觉得有必要在前言中对其进行说明。就数据科学家而言,我发现他们有两个常见的误解。第一个是认为数据越多越有利于解决问题。但对社会研究来说,我的经验告诉我并不是这样的。事实上,对社会研究来说,好的数据似乎要比更多的数据更有帮助。

第二个是数据科学家通常认为社会科学只不过是一堆围绕常识的花言巧语罢了。当然,作为一名社会科学家,更确切地说是社会学家,我不同意这样的观点。聪明的人长期以来一直在努力理解人类的行为,因此忽视这一努力所取得的成果似乎是不明智的。我希望通过这本书,以一种易于理解的方式和你们分享其中的一些成果。

就社会科学家而言,我发现他们也有两个常见的误解。第一个是有些社会科学家会因为少数不真实的数据而彻底否定使用数字时代的工具开展社会研究这一观念。如果你正在读这本书,那你可能已经读过许多平庸地或错误地(或两种方式都有)使用社交媒体数据的论文。我也读过。


但是如果因为这些论文就得出结论,说数字时代的社会研究都是不好的,这将是一个严重的错误。事实上,你可能也读过许多平庸地或错误地使用调查数据的论文,但你并没有因此而否定所有使用调查数据的论文。这是因为你知道,也有使用调查数据并且做得很不错的研究。而我将通过这本书告诉你们,使用数字时代的工具并且做得很不错的研究也是有的。

我所发现的社会科学家的第二个常见误解是容易将现在和未来混淆。当我们对数字时代的社会研究,即我在本书中将探讨的研究,进行评估时,思考以下两个截然不同的问题至关重要:“这类研究现在做得怎么样”以及“这类研究将来会做得怎么样”。研究人员会被训练来回答第一个问题,但对这本书而言,我认为更重要的是第二个问题。也就是说,尽管数字时代的社会研究尚未做出巨大的、改变范式的贡献,但数字时代社会研究的进步速度快得惊人。因此,相比于其目前的发展水平,它的变化速度更让我感到兴奋不已。

尽管上一段似乎是在告诉你们,数字时代的社会研究可能会在未来的某个时间变得相当成功,但我的目标并不是向你们推销任何特定类型的研究。我个人并未持有推特(Twitter)、脸谱网(Facebook)、谷歌(Google)、微软(Microsoft)、苹果(Apple)或其他任何科技公司的股份。


但是,为了做到充分披露,我应该告诉你们我曾在微软、谷歌和脸谱网工作过或是接受过其研究经费赞助。因此,在整本书中,我的目标是让自己做一个可信的叙述者,告诉你们所有可能的令人兴奋不已的新事物,同时引导你们避开一些我曾看到有人掉进去的陷阱(有的我自己也曾掉进去过)。

社会科学和数据科学的交叉学科有时会被称为“计算社会学”。有些人认为这是一个技术领域,但这本书并不是传统意义上的技术图书。例如,这本书的正文中并没有公式。之所以选择这样的方式,是因为我想呈现对数字时代社会研究的一个全面的看法,其中包括大数据资源、调查、实验、大规模协作和道德伦理。

但事实证明,涵盖所有这些主题并提供每个主题中详细的技术细节是不可能的。相反,我会在本书参考文献中的“拓展阅读”里推荐更多的技术资料。换句话说,这本书不是为了教你如何做某种特定的计算,而是为了改变你对社会研究的思考方式而写的。


    发表评论
    评论通过审核后显示。