学术研究 | 社会科学领域的大数据研究方法初探
- 2015-06-04 09:25:00
- 李军 萌泰科技 原创
大数据研究就是"样本等于总体"的思维方式,大数据对研究范畴时和空间的拓展,以及其所揭示的规律和相关关系,能够极大地促进社会科学研究假设的提出
在社会科学领域,大数据可以用来做描述性研究,亦可以用来做分析性研究。正如南京大学社会学院陈云松老师所言,“大数据在社会科学领域拓展了研究范畴的时间和空间”。过去无法获取或者需要花费很大代价才能获取的数据,在今天变成可能或者更加容易。尤其是当下的大数据时代,数据变得无比巨量,而且伴随巨量数据产生的大数据处理技术也快速发展,这使得利用大数据的研究思维成为可能,并越来越获得社会科学界的认可和推崇。
其实,大数据研究并不是什么新的思维,近代统计学之父凯特勒(Quetelet)早在19 世纪二三十年代就从事过犯罪和富裕程度之间的大数据相关分析;著名社会学家涂尔干在1897 年的《自杀论》中将自杀者分门别类,试图从他们的生活和自杀的机率间找出关联性,这些都是典型的基于总体样本的大数据分析思维,尽管那时的“大数据”的数据量相对较“小”。近几年的大数据热实际上是计算机信息技术发展,尤其是互联网,移动互联网,物联网等技术的发展所催生出的一个概念或相关技术的总概括(本质上和云计算热是一回事),大家所经常引用的大数据的4V(Volume, Variety,Velocity,Value)特征也是由IBM 提出的一个计算机科学领域的定义。
就社会科学研究方法层面,大数据研究就是"样本等于总体(sample = population)"的思维方式,正如凯特勒和涂尔干所研究的一样。这一研究方式,在近几百年一直被人们所熟悉和使用,只是由于当时社会生产力的局限性,总体不太轻易被获取。自18 世纪统计学层面的抽样理论诞生后,社会科学的研究才获得了极大发展,因此,这使得我们容易误认为定量的社会科学研究似乎就等同于抽样调查研究。仔细算来,这一历史也不过就是二三百年。今天,随着互联网、移动互联网、物联网等信息技术的发展一方面产生了大量的数据,另一方面获取和处理数据的成本更加低廉,技术更加先进,因此,我们突然发现:总体不再是遥不可及,如果我能获得总体,为什么我还要抽样?一下子,大数据突然之间成了所有社会科学领域的人们所共同关注的话题。
传统的小数据研究方法基于抽样理论,当前主要包括问卷法、访谈法等,而问卷法又包括电话问卷调查、移动面访调查以及网络问卷调查等三种主要形式。与小数据的抽样相比,大数据强调的是全部样本;与小数据的精确性相比,大数据允许存在一定范围的不准确性;与小数据的因果关系相比,大数据通过关联性寻求自然和社会的变化规律。因此,大数据研究方法不仅补充了科学研究的范式,甚至可能动摇社会科学的传统根基,产生颠覆性的变革。
与单次抽样调查以及长期跟踪调查相比,大数据研究的样本量更大,持续观测的时间更长。即使跟踪调查的时间可能延续很长,但其仍然是不连续的观测。普查是一个特例,其研究的样本是总体,但就观测的时间而言,仍然是不连续的。
以下是大数据研究和小数据研究的对比。
但是,社会科学领域的大数据研究方法或研究思维仍存在一些局限性,就目前而言,大数据的研究方法仍在探索阶段。
首先,大数据的思维方式本身就是诞生自统计学,它从来就是社会科学领域定量研究方法的一部分,过去就是,未来还是!
其次,大数据并不能囊括所有我们想要的数据(比如想法或直接态度),获取和处理我们想要的数据也不是都很简单和低成本(目前大部分数据掌握在少数巨头手中,获取有成本),无论是从经济层面还是操作可行性层面,基于抽样理论的小数据调研方式依然不可替代。
最后,大数据研究目前还仅停留在发现相关关系,对因果关系的解释还需要进一步依赖于定性研究或其他研究手段。但是,仅有相关是不够的。从哲学层面人类对世界的探索和真理的追求来看,大数据研究最终一定会走向因果分析。从这一方面讲,大数据研究绝不是终极手段,最多只能算研究方法之一。
当然,今天我们在社会科学领域为什么如此重视大数据,“重提”大数据,我认为,是因为技术的发展使得大数据研究更为便捷,而大数据对研究范畴时间和空间的拓展,以及其所揭示的规律和相关关系,能够极大地促进社会科学研究假设的提出,从而为因果关系的分析提供新的支撑,使得人们在追求真理的过程中,又多了一条康庄大道。