从质性研究到大数据方法: 超越与回归

2019-03-27 16:36:00
admin
转贴

社会学研究一向有定量、质性之争,这两种源于不同范式传统的方法之争,近些年似乎有分出高下的意味来。定量占据主流及有意识地抢占主流位置,质性研究方法在各方面似乎都显现出弱势。 如何看待不同的研究方法取向,尤其是能否理清社会学质性研究方法、传统量化分析方法和正在兴起的大数据方法之间的关系纠葛,对于未来研究当有借鉴。


一、方法之争及其范式起源起源

讨论不同方法的差异,有必要追溯学科发展的历史起源及其传统。社会学和人类学可以算是最相近的学科,就其早期形成的各自研究对象和领域而言,社会学研究工业社会、现代社会,人类学研究传统社会、游牧社会、“土著”社会。

西方社会学的诞生与现代化、工业化的进展息息相关,社会学的创始人孔德一开始就将社会学置于以数学为基础的自然科学大厦之最顶层,并将其命名为“社会物理学”,确立了实证主义、科学主义的方法导向。 而西方人类学的兴起深受达尔文进化论的影响,与当时航海探险、殖民扩张的热潮分不开。早期人类学者主要由航海家、旅行家、传教士、商人等构成,以“他者”身份对“远方的”原始部落、少数民族的异质文化开展考察,逐渐形成了人文主义、自然主义的方法特色。

科学主义范式的社会学自诞生起就以自然科学为样板,借鉴和遵循近代自然科学认知原理和方法论原则,逐步形成了一整套成熟的量化分析研究方法。最具代表性的是建立在统计学意义上的问卷调查研究,包括理论假设、调查设计、资料收集、量表测量、信度效度检验、统计分析等环节,一般通过人为控制和区分自变量、因变量,运用回归分析等统计学方法,确定相关性,判断因果关系,建构数学模型。这一过程中,重要的步骤之一是概念的操作化,也就是根据研究需要把概念变为一套可测量的、能够用数字表述的信息。譬如用五分制量表测量人们的满意度;将幸福感分解为主观指标和客观指标进行测量,以建构“幸福指数”。

随着大数据时代的到来,为区分起见,也有人把这种大多来源于抽样调查、访谈、行政记录和实验设计等传统统计方法的数据称为“小数据”,把传统的量化分析方法称为“小数据”方法。

一般来说“小数据”体积小、易于快速理解、数据的读取分析和处理都相对简单。而大数据指“无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和务的数据集合”。数据科学家将大数据的特点总结为4个V;Volume、Variety、Velocity、Value,即体量浩大、模态繁多、生成快速、价值巨大但密度很低。具体到量级,大数据的量级已从GB到TB再到PB级,甚至开始以EB和ZB来计数。

质性研究方法包括参与观察、个案研究、深度访谈、焦点小组法、民族志(人种志)方法、扎根理论、叙事研究、行动研究等一整套方法体系。质性研究方法从起源上可以追溯到15、16世纪的人类学研究,但作为一种系统的方法体系得到归纳总结,是直到20世纪70年代的事情。

到20世纪初,社会工作领域兴起的个案小组实务中,质性研究方法的应用被拓展到心理学、教育学领域;20世纪中叶,西方社会科学领域开始涌现各种“后现代”理论和思潮。社会学理论也从逻辑实证主义转向阐释和批判主义,社会学领域出现对量化研究的“反抗”思潮,这些思潮也影响、促成了质性研究方法的成熟。

虽然量化研究方法源自西方的科学主义范式,同样也是西方思潮产物的质性研究方法却可以在古老的东方思维中找到哲学基础。中国古代的自然哲学是以“天人合一”的整体观和“阴阳对立统一”的辩证观为基点的。以中华文化为代表的东方文化思维方式着眼整体思维,注重辩证思维,擅长关联思维,习惯类比思维,突出直觉思维。20世纪初社会学、人类学传入中国,中国最早的社会学家多从事人类学、民族学研究,如吴文藻、潘光旦等,早期社会学研究主要使用的方法之一也是基于人类学田野工作的质性研究方法。到1979年中国社会学恢复重建,在研究方法体系上则主要引进了美国的社会学量化分析方法,科学主义范式在中国社会学研究领域成为绝对主流。20世纪90年代中期,带有西方“后现代”色彩的质性研究方法被介绍到中国,某种程度上与中国传统文化思维方式内在契合,也唤起了中国早期社会学所形成的人文主义传统。

随着我国社会学学科建设由恢复重建伊始的“拿来主义”到本土化中国化的探索越来越深入,源自不同传统的质性研究方法和量化分析方法的分离和对立逐渐显现且愈演愈烈。学界对这种方法孰优孰劣、以及“代表性”、“科学性”等问题莫衷一是。大数据时代的到来,为社会学研究打开了一扇新的窗户,同时也为原本的方法之争更添纷扰。

有观点认为,大数据可能引发一场社会科学革命,另有观点则认为,大数据面临着诸多挑战。 人们担忧,大数据的出现有可能把质性方法和量化方法“两张皮”进一步撕裂为“三张皮”。在此背景下,也有学者认为“方法主义是今日学界危机的根源”,呼吁“破除方法主义迷信”。应当看到,学术论争、学派林立恰好是学科繁荣发展的表现,是学科走向成熟过程的必然。方法论争源自“与生俱来”的不同研究传统,面向未来也需要进一步探究其发展趋势。


二、工具演进、机器依赖及对象变迁

从时间序列看,人类学方法的形成要稍早于社会学。质性研究方法虽然直到20世纪70年代才形成普遍认同的方法体系,但其实际的社会学应用却要早于传统量化分析方法。大数据方法的出现,则是直到今天才刚刚开始。因此按照出现时间的早晚,可以粗略地把社会学研究方法的发展脉络归纳为“质性研究方法——传统量化分析方法——大数据方法”。可以看到,这是一个由“纯人工”到“机器”参与介入研究越来越多的过程。

具有鲜明人类学田野色彩的质性研究方法,强调参与、体验、感悟、在场、情景,设身处地、将心比心,依赖于直觉、联想、类比、领悟。要求置身于现实的社会群体生活空间,研究人们的社会活动及社会关系。其研究特点决定了质性研究方法主要是基于人工的个体劳动,很大程度上依靠人脑的直觉。即使发展到现在,口述史、影像志、深度访谈等引入了现代录音录像设备、计算机编辑处理工具,人的“与”、“在场”仍然是质性方法的基本要求和灵魂。

传统量化分析方法一开始也是“全人工”收集人们特定的社会活动及社会关系的数据,并进行分析和处理的过程。早期问卷调查基本是纯手工操作,随着计算机和信息技术的发展,机器编码识别、统计分析软件把过去复杂的统计计算变得轻而易举,传统量化研究逐渐由以人工为主过渡到机器参与成分越来越多。但是,现代社会大型调查研究即使计算机全程参与,也必须以研究者主观设计、人为主观赋值编码为前提。也就是说,传统量化分析方法始终是以人工为主,机器处理作为辅助手段的研究方法。

大数据方法则依托于人类“数字化生存”的时代背景。正是云计算、云存储、物联网、二维码、传感器、GPS等互联网技术的广泛应用,微信微博新媒体的大规模使用,以及手机网络支付手段的更加便捷化,人类社会的各种社交网络、人际互动、经济活动都被客观记录下来,留下“数字痕迹”,形成海量的大数据。正是由于数据量大到无法由传统软硬件处理,且数据具有多样化的结构特征,所以大数据的获取不再是通过人工采集得来,而是由“机器爬梳”来。

大数据方法主要是通过机器学习,运用适当的算法,对数据自动进行学习,识别事物间的关联性和规律。当然,数据爬梳、分析的背后也有“人”,但这里的人已由台前退居幕后,机器承担了大量繁重的工作。

从质性研究到传统量化分析方法再到大数据方法,工具的变化某种程度上见证了研究对———社会本体的变迁。从微观层级的个体行动、人际互动,到宏大的社会系统或结构等,在不同的社会形态下有着不同的特征。质性研究源自“田野”的方法无疑带有浓厚的传统社会印记;传统量化分析对应着的是现代社会,如果说这两种方法主要研究现实社会,大数据方法则显然是互联网时代信息社会的产物。

在网络愈益发达的今天,人们在网络上的行为与现实行为具有越来越多的同一性,网络上的个人、群体间的互动与行为,以及网络上的组织结构都已经影响到现实社会,对人们的生产方式、生活方式、行为方式的影响之大前所未有。

譬如手机及其他即时交流工具成为个人与社会交流交往的基本中介桥梁,随之带来了社会关系的变化;人工智能改变了人类生产方式、生活方式,引发了职业分化的加速;物联网、众筹经济正在促生新的社会价值观;等等。这些都意味着传统的社会关系、社会结构已经发生且仍在发生着深刻的变化。社会本体发生了改变,对于这些关系、行为、结构变化所形成的大数据进行研究,就具有现实重要性。从这一角度而言,大数据研究对于社会学的本体论意义大于方法论意义。


三、社会学科学性与人文性的融合统一

费孝通先生2003年提出“社会学是具有‘科学’和‘人文’双重性格的学科”,这是费老晚年最重要的学科建设思想。然而,方法论视角下“双重性格”如何融合,却是困扰中国社会学多年未能解决的问题。大数据方法的社会学应用,或许可以为二者方法上的结合提供现实可能性和路径。

所谓大数据方法,不是指某种程式化规范化的单一方法,而是充分运用人工智能、机器学习对大数据进行分析开发利用的一整套开放、包容、灵活的方法体系。这一方法体系既包含了数据科学家进行的借助机器的质性研究,又包含了传统量化分析方法的延伸运用。罗玮、罗教讲也明确指出了“质性研究与定量研究的融合”是社会学大数据方法的基本内容和重要特征。

实际的大数据分析过程中方法的运用,包括了模型方法,基于混沌理论和分形理论的数值方法、隐喻方法、模拟方法等。大数据方法或者说大数据分析技术的核心之一是“数据挖掘”,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。也被称为知识发现(即KDD,Knowledge Discovery in Database)的这一方法,是从大型数据库中揭示海量数据中有意义的潜在规律和提取人们感兴趣的知识的处理过程。

什么是“人们感兴趣的知识”首先出自于人的主观判断,这种主观判断很大程度上来自于建立在经验基础上的直觉。大数据方法中诸如中文自然语言处理、中文分词技术、语义分析、情感分析或意见挖掘以及隐喻手法等,一定程度上也借鉴自质性研究。

大数据舆情分析、社会网络分析等都需要以相应的质性研究为基础或辅证。直觉、类比、联想、隐喻等质性研究方法的要义同样内在地渗透于数据挖掘全过程。某种程度上,相当于数据科学家进行借助机器的质性研究,只不过这里质性研究的“在场”体现为“在线”。

因此,一方面质性研究方法的核心理念和想象力贯穿在大数据分析过程中,另一方面传统量化分析所依赖的统计学方法也在其中得到应用和延伸。大数据分析过程实际上体现了质性研究方法和传统量化分析方法的有机融合。

在机器学习的算法之外,人工智能的发展带来了更多人与机器的“融合”。以“人机回圈”、“众机回圈” 为例。在人工智能领域, “人机回圈”是一种辅助机器决策的重要“算法”模式,其基本逻辑是,人是规划环路的一部分,人的判断既用于业务决策,又被反馈到机器学习算法中使其加“智能”,这一模式如同质性方法,有人的深度参与,并不断形成反馈。

在社会问题的研究中,计算机科学家将“人机回圈”拓展为“众机回圈”,由社会众筹得到一些社会问题的共识,形成“自动算法+社会判断”的反馈路,从而改进算法。 在能够控制近亿辆自动驾驶汽车的AI算法中,或影响数十亿民众政治信仰和偏好的新闻过滤算法、调节整个经济体的资源与劳动力分配的算法中,都可以使用“众机回圈”的反馈模式。在这一过程中,社会群体的道德、情感、文化因素进入机器学习和决策。

通过“人机回圈”、“众机回圈”,人类价值观与机器算法之间建立了渠道。将融合了人工智能的大数据方法用于社会学学术研究,就会发现,在人与机器的融合中,社会学研究中人文性与科学性的分离一定程度上得到了弥合。

尽管大数据已经广泛应用于社会科学研究,但大数据方法存在着相当多的局限。就国内而言,迄今为止,社会学大数据研究取得的成果确实不多,影响也算不上大,甚至目前尚没有明显超过传统量化研究的成就。

其中的核心问题有二:其一是社会学研究者数据获取的局限,研究者利用软件工具在网络社交平台进行数据爬梳挖掘,有诸如隐私权等方面的隐忧,面临着技术平台壁垒(通常只有大型商业企业互联网巨头以及政府机构、军事国防部门、情报部门、金融机构、统计部门才能够拥有自己强大的大数据库)、金钱壁垒(购买真正有用的大数据需花大价钱且难以买到)等多重制约。完全意义上的大数据的开放与共享仍然面临着诸多挑战。其二与专业分工有关,社会学学者自身知识结构和能力存在局限。

不仅如此,由于存在信息鸿沟,并不是所有人都能在网络上留下痕迹,大数据所指向的行动主体并非所有社会成员,而是那些有能力使用新技术媒介的群体,所以在某些情况下,大数据是有偏或有缺失的。另外,大数据方法长于相关性判断,在因果关系的判断上,较之传统量化分析方法也更有难度。


四、复杂性科学整体论对简单性科学还原论的超越

大数据方法之于社会学,也意味着研究理念、思维方式的革新。大数据方法更加着眼于整体,强调复杂性、系统性,其分析逻辑与基于“简单性”、“还原论”思维的传统量化分析方法迥然不同。

仅从数据结构看,大数据和“小数据”的差异明显。数据科学家将数据信息划分为两大类。一类信息能够用数据或统一的结构加以表示,称之为“结构化数据”,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、视频、网页等,称之为“非结构化数据”。记录人类社会生活原始状态的未经处理的大数据是一堆乱七八糟的“非结构化数据”,模态多样,而传统量化分析所使用的数据是经人工设计后采集获取的有序的数据集合,可以直接以数字或符号集表示,纳入计算分析,属于“结构化数据”。

数据结构的差异反映了大数据、“小数据”各自不同的哲学依据。近代自然科学的成功,得益于其思维方式追求精确(确定性)和量化,起步于“分析”思维———将高层的、复杂的对象分解为较低层的、简单的对象来处理,将整体分解为部分来加以研究。从牛顿到爱因斯坦等科学大师都坚信,世界的本质在于简单性。

建立在此基础上的“还原论”认为,任何复杂的事物、现象都可以分解为更为简单的各个组成部分来加以认识、描述和处理。传统量化分析的社会学研究也遵循了相似的路径,尽可能把复杂问题简单化,抽象概念具象化,概念的操作化实际上就是一个“还原”的过程。

人们研究关系网络,先界定出强关系、弱关系、弱强关系、强强关系等,并分别赋值;研究农民工的城市社会融合,要区分经济融合、社会融合、政治融合、文化融合等不同层次再加以测量。从这一点上来看,传统量化分析方法的哲学依据实际上是“确定性”信仰、“简单性”原则、“还原论”思维。

不过,当近代自然科学跨入现代后,相对论力学打破了传统的绝对时空观,量子力学的产生进一步颠覆了我们对物质实在结构、确定性的理解,整个近代自然科学的哲学基础被动摇。简单性是科学家的追求,复杂性则是世界呈现的现实。社会是高度复杂的巨系统,简化处理、量化分析当然可以解决一些特定领域的局部问题,但显然也受到很大局限。20世纪中叶先后诞生了系统论、控制论和信息论“老三论”,耗散结构理论、协同论和突变论“新三论”。在此基础上逐步形成了“复杂性科学”和“复杂性方法”。“整体大于部分之和”、“涨落”、“平衡”、“突变”、“涌现”等系统论思维和复杂性科学方法论崛起。这些系统论思维被认为是大数据方法的理论基础。

对使用大数据方法的“社会计算”则界定为:“社会计算是使用系统科学、人工智能、数据挖掘等科学计算理论作为研究方法,将社会科学理论与计算理论相结合,为人类更深入地认识社会、改造社会,解决政治、经济、文化等领域复杂性社会问题的一种理论和方法体系”,系统科学等背景被再次强调。

从结构化数据到非结构化数据,从“小数据”到大数据,从“数据分析”到“数据挖掘”,无疑是一种认识论的进步、方法论的超越,是“复杂性科学”对“简单性科学”方法的超越,系统整体论对分析还原论的超越。需要指出的是,传统量化分析方法在揭示现实世界上,仍有着独特的优势。传统量化分析方法,尤其是其中的统计抽样调查方法,具有低成本的优势和优良的代表性,更能反映总体特征,较为全面真实地揭示事物间的关系。而在有些状况中,大数据指向的主体有偏或缺失,会在反映全局和整体方面落入下风。当然,随着互联网技术的普及和广泛运用,这种缺憾会逐渐得到改善。


五、数字化时代社会学想象力的回归

或许是长期进化过程中大自然赋予人脑的功能,人类有一种认知真理的直觉方法,与逻辑理性主义的求知传统完全不同。好的直觉超越逻辑。不同时期的人类学研究认为,“在人类知识积累的大多数案例中,顿悟,或者创造性,不是一种理性的和逻辑的知识创造,而是一种由直觉而产生的结果”,“在我们使用逻辑获得知识之时,我们更要注意到存在靠直觉的感受性获得知识的途径”。

基于经验的直觉正是质性研究方法的核心,因此,尽管长期以来传统量化分析方法在中国社会学研究中居主导地位,学者们也不得不承认:中国社会学“最优秀的研究在方法论上更多采用的是质性方法”社会学研究无论任何时候都不能忽视“社会学想象力”。无论东西方的社会学家,都将社会学想象力视为社会学的核心和灵魂,强调参与、在场、理解的质性研究方法无疑是最能体现和直接发挥社会学想象力的方法体系,也正因此,质性研究中“人”的作用尤为重要。

而传统量化研究风靡的背后,或多或少隐藏了学术研究工具化的倾向,非模型、非数据不成文。社会研究愈来愈工具化,几乎成为一个纯技术问题,作为研究主体的个体的社会学想象力在这一过程中被大大削弱了。

大数据方法的出现,一方面构建了可持续完善和丰富的数据集和分析工具,其可用性、共享性、协作性进一步大大增强,提供了人文社会科学学者大规模协作的可能;另一方面这种协作合作研究方式,是要求每一个参与者都发挥独立作用和主观能动性的“系统工程”。

非结构化的大数据对于普通人而言只是一堆无法理解也就毫无意义的数据。而数据科学家所拥有的大数据分析处理能力,说到底是一种复杂系统思维能力。大数据方法本质上依然是数据分析,但已经在传统量化分析方法基础上发生了质的飞跃。大数据方法的开放性延伸和拓展了传统量化分析方法的空间。大数据方法没有固定模式,只能根据研究目的、研究对象灵活地寻求和确定算法,而算法的优劣取决于研究者的社会学想象力。

大数据方法也为质性研究方法的发展带来新的机遇。其一体现在,质性研究方法的核心要素是“参与”、“体验”,深入生活、设身处地,需要花费较长的时间深入极为有限的空间。但当传统社会的“田野”演化为信息时代“万物互联”的网络,人们可以借助大数据方法,对数十年、上百年乃至更长时间的人类活动所形成的大数据记录进行研究,跨越时空的约束,实现借助于网络的“在场”研究。

对依托于网络的人类的各种社会活动与行为,也可以通过“在线”的方式实现“在场”研究,而不一定需要深入现场、持续几十年。其二,质性研究的“口述史”、“影像文化志”等具体方法,有了人工智能、云计算的帮助,其图像识别、语义分析、词频分析的效率也将大大提高。当然,网络空间毕竟有别于现实空间,“在线”与“在场”仍然有差异,不能因此否定深入真实的社会生活的重要性。

互联网时代网络社会与真实社会之间的联结愈来愈密,“虚拟社会”越来越趋近于真实社会。传统社会所对应的社会学想象力,也需要“升级”为信息社会的社会学想象力。要从浩如烟海而又杂乱无章的大数据中“爬梳”蛛丝马迹、“挖掘”隐藏价值,需要“一事一策”地设计“算法”。从形式上看,似乎机器的介入程度越来越高,逐渐替代了人;但实质上,机器学习的背后,作为主体的人的作用、人脑的功能重新被突出。大数据研究是社会学研究个性化的回归,是“机器”与“人”的融合,更为重要的意蕴,是数字化时代社会学想象力的回归。

当我们把质性研究方法的起源归结为来自于人类学传统,可以发现其内在的思想渊源契合于人类早期认识世界自发的朴素的整体论哲学;而伴随着近代自然科学诞生和发展的传统量化分析方法,其认识论依据是基于“简单性学”的还原论哲学;互联网时代大数据的方法论意蕴,则是“复杂性科学”视域下的系统整体论哲学。

由此,从质性研究方法、传统量化分析方法到大数据方法,显现的是“朴素整体论———分析还原论———系统整体论”的演进轨迹,这是一种否定之否定意义上的超越与回归。已经到来的大数据时代必将是一个方法多元的时代,而其中的核心议题是,社会学研究方法呼唤社会学想象力的回归。


发表评论
评论通过审核后显示。