一、大数据与传统数据的区别
维基百科对大数据给出的定义是:“大数据(Big Data 或MegaData)或巨量数据、海量数据,指的是所涉及的数据量规模大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。”这是从数量的级别(PB或ZB)来定义大数据的,主要讲的是数据量巨大使得用常规的数据分析技术无法挖掘和处理。除此之外,还有一种定义是从数据的特性来定义大数据。维基百科、数据科学家、研究机构和IT界一致认为大数据有四个基本特征,即体量巨大(Volume)、价值密度低(Value)、来源广泛且特征多(Variety)、增长速度快(Velocity),业界称为4V特征。〔3〕据此,我们尝试从规模与变量、类型、来源、质量、时效性及分析方法与逻辑几个方面来探讨大数据与传统数据的本质区别。
大数据的起始计量单位至少是PB (1015B、EB (1018B) 或ZB(1021B,甚至YB(1024B)。根据国际数据公司(IDC) 的统计数据显示,全球的数据产生量仅在2015 年就达到4.7ZB(4.7 万亿GB),当前数据总量正在以年均50%的速度增长,预计到2020年,全球数据总量将达到40ZB。我国数据量将达到8.6ZB,占全球21%。
相对而言,传统数据的样本规模一般较小,例如在中国有很大影响的中国社会综合调查(CGSS)、中国家庭追踪调查(CFPS)、中国综合调查(CSS)、中国劳动力追踪调查的样本数量在6000—25000之间。与大数据动辄以艾字节(EB=1018B) 甚至泽字节(ZB=1021B) 为计量单位相比简直是天壤之别。此外,传统数据的变量较少,一份常规问卷的变量一般在200—300 之间;而大数据所涉及的变量较多,变量通常达千个以上。
2类型
传统数据的类型以结构化为主,这是基于明确的研究目标而设置的标准化的数据收集规范。与此相对应,大数据的类型除了少量的结构化数据之外,大量以非结构化或半结构化的形式存在,包括网络日志、音频、视频、图片、地理位置信息等等,类型多样的数据对数据处理能力提出了更高的要求。据相关的统计资料显示,全世界结构化数据增长率每年大概是32%,而非结构化数据增长率则是63%。2012年,非结构化数据占互联网数据量的85%以上。
3来源
传统数据多数来源于抽样调查或统计调查。而抽样调查一般按照随机原则,设计严格的抽样程序来获取样本数据。国内外学术界有影响的问卷调查数据多数采用多阶段、多层次与人口或劳动力规模成比例的概率抽样方法(PPS) 以确定最终的抽样单位,通常采用面访的方式获得样本数据;而大数据是基于现代科技手段,采取实时监控、测量、存储的方式及时获得数据。例如,基于互联网和现代智能技术所获得的交通流量、医疗卫生健康、气象水文、环境变化、社交娱乐互动、商业物流等方面的记录,尤其是近年来基于互联网的浏览、搜索引擎、上传下载等行为产生的数据,成为大数据的主要代表。
4质量
由于传统数据的收集方法遵循着严格的抽样程序和变量设计要求,所以数据的信噪比较高、价值密度较高;而大数据的结构复杂,优质数据与劣质数据甚至垃圾数据混杂在一起,信噪比较低,价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”“降维”,是大数据应用中亟待解决的难题。
5时效性
传统数据的收集和清理的时间较长、处理速度较慢、时效性不强。多数传统数据是静态的截面数据,即使追踪调查数据(Panel Data) 也至多是两三年以后对同一期群的事后回溯性访问;大数据的处理速度快,时效性高。大数据可以及时更新、及时变化、及时追踪。这是大数据挖掘区别于传统数据挖掘最显著的一个特征。
6分析方法与逻辑
传统的社会科学特别是社会学的定量分析首先需要根据拟研究的问题和对话的理论模型提出假设,并设计基于假设的待检验模型,进而运用统计模型分析数据证实或证伪假设;而大数据方法是通过对海量的数据进行分析,寻找变量之间的相关关系,而后建立模型。数据科学以海量的数据为研究对象,通过数据挖掘等手段来寻找海量数据中潜在的规律。它研究各个科学领域所遇到的具有共性的数据问题,通过对数据的变化规律的研究来实现对科学问题的解答。这也就意味着通过大数据方法建立的模型并不一定反映必然规律,而是在非实验控制的条件下,一系列影响因素综合作用的结果。虽然这种模型具有模糊性与偶然性,却可以在一定程度上预测现象发展的趋势。大数据分析重点呈现相关关系而非因果关系,是描述性研究而非解释性研究。
传统定量研究目的是为变量的变异性提供因果解释,用其他变量解释所要研究的变量的变异性。舍恩伯格等认为,大数据研究的“不是因果关系,而是相关关系”;而应用大数据,尤其在商业领域,其目的是销售商品,这种情况下商家只需要了解用户的行为与销售额之间的相关关系,并以此作为决策依据,向用户推荐可能需要的商品、指导商业活动,而不需要为这种相关性作出解释。分析两个变量关系时,仅仅止步于相关关系,即使这个相关关系是虚假关系,或者是通过其他变量而形成的相互关联。这并不是说大数据不能为因果解释提供数据基础,而是说因为在一些大数据广泛应用的领域,人们并不探究因果,而是利用大数据描述现象,预测现象发展的趋势,为决策提供依据。
二、大数据时代社会学研究的机遇
毋庸置疑,大数据时代的海量数据及其分析方法为社会学学科的发展提供了难得的机遇,至少在以下三个方面可以促进社会学学科的发展。
第一,为探索未知的社会现象提供了可能性,有可能产生新的社会学分支学科。按照研究的目标,社会学研究可以分为探索性研究、描述性研究和解释性研究。大多数社会学研究都要探讨某个新的议题,并提供对该议题的初步认识,对新的社会现象有一个初步的了解。探索性研究有三个目的:满足研究者的好奇心和对某事物、现象更加深入了解的欲望;探讨对某议题进行系统、精致研究的可行性;发展对后续研究中需要使用的方法。
大数据时代为社会学研究者提供了过去没有办法搜集的社会成员参与社会活动的动态海量社会数据、资料和信息。利用这些海量数据和数据挖掘技术,社会学研究者可以深入观察和分析人类社会的复杂行为模式。罗玮、罗教讲认为,大数据时代为“新计算社会学”的产生创造了条件。陈云松认为,以大数据为基础的词汇“基因”序列分析可以催生“社会组学”。
笔者认为,以海量数据和创新的分析方法为基础,完全有可能产生或创立与以小数据为基础的传统社会学迥异的“新社会学”。一些应用性很强的分支学科,如人口社会学、社会分层与社会流动、经济社会学、发展社会学、消费社会学、科学社会学、社会心理学、城市社会学、农村社会学、犯罪社会学、家庭社会学、青少年社会学老年社会学、医学社会学、生活方式社会学等由于大数据挖掘技术和分析方法的应用也将迎来巨大的发展空间。
第二,为全面地描述社会现象、认识社会发展的规律、预测社会发展的趋势提供了新的机会。描述性研究是社会学研究者将观察到的社会物或现象描述出来,精确地测量并报告研究总体或现象的特征。传统的社会学定量研究为调查某一社会现象在研究总体中的情况,在抽样框中随机抽取一定比例的样本,通过描述和统计等一系列方法,得到样本之中不同变量间的关系,并以此为依据推论总体之中这些变量之间的状况。
而以大数据为经验材料的研究不涉及随机抽样的问题,而是将全部研究总体纳入到分析的框架内,得出的变量之间的关系也无需参数检验,而是直接用于反映总体趋势。换言之,大数据的样本数趋近于总体,为全面、系统地描述社会现象提供了最大的可能性。
例如,2018年1月中国互联网信息中心发布的《第41次中国互联网络发展状况统计报告》显示,在网民的互联网应用分类中,关于即时通信、搜索引擎、网络新闻、网络视频、网络音乐、网上支付、网上购物、网络游戏、网上银行、网络文学、旅行预订、电子邮件、互联网理财、网上外卖、地图查询、在线教育、网约专车/出租车/快车、网络直播、共享单车等分类应用的统计,并不是将用户做随机抽样形成样本,然后调查他们在每个单项应用上的使用频率,而是直接将7.72亿网民这一总体作为分析的对象,描述总体的互联网应用的使用频率并预测未来发展的趋势。
通过分析占全国人口总数55.53%的网民总体互联网行为变化的大数据,为预测整个中国网民的社会结构、就业结构、消费结构、互动结构及行为结构的变迁提供了得天独厚的便利,这在大数据时代以前是不可想象的。
第三,大数据为公共政策与社会政策的制定和完善提供了数据基础。大数据为国家治理能力现代化、打造智能型政府和智能型城市、建立人类命运共同体等国家重大战略的实施提供了数据支撑和决策依据。社会学作为一门应用性社会科学,对新时代国家重大战略的实施和完善献计献策、贡献力量是其重要的社会使命。
大数据为社会学研究者提供了产业、消费、教育、就业、收入、社会保障、贫困、医疗卫生、环境生态、社会矛盾、社会治理等方面的海量动态数据,这些数据为科学地评估国家治理能力建设、智能性政府和智能型城市建设中的短板和弱项奠定了基础,而接近30ZB的全球数据为我国及时调整“一带一路”倡议和人类命运共同体构建的走向提供了科学依据和数据基础。尤其需要指出的是,部分省市运用大数据的技术与方法,建立社区事务受理中心的尝试已经取得了良好的成效。比如上海市静安区临汾路街道社区事务受理中心的综合服务管理系统,实现了办事流程全公开、办事过程全纪录、办事数据全采集、办事结果全应用的“四全”。
通过对社区事务受理中心收集的数据进行实时采集、动态采集,建立数据模块,进行绩效考核,提升了事务受理中心的办事效率,节省了居民的办事时间,提高了居民的满意度。将公安系统的基础性数据、各级政府条线的数据、受理中心沉淀下来的数据、街道干部和社会工作者到居民家中走访采集的数据相互整合,与上海市大数据中心合作开展精准民生服务工作,将碎片化的帮扶, 变成总体整合以后的精准扶贫政策。
上海市从2018 年3 月起, 全市各街镇(乡) 的220 个社区事务受理服务中心全面实施全市通办”,包括敬老卡申领和发放、生育保险待遇申领、居住证挂失等161项事务。通过建立全市统一的信息交互平台,政府部门优化、简化业务办理流程,打破居民群众办事过程中存在的户籍地或居住地限制,让居民群众在全市任何一个社区事务受理服务中心均能申请办理事项,从而减少奔波,实现就近办事。这是大数据应用于基层社会治理的又一成功案例。
三、大数据时代社会学研究面临的挑战
在企业、政府和社会各界纷纷为大数据时代的到来而欢欣鼓舞之际,我们还更需要进行更为深入的理性思考。我们认为,在社会学方法论和研究方法上如何突破,仍然是亟待社会学家解决的首要问题。大数据挖掘技术和分析方法给社会学学科发展带来难得的历史机遇的同时,也给社会学研究带来了严峻的挑战。
1样本偏差问题与传统的社会学定量分析相比,大数据的样本从数量上更接近于总体,但是这个总体是有偏差的、有局限性的。到2017 年底,中国有7.72 亿网民,而中国总人口13.9 亿,那么通过互联网抓取个人信息的方式来获得的大数据依然无法涵盖6.18 亿非网民。在实际的研究中,研究者往往仅依靠一个或几个门户网站的后台数据作为分析资料,那么这种大数据仅是使用该网站用户的数据,不能将分析结果推论到其他网民,更不能推论到全体国民。
因此,社会学研究者应该明白,大数据中的总体是有局限、有偏差的总体,其他难以通过大数据方法抓取的个体并未作为研究对象包含在总体中。因此,对于研究结论的推论也只能在有限总体的范围内才可能是有效的或可靠的;此外,互联网网民的个人活跃度存在很大差异,其活动或痕迹被抓取的概率也不同,因此互联网大数据的形成既不是抽样,也远非随机,而是具有极大的偶然性。
例如,英国广播公司在2011 年通过互联网上自助填写问卷的形式进行了一项英国阶层调查,并以此为根据将英国社会分为7个阶层。该调查共有161458人参加,样本规模远超传统的问卷调查,有的学者将该调查所获得的数据界定为大数据,并认为该调查由被研究者填写,可以摆脱以往的大数据方法多是对行为进行观察而忽视个人主观性的方法论困境,然而网络调查的样本仅仅是在问卷投放网络的一段时间内发现并有意愿填写问卷的网民,如果一个网民在这一时间并不活跃,那么他将不被纳入调查的样本之中,因此通过该网络调查得出的结果只是一种偶然关联,一种统计学上的相关,而不具有任何推论价值。
2重要变量的缺失问题
虽然一些网站的后台数据也能提供网民的性别、年龄、职业、收入、家庭结构、居住地、出生地等社会人口信息,但是这些自我填报没有经过实名认证的信息存在着很大的水分甚至虚假成分。互联网区别于现实世界的一个重要特征是其虚拟性。网络世界网民身份具有不可靠性。作为社会学定量分析最关键的这些分类信息如果缺失或虚假的话,以此数据分析所得结论的可靠性就会大打折扣。
3相关关系解释性不强的问题
依据相关关系而非因果关系分析所获得的结论在解释性研究中的效度不强。如前所述,多数大数据的统计分析仅仅止步于相关关系。但是,社会学家很清楚,相关关系不一定是因果关系。熟悉统计学的学者都知道,当数据的样本量达到一定程度以后(更不用说大数据这样的海量样本),任何两个根本不相关的变量之间都可能存在很显著的相关性(很可能是虚假相关),诸如美国
沃尔玛超市数据所揭示的季节性风暴到来时蛋挞与飓风用品销售量的之间统计相关关系、西班牙大选投票数据所发现的天气状况不佳与保守党得票率之间统计相关关系的虚假性。
由于缺乏更多的控制变量可以应用,大数据的社会学统计分析目前基本上还没有运用中高级统计模型的因果分析的成果。实际上,除了相关关系分析之外,多元回归模型、中介模型、多层次对数模型、曲线模型等因果模型,在解释性研究中发挥着关键的作用。如何运用因果模型进行大数据的社会分析还需要进一步的研究。
4各种大数据的整合还是一个难题
虽然公共数据的开放与共享正在成为一种趋势,互联网门户网站和互联网公司所开放的数据还相当粗放和有限,多数开放数据是研究者利用爬虫技术从网站上抓取的未经加工、筛选的原始数据,政府职能部门、公立机构(如银行和金融机构、通讯公司、医疗卫生机构) 和非公立部门(如私营互联网公司和大数据公司)、社会组织等掌握的数据的开放程度也非常低。在我国政府将大数据产业作为一种基础性战略资源重点支持的宏观背景下,如果各部门都将自己拥有的垄断性大数据作为“私有资源”的话,那么势必会形成“数据孤岛”现象。不仅会造成现有数据资源的浪费,而且还会造成同类数据挖掘和分析的重复投入。
因此,需要国家有关部门制定公共数据低偿使用甚至免费开放的政策,首先从政府部门和国有企业、体制内社会组织做起。公共大数据的开放共享是推动大数据分析服务于包括社会学学科在内的自然科学和社会科学繁荣的必要的先决条美国社会学家瑞泽尔认为,社会学的研究范式可以分为社会事实范式、社会定义范式和社会行为范式。
从问题出发形成理论框架、研究假设、经过观察收集资料、再经过经验概括、修正或创新理论的实证社会学研究逻辑,无论是定量研究采用的从假设、观察到接受或拒绝假设的演绎推理法,还是质性研究运用的从观察开始、寻找模式或规律到获得结论的归纳演绎法,这已成为实证社会学家的共识。我们认为,大数据分析短期内不可能颠覆基于小数据的实证社会学研究范式和研究逻辑,只能对其进行补充、完善和修正,不可能从根本上替代它。
国内外关于大数据科学领域的应用目前主要集中于资料的收集和储存方面,对于用什么方法分析这些海量数据,用什么理论解释互联网世界的社会秩序、社会规范、社会角色、社会结构、社会互动、社会分层与社会不平等这些社会学的经典问题,目前国内外还都处在同一起跑线上。
因此,通过我国社会学家与其他社会科学家、自然科学工作者特别是计算机专家、统计学专家的协同创新和联合攻关,有望提出具有独创性和原创性的分析方法、研究范式、理论体系和国际标准,在全球范围内领跑。