大数据观世 | 第6期：大数据何以重构社会科学 - 学者观点

编者按：

大数据的兴起已经开始逐步影响社会科学发展。《大数据何以重构社会科学》一文基于最新的社会科学大数据研究和文献，从理论范式、研究方法和研究实践三个方面详细阐释了大数据重构社会科学的八个维度：重绘学术图景、延伸经典学说、丰富学科目标、促进学科融合、提升学科应用、缓解方法分歧、优化变量测量、增加展示形式。该文是国内对社会科学大数据研究的首次系统梳理尝试。

大数据何以重构社会科学

作者 | 陈云松、吴青熹、黄超

原载 | 《新疆师范大学学报》2015年第3期

作为资本劳动力和自然资源之外的第四种生产要素，大数据一般是指在数量（Volume）、类型（Variety）、速度（Velocity）和价值（Value）等方面超过传统社会科学应用规模的海量数据资料。早在 2009 年，哈佛大学的加里·金就预言随着大数据的出现和使用，整个社会科学研究的实证基础将会出现重大变化，甚至会加速定性与定量研究的大融合。

虽然大数据的重要性已然得到人文社科领域学者的普遍认同，但学界对大数据的理论探讨大多还停留在对其概念范畴、获取渠道、样本代表性以及测量可靠性等基本问题的辨析上，基于大数据的实证研究相对较少。已有实证研究基本都是通过数据挖掘和文本分析技术，发掘出潜藏在海量数据背后有意义的规律或信息，从而实现对社会现象和群体行为未来趋势的判断和预测，但这些研究大多集中在经济、金融领域，社科理论界其他领域尚未出现对大数据整体的推广和应用。本文认为，在信息技术急速发展的今天，大数据必将消解传统社会科学的理论和实证研究基础，重构人文社科的理论范式和研究方法，加速各学科之间的相互融合。

一.理论范式的重构

（一）重绘学术图景

在社会科学发展史上，重大理论问题往往能引发长期的学术争论。但随着实证证据的丰富和社会热点的转移，争论往往会在新的证据出现之前告一段落。而大数据的出现，可能为经典的理论之辨提供新的实证来源，进而有望为社科理论界重新描绘新的学术图景。例如，市场和政府是现代社会运行中最本质的两大机制性力量。一个世纪以来，无论是美国的新自由主义市场经济政策、苏联和东欧国家的转制、中国和越南等中央计划经济体制国家的改革，还是各国政府在面对全球性、周期性经济大萧条时对市场所采取的宏观刺激计划和干预政策，都可以视为政府对其在市场经济运行中应处地位及其影响范围的调整。而市场和政府之争，也恰恰是20 世纪哈耶克和凯恩斯“思想制高点”之争的全部意涵。战后几十年来，政府和市场在社会发展过程中此消彼长、阶段性主导经济社会发展进程的事实表明当今世界依然没有走出哈耶克与凯恩斯理论论战所界定的理论范围。以至于诺贝尔经济学奖获得者英国经济学家约翰·希克斯（John Hicks）在1972 年专门著文探讨“到底谁是对的？凯恩斯还是哈耶克？”这就是著名的“希克斯之问”。

“希克斯之问”是长期以来以凯恩斯主义为代表的政府计划体制和以哈耶克思想为代表的市场竞争机制二元对立关系的直观反映，凯恩斯认为自由市场不能解决因消费需求和投资需求不足导致的生产过剩危机。政府应该运用行政权力自上而下直接干预和参与经济过程。即通过扩大投资、刺激消费的方式对经济进行干预。对此，哈耶克指出，信息瞬息万变，而人们所能掌握的知识和信息是分立和有限的，中央计划的制定者无法了解经济运行中每个阶段的最终均衡状态，更无法建立全知全能式的生产、决策和分配组织。因此，对社会经济秩序进行整体设计和建构干预的做法是人们对自己有限理性的高估和致命的自负。计划经济不仅会限制个人自由、阻碍财富生产，还会造成社会贫困和集权主义政府的兴起，是一条通往奴役之路。对国家而言，只有市场调节才是最佳的资源配置方式。值得注意的是，无论是希克斯、凯恩斯还是哈耶克，他们都只是基于 20 世纪早中期的经济发展经验，试图在市场和政府间做出非此即彼的选择，而未曾想到还可以有第三条道路，即建立在信息充分交换基础上的政府有限调控，大数据的出现会为经典的政府与市场之争注入新的元素。

建立在大数据基础上的计划调控并非天方夜谭，早在 20 世纪 70 年代，智利政府的“协同控制工程”（ Project Cybersyn）就试图用大数据去统筹管理国民经济，政府通过打造一个由电报机组成的网络系统，帮助管理者实时发现、解决需要立即处理的问题和模拟每一次决策的长期后果。在机器的帮助下，智利政府成功地解决了卡车司机大罢工导致的食品短缺危机。该工程的失败主要是难以解决落后的技术水平、社会认知和超前的管理思想间的矛盾。40年后的今天，随着现代信息技术的飞速进步，分析和处理大数据所需的数据挖掘技术及设备条件已日臻成熟。同时，大数据对市场运行中的信息捕捉也已达到了空前的广度和精度，并被广泛应用于广告投放、信息预测和商业决策。这一变化的直接后果是大大降低了传统社会科学所强调的因政府与市场间信息不对称而导致的居高不下的计划错误率，使得政府通过大数据来掌握宏观经济运行状况并进行合理的计划调控的前景出现了更多的曙光。可以说，大数据为凯恩斯主义提供了新的政策工具，同时也为化解“希克斯之问”提供了重要的新的实证来源。

（二）延伸经典学说

虽然社会科学理论的流派和体系众多，但它们都可以溯源到少数具有典范性、启发性和诠释意义的概念、假说和理论，这些经典学说通常立足于高远的宏观层面去理解和描绘社会结构及其变迁的历史，具有更高的概括能力和更宽的辐射面。然而，宏大理论却难以解释经验的现实问题。由于理论的宏观性和复杂性，传统的截面数据、面板数据等抽样分析方法，无法在经验层面上对这些理论进行检验，且囿于传统的资料采集方式，研究者所能获得的经验材料，无论在时间还是空间维度上都是有限的。因此，一直以来，要想使用经典学说指导经验研究，只能在其中不断增加结构性因素以降低理论层次，这使得经典理论的影响力逐渐式微。以社会学界为例,自 20 世纪中期以来，理论界便不再由宏大叙事主导，目前大部分研究者的兴趣都集中在 70年代之后兴起的弱关系、结构洞等理论上，随着时间的推移，大理论的空间越来越小，社会学界已经开始进入了某种“后大理论”时代。

大数据在经典理论和经验研究间架起了一座桥梁，使得学界得以重新审视和延伸经典理论，并使验证和拓展宏大叙事成为可能。这是因为大数据能够以其超越传统调查数据的样本量和时空跨度，为研究者提供前所未有的海量数据、资料和信息，从而帮助研究者从过程性的历史视角来审视和验证经典的理论问题。以社会科学领域经典的社会分层理论为例，基于抽样调查数据的经验研究表明，主观社会地位既会受客观社会地位以及相对参照群体的决定性影响，也会受经济不平等的重要影响，社会经济不平等程度越高，整个社会对于不平等的感知越强，人们的阶层意识就会越明显。但用以支撑已有实证研究的传统数据缺乏大历史和大空间的跨度，这使得传统数据对宏大理论的解释和验证总是停留在某一截面上，常给人以单薄之感。而大数据的出现，可以为经典理论的验证进行补充，甚至带来更多的发现。例如在一项基于谷歌图书 2013 版语料库（811 万种书籍、8613 亿词汇）的大数据研究中，学者通过计算阶级的相关词汇在美国书籍中近 100年来的出现频率来测量美国公众对阶层的关注程度，并在此基础上对阶层关注度和美国社会百年失业率、通货膨胀、基尼系数等指标进行格兰杰时间序列分析。研究发现，在市场经济发达的美国，代表通货膨胀率和失业率之和的“经济悲惨指数”影响着阶层关注度，而基尼系数却没有显著的统计影响。该发现揭示了经济不平等对阶层意识的作用很可能存在“阀域效应”，只有当不平等高于一定的阀值时才会对阶层意识产生作用，而不平等低于阀值时是经济景气程度在影响着阶层关注度。用跨度百年的数据和以前无法获得的阶层关注度指标检验阶层理论，这既是研究方法上的突破，也是对阶级和阶层理论的最新阐释和补充。可见，大数据时代，经典理论将有可能实现“落地发展”，并不断被历史的、结构性的情境所检验和延伸，呈现出更强的生命力。

二.学科范式的重构

（一）丰富学科目标

挖掘因果机制是科学研究的基本任务，也是科学知识积累和学科建设的核心。传统社会科学尤其是定量分析致力于进行因果推断，提供机制性解释，但由于社会人的异质性，基于非实验数据的定量分析很难避免诸如遗漏变量，样本偏误，联立性等内生性问题，这在很大程度上影响了因果推断的有效性。目前，社会科学家试图通过固定效应模型，倾向性匹配，工具变量等方法来规避内生性问题以改进因果推断，但上述方法有赖于高质量的调查数据，而现实中高质量的调查数据通常难以获得。大数据时代的到来，为我们呈现了一幅描述和相关分析重新崛起，因果推断更加强化的双赢学科目标新图景，将会对社会科学学科目标起到阶段性的丰富和拓展。

首先，基于信息技术兴起的大数据扩展了人类的经验范畴，使得简单的统计描述就可以达到发现规律，展示规律的目的，这使得身处“后经典理论时代”的我们，有可能凭借大数据的启示发现和提炼出重要的理论，跳出利用抽样数据对传统理论和假说进行证实或证伪的常规研究模式。其次，大数据的海量信息在时空上具有传统抽样数据无法比拟的广度和深度，其全样本的性质在某种程度上能够避免因个人经验有限性而导致的“例外”的干扰，因此，哪怕是基于大数据的简单描述，都可能因为其数据的力量开阔启发我们的思维。最后，依据大数据做出的预测较之传统小数据要更为精确，可以为公共管理，经济金融等各种行业提供有力的工具。因此，在大数据时代，社会科学尤其是定量社会科学可能在一定程度上出现一股“重返描述”和“重返相关分析”的潮流。

值得注意的是，原始大数据所呈现和涌现出来的规律，其实和质性分析一样仅仅只是一种启示，无法得到反事实的因果证实。比如，即使我们能够搜集到五百年内全世界所有人的学历和收入进行分析，却依然无法解释内生性的问题，此时，如果有可以直接进行回归分析的定制大数据，就能够很好地回答上述问题。本文认为，相关分析永远是因果分析的基础和起点，而因果分析才是社会科学的全部目的。从目前可用来做出社会科学分析的大数据看，它所能提供的变量尚属有限，研究者很难通过大数据进行变量控制来做出传统的因果推断。但未来真正高质量的大数据，应该是以为社会科学研究所量身定制的形式出现。例如：在一项对教育回报的分析研究中，传统数据可能缺乏对能力，智商，情商等精确的测量指标，但大数据时代，我们则可以凭借对医学指标的整合来进行社会学分析，使用这种定制大数据，研究者可以做出非常好的因果分析。从这个角度，本文认为大数据的出现最终会在描述，相关分析的热潮之后进一步向因果分析跃迁。

（二）促进学科融合

专业化是现代社会的鲜明特征，专业化程度的提高大大加强了人们认识自然和社会的能力，个人在越来越专业化的同时，也失去了对整体文化的了解和控制。对社会科学而言，学术分工的专业化进程大大提高了研究效率和学术领域内的交流评估质量，但也逐渐形成了各自为政的不足。研究者在获得相当深度的同时，失去了对广度的把握，不同学科间的边界日益鲜明，且学科边界间还产生了许多空白地带。因此，与学科分化反向的学科融合必将在社会科学发展过程中周期性地出现。而人类知识谱系意义上的学科融合，其历史颇为久远，早在第一次和第二次世界大战的末期，不同学科领域间已经发生了研究方法的借鉴和知识结构的重新建构。本文认为，大数据的出现将会促使第三次学科融合的兴起，并将以数据为纽带，从以下两个向度推动学科融合：

第一，大数据将会向外推动社会科学与自然科学、尤其是计算机科学的融合。大数据之“大”，使得数据的性质发生了显著变化，其数据的获取和分析，往往需要有别于传统社会科学训练的方法和工具，这就为原本在计算机、人工智能和数理等领域具有专长的学者参与社会现象的分析甚至转型为社会科学家提供了机会。近两年来，发表在英语重要刊物上的基于谷歌图书、维基百科和脸书、推特等大数据的语言学、经济学研究论文，绝大多数都有计算机和自然科学家的参与著名的小世界理论提出者邓肯·瓦兹原先就是美国海军的物理学家。同时，大数据还为社会科学提供了全新的分析对象，提升了交叉学科在社会科学中的地位，揭示了诸如“计算社会科学”“应用计算科学”等学科在美国受追捧的原因。

第二，大数据将会向内推动社会科学学科间的交流和对话。长期以来，社会科学内部各学科间区隔明显，显著地表现在每个学科使用的数据和分析方法都自成体系，例如，经济学分析多使用面板数据、时间序列数据，社会学分析多使用截面数据，人口学分析多使用普查数据等。尽管数据分析的方法和原理大同小异，但学科差异下的数据搜集和使用、各自为政，难以达成有效交流。大数据的出现将有助于改善这一对话困境。这主要是因为，大数据的获得具有非学科性，大数据的搜集本身往往不是由学科定制，这种无心插柳的数据获取具有一种跨学科的潜力。因此可以预见，越来越多的跨学科研究和交叉学科研究将会不断涌现。

（三）提升学科应用

随着信息革命的深入，大数据开始被广泛地应用于经济、金融、选举、竞赛、就业、高考、疾病、灾害等诸领域进行趋势预测。其逻辑基础在于从大量征兆的累积中判断社会现象发生质变的临界点。大数据预测最常用的工具是谷歌趋势（Google Trends），它通过揭示某个检索关键词 2004 年来每周被全球网民检索的次数，以及这些检索的来源地域，帮助我们发现该关键词被人们所好奇、关心的程度及其分布规律，进而进行趋势判断。利用大数据对人类社会现象进行预测分析的最著名例子是谷歌趋势对流行感冒的预测工具“谷歌流感趋势”（GFT）：2009 年，在H1N1 爆发几周前，谷歌专家就已在《自然》杂志发表了利用 GFT 成功预测 H1N1 传播范围的论文，其预测精确度甚至可以到达州的层面。受这一研究的启发，经济学界也迅速启动了对谷歌搜索数据的分析，并发现了网页浏览、脸书帖子等文化载体内容和股票市场、劳动力市场失业率等经济指标间稳健而可靠的关联。比如英国沃里克大学在《美国国家科学院院刊》（PNAS）上发表的报告指出：2004-2012 年间，美国网民在谷歌搜索上输入关键词的变化与“标准普尔 500 指数”的波动呈相关关系，美国网民搜索商业类和政治类关键词的频率同时上升，“标准普尔 500 指数”往往会下跌。报告指出，如果根据大数据研究来制定投资策略，则收益率可以高达 297%，而同期采取简单的买入持有策略只能获得 3%的收益。可见，较之传统经济学研究，大数据推断改变市场的成效可谓立竿见影。

在传播学方面，大数据分析技术的提升能够同步提高新闻生产的广泛潜入性和规模化处理信息的能力，并在调查性新闻、可视化叙事和应用三个层面驱动创新。目前，在新闻传播界，以“悦读体验 + 内容定制 + 预测性报道”为特征的大数据新闻模式已初现端倪。大数据新闻的重要特点在于其个性化和精准性，既能基于读者所在地和阅读兴趣的差异来进行新闻的个性化推荐和定制，提升读者的阅读体验，又能基于社会表层现实和深层现实、受众理性认知和感性认知对受众行为和社会事件发展趋势做出精准的预测。这无疑为政府科学决策、提高公共管理和服务水平提供了强有力的保证。

三、研究实践的重构

（一）缓解方法分歧

定量研究和定性研究是两种不同取向的研究范式，长期以来，不同学术偏好的研究者们从本体论、认识论和方法论等各方面对两种范式的优点和局限进行了深刻剖析：一方面，作为一种科学化的中介手段，定量研究能够实现社会现象的对象化、客体化；另一方面，定性研究能够突破自然科学的限制，实现对行动主观意义的把握。然而，在社会科学研究中，究竟是工具理性更重要还是价值理性更重要这一关键问题，论辩双方并没有达成一致的意见。通过量纲法在谷歌图书 2013 版语料库中计算 20 世纪 50 年代以来的“定量分析指数”，发现：总体上，定量研究和定性研究呈交替主导的状态。从 20 世纪 50 年代到 80 年代，定性方法占据优势，但 20 世纪 80 年代到 90 年代定量方法成为主，95 年左右又被定性方法超越，而从 2000 年左右至今，定量方法再次超越定性方法成为社会科学研究的主流。这也从侧面反映了近 60 年来，试图通过时间序列分析、网络分析等定量技术分析文本，或通过叙事分析等定性方法分析调查资料等混合两种研究范式的努力并未能有效弥合两种范式的分歧。

从某种意义而言，大数据的使用使得定性和定量两大阵营之间出现了一个混合地带。大数据海量的数据规模和全新的数据特征使得定量研究与定性研究在资料获得与分析方法方面逐步走向趋同，这在某种程度上缓解甚至重构了定量研究与定性研究间的关系。

对定性研究者而言，大数据可以通过海量规模的样本直接发现和展示出社会现象的规律，既不需要控制变量来检验关联，又能避免定性方法在案例选择方面的样本偏差。例如，金观涛在《观念史研究》一书中用计量史学的方法对 19 世纪末 20 世纪初的中国报刊文本进行分析，具体方法是将学界公认的 1830 年至 1930 年间那些与政治社会思想有关的报刊、档案、文集中最有代表性的文献进行数字化处理，然后通过词频统计和文本意义解读归纳出世纪之交的观念变迁。然而，由于作为分析对象的报刊本身既不能完全代表当时的报刊总体，又不能完全代表当时的社会思潮，因此，该研究结论的代表性广遭诟病。显然，如果作者在当时就能使用代表全样本的大数据，那么其研究结果必然会具有很强的说服力。此外，大数据还可为定性研究提供全新又不过于复杂的研究思维，并让检索和数据描述等过去被定量研究者“垄断”的方法为我所用。

对定量研究者而言，在探索变量间的因果关系所遭遇的最大困境便在于反事实问题。囿于研究伦理的限制，研究者无法同时得到个体在受干预和不受干预两种情况下的状态，这就使得寻找用于解决反事实问题的控制变量变得愈发困难，从而会导致统计推断产生遗漏变量偏误。目前可用的大数据并非专门为回归分析而设计，不能解决反事实问题和遗漏变量偏误，因此依据大数据很难进行传统意义上的回归分析和因果推断，但由于数据的海量性甚至全样本的性质，一旦把基于大数据的简单关联分析或时间序列分析结果与文献中的传统回归分析进行比对，就能形成非常具有说服力的证据链。同时，大数据还拓展了定量研究者的关注视野，使他们的兴趣点从传统的定量分析转向以往较少触及的文化、心理等领域，并开始重新审视、描述在定量分析中的地位。本文认为，大数据定量分析方法一般可分为两个层次：一是对大数据进行描述和可视化，二是从大数据中抽取出可以进行回归分析的变量进行传统的定量分析。前者能够在最大程度上展现大时空的规律性，后者能够将海量的数据结构化，并得出高质量的新数据。在实际操作中，这两种方法都有助于我们进行因果推断。

可以预见，以描述和简单回归分析为主要方法的大数据研究，将同时出现在定量和定性两大阵营之中，并进一步缩小定性定量分析方法的鸿沟。

（二）优化变量测量

在对宏大概念进行测量的过程中，是否能寻找到相应的、有说服力的测量指标通常是实践中的重点和难点，譬如上文提到的有关阶层方面的研究，从谷歌图书中提取了一个阶级关注度的大数据指标，这为其对经济不平等和阶层意识论述增添了强大的说服力，但这种指标用过去小数据方法进行测量分析往往很难获得。因此，在研究实践中，应用大数据能够优化变量的测量。

以陈云松、吴青熹、张翼近期完成的《近代中国城市的国际知名度及形成模式》的研究为例，该研究的一个重要贡献就在于为国际知名度提供了一个大数据指标。在这项大数据研究中，作者首先以1700 年以来谷歌图书的百万英语书籍作为语料库，以中国所有的直辖市、副省级以上城市、省会城市、各地级市以及港澳台主要城市名称作为关键词，以这些关键词在语料库中每年出现的频率高低为指标，在 300 年（公元 1700-2000 年）的时间跨度上展示和分析了城市国际知名度的百年变迁。在构建国际知名度测度的基础上，作者进一步对中国城市国际知名度的形成渠道进行分析。由于近代以来，国际交通运输技术的成本高昂，满清政府在经济、文化和外交上实行闭关锁国政策，绝大多数中国城市与西方直接的人流、物流互动比较有限。因此，该研究提出中国城市群体国际知名度形成的“差异化”假说。具体而言，近代中国大陆城市的国际知名度，主要受到西方当时主要媒体（报纸）提及率的影响并可能互为因果，而对于香港、澳门和台北等曾经有过较长殖民地历史的中国城市而言，该关联可能就不那么显著——殖民统治使得这些城市直接成为中西文化对撞的窗口，从而具有与大陆城市不同的知名度获得途径。为检验这一假说，作者从《纽约时报》全文数据库中提取了中国城市提及率指标，并将其与基于书籍大数据的国际知名度指标进行了跨度长达 150 年的时间序列分析，以观察两者的联系在大陆城市和港澳台三地之间有无差异。最后的发现表明，近代大陆城市的国际知名度和媒体提及率之间存在显著的“格兰杰因果关系”，且媒体提及率更多地影响知名度，而港澳台城市的国际知名度和媒体提及率之间则没有显著的统计关联。这表明近代以来中国城市国际知名度的获得具有“直接”和“间接”两种模式。大陆城市的国际传播主要通过报刊媒体“间接”进入西方社会，而有过殖民地历史的城市更多地以“直接”交流的方式来积累知名度。

该研究表明，除了传统的抽样数据可以用来对城市进行研究之外，大数据特别是书籍报刊大数据能够为城市及文化传播研究提供新的维度。特别是，通过从大数据中提取出传统社会科学分析方法所能够处理的关键性变量对大数据进行二次分析，得以充分发挥传统定量分析方法的价值，达到对城市知名度形成渠道及其变化趋势分析的目的。总体上，大数据有助于重新强化“描述”在定量分析中的地位，也催生了利用大数据提取小数据然后进行定量分析的主要途径。尽管该研究没有进行传统社会学定量模式里的回归分析，但大数据中涌现出的社会现象本身已经为我们展示了饶有兴味的历史画卷，并提供了一个横跨社会学、文化学和城市学三个学科的大数据研究的有效案例。

（三）增加展示形式

除了数据采集、分析、挖掘和因果推断外，在研究实践中我们还必须有效地展示数据结果。一直以来，数据展示存在着千人一面、阅读者难以理解的痼疾。而以简洁、清晰的方式展示数据间的内在模式，使受众对数据及其所代表的现象间的结构关系达到更深的理解，是大数据时代社会科学界的又一重大变革。

大数据时代的数据展示主要以可视化的方式进行。数据可视化是借助图形、图像处理、计算机视觉以及用户界面等多种手段，通过表达、建模以及对立体、表面、属性和动画显示等多种形式，从多角度把海量信息、概念视觉化，直接展示信息背后规律的方式。它能帮助受众迅速了解研究者的观点和思路，快速得到某一问题的答案，从而解决诸如信息过饱和、信息可靠性不足以及信息透明度缺失等问题。

数据可视化其实是知识的一种再生产方式，研究者以图形、时间序列、地图、流、矩阵、网络、层次和信息图形为基本元素，通过元素间的多种组合来表达自己对海量信息和数据的理解，进而解释较为宏大和抽象的理论问题。例如：美国 Wanted Analytics公司通过提供的城市数据分布图，展示了美国各地区工作数量、工资水平、人才供应、平均招聘时间以及招聘比例等信息，并把行业需求和地理位置相结合，总结了美国前 20 名大数据人才市场的信息，这是应用跨空间图表研究文化和社会变迁的典型案例。可视化并不局限于数字，概念也同样适用：在对政治倾向图谱的研究中，MacCandless试图将各种政治倾向融入到图表中，并展示其如何从政府渗透到社会、文化中，对家庭和个人产生影响，继而又反过来影响政治形成一个循环。

可以预见：大数据时代，数据可视化必将彻底取代传统的数据展示形式，充分展现数据的温度与美感。

四.结语

大数据研究尚属起步阶段，但其对社会科学的冲击与改变已经不容小觑。本文通过分析大数据时代对人文社科领域理论范式、学科范式和研究实践带来的改变，论证了我们对于大数据必将重构社会科学、加速学科融合的基本观点。重要的是，大数据为我国社会科学发展提供了加速超越西方和形成中国特色、中国气派的重要机遇。这是因为，大数据无论对于西方社会科学界还是对于中国社科界，都是一个全新的事物。只有迅速占据大数据的高地，才能在中西学术对话中占据主动。

目前，围绕大数据在社会学科研究中的应用，国内社会科学界已经在初步形成一批研究中心。例如，在社会学研究方面，南京大学社会学院利用谷歌数字化图书大数据和互联网大数据，在学科发展、阶级阶层、文化传播、城市发展等方向率先形成了一批实证研究成果。《社会学研究》等权威一流刊物也率先刊登了大数据的应用定量分析论文。新闻传播学研究方面，中国人民大学新闻学院以互联网传播数据为分析基础，对大数据在传播学中的应用研究率先进行了探讨。北京大学、清华大学、上海大学等相继较早举办了国内社会科学界的大数据分析会议和培训班次。尽管目前大数据仍然是一个新鲜事物，仍然存在讨论得多、分析得少的状况，但“星星之火、可以燎原”，我们有理由相信：随着越来越多的学者开始意识到大数据的重要性并加入到大数据的研究队伍中来，社会科学界必将迎来又一个学术的春天！

*为便于阅读，删减了参考文献等注释内容。

——————————————————————————————————————————————————————————

萌泰数据是社会科学领域知名数据服务商和科研教学工具厂商，面向社会科学教育实践、学术研究和社会服务，提供一体化数据解决方案。目前旗下包括“锐研”和“智社”两大子品牌。

“锐研”是萌泰数据旗下社会科学专题数据库及科研服务平台，旨在为学者和科研人员提供专题数据库和科研数据采集与分析服务，以及各类社会调查研究方法工具支持。旗下产品包括五大特色数据库、三大指数产品、六大社会调查研究工具以及智慧蜂众包任务平台等科研服务产品。