大数据、数据科学与管理学研究
- 2016-12-09 10:17:37
- admin 转贴
一般而言,大数据与数据科学两个概念常常被交替使用。事实上,“大数据”指可收集和整理的、规模巨大、形式多样的数据。最广为人知的大数据定义是Gartner给出的大数据的3V特性:巨大的数据量(Volume)、数据的快速处理(Velocity)、多变的数据结构和类型(Variety)。这三个属性揭示了通过大数据生产知识的复杂性。“数据科学”目标是通过发展分析模型,以捕捉和分析数据中的潜在模式,并加以可视化。数据科学强调对数据的构成、属性的系统分析,探讨这些数据在推论中的作用,包括推断的置信力。大数据与数据科学作为新的工具,有发展管理学理论的潜力。
作者认为,当前管理学的研究模型都是析因分析或事后分析(post hoc analysis),所以大数据在数据的快速处理(Velocity)方面的特性,对于管理学学者而言可能并不是很重要,而规模大和多样性更具有潜在意义。作者基于这两个维度,建构了数据范围(Data Scope)和数据结构(data granularity)两个概念。
(1)数据范围指的是一系列变量和人口总体或者对每个参与者的巨量观测,而不是以往的抽样和样本。大规模增加的观测和更加广泛的人口范围使得研究从样本转向了总体,研究者有可能收集到总体的数据,就可以摆脱以往研究中样本选择性、偏差的限制。例如对企业组织的研究,可以通过电子邮件沟通、办公室进出、射频识别标签、可穿戴传感器、浏览器、移动电话等方式和技术收集到所有员工的数据,且是持续不间断数据。Chaffin and colleagues (2015)等学者已经可穿戴传感器的可行性,他们使用蓝牙传感器测量行动者之间面对面的物理距离变化,用麦克风捕捉语言活动,以此探测社会网络中的结构。
(2)数据结构要表达的是对要素结构特征的直接测量,而不是通过数据进行数字推断。在一项关于员工压力的研究中,数据的结构精细度包括了基于面部识别模式或生物测定学的情绪测量,如在一份工作或任务中每分钟的心跳频率,就不需要像以往那样进行问卷调查或访谈。在社会网络分析中,研究者可以通过监测员工之间的沟通内容与类型来分析他们的社会网络,这可以取代以往通过回顾的方式收集他们互动的数据。
大数据与数据科学的上述特征使得管理学学者可以发现新的问题,发展新的理论,以及为现有问题提供更好的答案。如下图1所示,以数据范围和数据结构为两个维度,展示了大数据为管理学提供更好答案和新问题的可能性。
(1)关于为现有问题提供新答案。数据科学技术使得研究者获取更多即时、精确的信息以检验现有理论成为可能。如此,研究者并可以获得对效应值及其置信区间更为准确的估计。效应值的精确估计可以使研究结论的应用变成可能,而不仅仅是进行行为研究。
更好的答案还可以来自建立清晰的因果机制。例如在社会网络研究中,时间维度常常是缺失的,关于社会交往的时间先后顺序常常难以调查到,因此很难确定是否网络结构对行为有影响,反之亦然。在大数据时代,收集持续性的电邮或其他通讯工具内的信息成为可能,它使研究者可以测量网络与行为的动态变化情况。
此外,对于稀有事件,如管理学中的组织应对灾难、风险行为和系统弹性等问题,大数据使得这些事件相对不再那么稀有,便于从事研究分析。
(2)关于新问题。随着数据在范围和结构上的扩展升级,使得发现和探索以往未曾研究过的新问题成为可能。范围广泛又精细的数据可以开展对移动、沟通、物理空间和合作类型等新领域的研究,深入分析潜在合作、团队动态变化、决策、空间环境、工作场所设计和实际合作之间的内在因果机制。例如,跟踪电话使用与空间靠近的过程,并可以深入分析个体是否在工作或家中耗费太多时间在沟通技术和社会情境的注意力分配上。研究表明,时间耗费在电子邮件上增加了工作中或家中愤怒和冲突的可能性(Butts, Becker, & Boswell, 2015)。这个分析方法还可以扩展到物理和社会突发事件,工作性质,工作绩效的结果,以及生活质量的研究中。此外,关于顾客的购买决策和社会反馈机制的数据,以及补充数字支付和交易的数据,便可以深入研究创新和产品选择,以及对特定客户进行市场划分。基于移动平台的电子货币,通过分析电话信贷、商品与服务的交易,为社会和金融延伸品的创新提供了非常好的机会。
新问题也可以来自现有理论,例如,一旦研究者可以观察和分析电子邮件沟通火灾在线数据,就可以回答他们所关注的管理层决策过程。研究过程中可以使用非结构性的视频、图片数据,并通过脸部识别情绪。
总之,要重新检验理论,发现新问题,学者们需要不断探索和接受来自数据范围和数据结构两个维度的数据处理挑战。现在,企业内部的数据,以及一些开放数据更加容易获得,新的数据源和分析方法将促进管理学继续发展。