大数据时代“小数据”在政府统计中的作用

2019-01-04 09:53:00
admin
转贴

从联合国的大数据专门机构“全球脉动”,到英国国家统计局的“大数据项目”; 从2014 年3月成立的由18个国家和9个国际组织组成的大数据全球工作组,到我国阿里研究院发布的网购核心商品价格指数(aSPIcore),大数据已经渗入并影响到了统计工作的很多方面,给政府统计带来了一定的冲击和活力。

然而,大数据并不是万能的,“小数据”也有大数据不能取代的优势。在大数据时代研究小数据的作用,可以有效避免大数据项目的盲目跟风和系统内人财物资源的无效配置,同时能够更好地发挥大数据在政府统计工作中的作用。小数据是相对于大数据的概念,一般来说小数据体积小、易于快速理解、数据的读取分析和处理都相对简单。

大数据主要来自互联网,而小数据的来源大多是抽样调查、深访、行政记录和实验设计等传统统计方法。相比大数据,小数据拥有一些情况下成本低、能够有效控制和了解精度、易于创新的特点,因此大数据分析往往离不开小数据。


一些情况下使用小数据的成本低

大数据的获得需要一定的成本。首先大数据是二手数据,其拥有权不是政府统计部门,获得这些大数据需要政府机构同各个数据所有者进行沟通和谈判,因此大数据可获得性差、时间和经济成本都很高。

其次,使用大数据还需要有效解决隐私等法律问题。最后,即使获得了这些数据,大数据的存储、读取、分析和管理都需要一定成本。

目前的情况下,很多时候并不需要海量的样本,设计科学的小型调查就可以实现研究目标。如监测经济运行的先行指标采购经理人指数(PMI),作为世界上经济活动的重要指标和经济变化的晴雨表,我国制造业 PMI 的样本量只有 730 家企业,然而这已经大大多于美国、日本和英国等发达国家的样本量。由于抽样设计科学和抽取的企业具有优良的代表性,制造业 PMI 能够准确反映经济运行的走势。

由此可见,监测制造业企业的经济运行情况,并不一定要获得海量的企业大数据,便可以很好的达到服务宏观经济决策的目的。相反,盲目追求样本量数量的巨大,反而有可能因为抽取到的是有偏的样本得出错误的结论。


小数据可以进行统计推断,能够有效控制和了解精度

传统的统计调查,如住户调查、电话调查等方法能够计算抽样的误差和精度,并通过调整样本量和抽样方法来让抽样误差控制在可以接受的范围内。大数据虽然数据量非常大,但是很多时候并不是统计总体,也无法计算抽样误差。

即使有成百万上千万的样本量,如果不是总体有代表性的样本,也很难推断出总体的性质。比如阿里巴巴的网购核心商品价格指数,虽然淘宝网的商品交易量非常大,但是我国居民的消费行为除了线上购买,还有线下购买,线上线下的商品价格还是有一定的差异的。

同时,网上购物者的选择除了阿里巴巴旗下的淘宝和天猫商城,还有京东、一号店和唯品会等电商。除了采价点不一样之外,阿里巴巴的价格指数商品分类和权重也与 CPI 不尽相同,因此至少目前阿里巴巴的网购核心商品价格指数并不能完全替代国家统计局发布的 CPI。


小数据可以发现很多大数据无法涉及的问题,更有利于创新

使用大数据比较难以创新,首先,社交媒体、搜索引擎和电商交易记录等大数据很多人都可以用来分析,却很少有成熟的政府统计产品;同时大数据虽然数据量海量,记录的却都是过去发生的事情,未来的变数很难预料;大数据虽然有海量的信息量,但由于是二手数据,也不见得拥有研究者需要的关键信息。相反,合理利用小数据,能发现大数据无法发现的规律,并且更有利于创新。

一个典型的案例是乐高(LEGO)玩具的例子,20世纪 90 年代由于计算机和互联网游戏的普及,乐高公司的玩具市场受到了巨大的冲击。几乎所有的大数据分析都显示年轻一代喜欢更加简单的玩具,因此乐高积木玩具的组件越来越大,不过大数据分析并没有拯救乐高公司日益下滑的销售额。

乐高的市场转机完全是由于公司高层分析了小数据,即在一次入户深访中,一个 11 岁的德国男孩无意中得意地形容自己的运动鞋一只磨得很破另一只完好无损可以证明自己的滑板技术。乐高的管理层由此开始意识到玩具的买家更需要的是玩具带给他们的成就感,因此乐高更改了营销策略,玩具的组件不仅不再变大迎合市场,而是越做越小。增加了玩具的复杂性反倒吸引了很多小孩购买乐购。

正是这样的小数据调查,让乐高公司了解到了客户可能自己也没有意识的炫耀性消费目的,从而制造了很多像苹果公司一样的忠实粉丝。这个案例充分说明了光靠大数据是不

够的,机构创新也需要更有营养、更加深刻的小数据。


大数据分析也离不开小数据的分析方法

大数据分析的结果必然是通过小数据的形式展现的,这样大数据研究成果的使用者才能更好理解其结论。目前,大数据分析的过程也是需要通过并行计算等方法将大数据转化为统计从业者可以处理和理解的小数据。

同时,在评估是否需要采用大数据项目时,也可以从小数据着手,进行预调查,来评估采用大数据方法的必要性。亚马逊是全球的在线图书销售商,每天都能产生几十个 TB 的交易数据,通过对这些大数据的分析,能够更好安排进货和库存,给消费者提供更优质的服务。

最重要的是这些数据让亚马逊更好地了解购书者,20 年 来 亚马逊积累了非常丰富的消费者行为数据。不过非常有意思的现象是亚马逊在 2015 年也开了实体书店,并且承诺和网站书店保持一致的价格,这对传统书店来说是个雪上加霜的消息。对于亚马逊来说,建立书店实体店,可以更加近距离的接触消费者,从而了解到大数据分析无法得到的客户信息,这些数据都是传统实体书店拥有且妥善保存不愿与在线书商分享的信息。

通过了解消费者在实体书店的体验,再结合亚马逊积累的大数据,可以全方位的了解消费者,从而提供更好的消费服务。这个案例从另一个侧面也说明亚马逊这样的电商也注意到了小数据在大数据分析研究中不可替代的作用。充分利用大数据时代的最新研究成果,政府统计可以丰富其统计产品,提供更加及时、快速和准确的统计产品。

在大数据时代,小数据依然拥有其不可或缺的作用,政府统计需要继续利用这些传统方法来为政府和社会公众提供数据服务。同时政府统计需要知道大数据并不是万能的,大数据也有一定的缺陷,大数据和小数据方法相互结合,才能更好利用大数据生产统计产品。

发表评论
评论通过审核后显示。