基于统计学的大数据在实际生活中的应用
- 2016-06-01 17:58:00
- admin 转贴
统计学是研究自然界、社会界中随机现象数量规律的科学方法,并渐渐地渗入到生活中的方方面面。大数据是需要经过统计处理才能成为海量、高增长率和多样化的信息资产,这种资产具有更强的决策力、洞察发现力和流程优化能力。大数据时代,我们更需要用数据挖掘等统计方法对数据进行分析应用。目前我国对大数据的应用还处于起步阶段,还需要探索利用更多更高效的大数据模式。今天来介绍基于统计学的大数据在实际生活中的几种应用。
基于统计学的大数据的理解
大数据只提供信息但不对其解释,大数据是不能被直接拿来使用的。首先,大数据只反映信息,不能分析解释信息,一般的人并不能明白这些信息是什么意思、有什么用途,所以需要统计学进行分析解释;其次, 大数据并不能反映总体,大数据同样具有不确定性,因为现象、环境、人的行为在不断地变化,事物的发展充满了不确定性,而统计学,就可以研究如何从大数据中挖掘和提取信息规律,找出最优化的方案和模型,同时也研究如何把大数据中的不确定性量化出来;最后,大数据可能有噪声和污染,因为在数据的搜集和传输中可能受到客观或人为因素的干扰,这样的数据同样不能真实地反映客观实际,所以同样需要统计学的方法进行处理和清晰,取其精华,去其糟粕。因此大数据时代,统计学依然是数据分析的灵魂。
大数据在彩票选号中的应用
当今社会彩票市场越来越火爆,很多彩民都密切关注怎么能够将统计学理论运用到彩票选号中这一实际问题。实践中,统计学理论在实际的应用主要体现在下面两个方面:一是基于所获得数据并配用合理的概率统计公式来得出各种彩票数字号码出现的概率值,根据计算得出的最大可能数值进行选号。举个例子,像“1234567”这样一直连续数据的彩票号码相比较“2674531”这种非连续性数据号码来说,发生的概率极低,二者发生的概率值比例约为29∶6724491(1∶230000)。二是统计数据的应用。统计以前出现过的所有中奖号码数据,然后进行计算整理,用统计数据预测的概率值来选择选号区间及可能中奖号码。而这些都是和大数据有关,因为各种数字组合是海量的,另外以往开奖次数也达到了几万次,中奖号码数据也是海量的。这些都要使用统计方法对大数据进行处理。
可以画出所有号码的曲线走势图,来显示出每个号码出现频率的多少,这样在观察分析中就有直观的效果。在对中奖数据的分析和观察中,运用大数法则进行统计预测,就可以提高中奖概率。建立在走势图分析基础上的彩票分析法具有较好的跟进性。通过列出统计数值预测的号码与开出的号码比较走势图,来建立两者的相互关系,及时进行修订,这样就使锁定的目标越来越小,而精度越来越高。
大数据在产品质量管理中的应用
在质量管理中,通常研究一个过程中生产的全体产品。如果需要观测的总体N很大,有破坏性或者成本很高,那这种方法是不可取的。通常的做法是从总体中抽取一个或多个个体来进行观测。这种从所需要观测的总体中抽取部分个体,组成所研究对象的样本,通过观察样本来推断总体的方法就是概率统计的核心。
众所周知,过去产品比较简单,而现在的产品越来越复杂,特别是随着社会的不断发展,社会分工越来越细,很多产品都是由多个零部件组装而成,这些零部件又是由很多厂家生产的,当前大部分工厂产品的检验主要是针对成品,由于实际情况,检验工厂生产的成品大部分都是随机抽样,相比市场抽样合格率有所不足。而大数据的管理方式有了解决方案,检验部门借助成品检验结果数据、不合格检验数据,以及相适应的管理数据,了解出定性和定量指标与成品质量的关系。比如,如果需要了解厂家生产的产品的质量合格率,就应该了解这批产品的质量指标变化规律,由此可对工厂成品的质量做出合理的预测与决断,从而提升检验工作的效率与准确率。
大数据在人口统计中的应用
人口统计是从大量的调查数据中研究人口现象的一种方法。通过统计方法和数据处理技术分析人口调查得到的大量数据,得出关于人口发展的各种现象和本质,预测人口数量的发展趋势,据此制定各种人口政策和经济发展政策,促进人口的可持续健康发展,最终达到人口与社会经济协调发展。
1.人口数量预测和人口政策制度。关于人口的数据来源有很多,从全国普查到各种抽样调查,从人口总量、分年龄、分性别、分行业数据,从迁移、婚育、教育等数据,从统计、公安、教育、社保等部门及其他相关机构的人口数据。这些就构成了人口的大数据。现有的模型都有着极其严格的限制条件和假设,比如生育率的正态分布、相同的人口政策等,而且现有的模型还忽略了社会、环境、经济等这些对人口有着重要影响的因素,如生育的积极性、婴儿的养育成本等,加上当前二胎政策开始正式实施。之前的各种人口预测模型并没有对这些因素加以考虑或者难以量化。现有的多维家庭人口预测模型已经比较成熟,把各种家庭的结构数据在模型的基础上进行定量的政策效果分析,是该模型发展的关键。现在需要的是对这些人口的大数据进行整合、发掘和应用,把有关影响因素量化,而这离不开统计的方法。
2.劳动力供需平衡预测模型。目前,国内外关于劳动力需求、劳动力供给及劳动力供需平衡预测模型考虑的因素都比较简单和单一,并有一些严苛的假设条件。大多仅考虑了经济因素以及在此基础上对劳动力供需总量的平衡比较分析,并没有考虑到复杂的社会因素。综合起来,现有模型主要有以下不足:一是模型中只考虑了经济中的产业政策对劳动力供需的影响,没有考虑到产业结构的调整、科技进步催生的新兴产业以及生态环境对劳动力供需产生的影响;二是大多模型都为静态模型和单向影响,即只考虑经济因素中的产业经济对劳动力供需的影响,而未考虑劳动力供需对就业、产业经济发展和产业结构调整的反馈影响。
这些不足的原因就在于缺乏这些数据,所以需要通过对人口、金融、交通、电力、电信等各种大数据的整合和挖掘,找到有关衡量社会因素的指标。建立经济、社会、环境因素对劳动力需求及供给数量的预测模型,并通过系统动力学方法,建立劳动力供需数量对经济、社会、教育等问题的反馈影响,通过反馈机制将这些影响引入到劳动力供需预测模型中,对预测结果进行修正,最终建立区域经济平衡时的劳动力供需预测稳态模型。
大数据在投资风险报酬分析中的应用
现代社会的投资环境越来越复杂,投资方式逐渐多样化,投资对象也不断创新。然而投资即意味着风险,风险和收益总是对应而生的。投资者一般根据自己的风险偏好选择合适的投资产品。由于风险性投资能给投资者带来超乎想象的报酬,所以投资者还是喜欢进行风险性投资的,这种报酬就称为“风险报酬”。风险报酬的分析在很大程度上也是依赖于统计方法的应用。
风险可以分为市场风险、利率风险和流动性风险。这些风险都需要运用大数据借助统计方法来进行分析。如市场风险,可以运用统计的方法,对着各种投资工具的价格波动进行研究。比如说某种产品的价格具有随季节波动的趋势,我们就可以研究这种产品往年价格随季节波动的特点,对今年的价格进行预测,从而调整今年的预期产量,找到利润最大化的一点。对利率风险,可以用统计的方法,对金融的大数据,研究利率的时间变化规律;也可以研究不同的利率调整幅度对风险投资对象价格影响的广度和深度。对流动性风险,统计可以基于历史海量数据,研究历史上导致流动性的若干因素,以及这些因素所产生影响的程度。