大数据时代下的数据咨询

2019-06-04 16:54:00
admin
转贴
大概从今年开始,“Big-data”一词逐渐成为术语。这跟整个世界的数据爆发当然有关系,也标志着当今社会正式步入大数据时代。这是人们获取新知识、创造新价值的源泉,大数据正在改变市场、组织机构、以及政府和公民关系的方法。

大数据背景下的数据分析

数据量越来越大,越来越考验我们的分析数据的能力,而对数据进行分析的前提就是如何去挖掘数据潜在的关联、潜在的意义等等。
数据挖掘需要“神马样”的流程?
我们在做咨询报告的时候,会经常运用到一些逻辑,数据分析也是一样的,也是需要一个比较准确的流程来规范我们的数据分析逻辑。比如,流程中的定义商业问题,即清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。这里探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。又比如,数据的转换(流程中“模型建立”),就是将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的,而建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

数据挖掘主要解决的四类问题

数据挖掘非常清晰地界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:
第一类,分类问题,属于预测性的问题,其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75⋯⋯)。第二类,聚类问题,不属于预测性的问题,它主要解决的是把一群对象划分成若干个组的问题,划分的依据是聚类问题的核心。第三类,关联问题,有人说啤酒和尿布是沃尔玛超市一个经典案例,也有人说是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。我们就是要善于发现不同事物间的这种关联。第四类,预测问题,主要指预测变量的取值为连续数值型的情况。值得注意的是,分类问题是预测一个未知类别的用户属于哪个类别,聚类问题根据选定指标,对一群用户进行划分,它不属于预测问题。

大数据背景下数据分析方法的转变

大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖随机采样。同时,由于我们研究的数据如此之多,以至于我们可以不再努力追求精确度。数据的集成和信息量大增的同时也促进了数据分析方法应用上的革新,首要的革新将来自抽样模式的转变,随之而来的将是统计推断方法可以得到更加深入的应用。

抽样模式的大变革

抽样是统计分析数据收集的必备步骤,抽样的科学性决定我们后续对总体估计的精确性,因此抽样也是一门非常繁复的科学,对于非专业的数据搜集人员来说,如何确定抽样误差,样本容量均是让人头疼的问题,但是如果大数据时代来临,对于我们可以获取的丰满数据,就可以不再进行繁琐的抽样计划,而是直接用总体进行分析,这样不仅可以避免为了追求精度而带来过多的耗费,而且可以免去人脑在抽样方法选择上的过多纠结。
推断统计的越发广泛应用
很多统计分析方法都需建立在数据量大的基础上完成,数据量越大,分析结果对决策更有效果。对于房地产行业来说,某个楼盘的评价我们通常只会给予定性的结论,数据的分析也无非就是横向纵向对比;而在克而瑞新房定价的系统建立过程中,可挖掘出项目一系列指标的评分数据,从而对影响项目的各类因素进行定量化处理,在信息完全的情况下我们可以考虑更多的因素,进行更详尽的分析。

大数据背景下深入统计分析案例:新房定价

无锡克而瑞自2013年3月开始着手新房定价工作,其中对无锡78个在售的重点项目进行了覆盖29个指标的定量评分工作,量表采用10分制,分数越高代表项目对应的该项指标做的越好。通过此类数据,他们可以进行78个项目较为全面的综合评价分析,所用的统计方法大集合起来有如下几个:
聚类分析
聚类分析是采用欧式距离计算各项目最终指标得分的最近距离,得出同类项目分类。(图1,表1)


表1的分析结果告诉我们,无锡在售项目整体活跃度较高,有41%的项目保有较高较持续的市场热度,此类项目多数以刚需和首改为定位;高端项目约占13%,属于市场的小部分,但此类项目在无锡市均享有较好的口碑,得以满足改善需求;中、高、低端排布呈现中端优势,服从正态分布,与一个稳定的市场形象较贴合。
因素分析
无锡克而瑞对29个指标进行多元降维处理,使得最终所有的指标的解释权归为四个主因素。本次分析结果显示主因素对29个指标的方差解释贡献率为54%,对于量表得分指标来说已经是一个较高的贡献率。从表2的降维结果可以看出:因素一主要的承载对象为整体规划、物业管理,社区内部的交通组织、开发商品牌等于项目综合形象有关的指标,因此命名为综合形象因素;而因素二受产品的设计、价格的上行动力有关,命名为价格驱动因素;因素三载荷较重的因子有商业配套、所在板块能级等,命名为配套及竞争力因素;因素四同样观察其主要载荷命名为产品定位因素。通过此方法我们把复杂的29个指标最终综合为四个综合的影响因素,使得分析更加便利。
结构方程式模型
通过以上的两种分析过后,我们对无锡在售项目产生了初步的印象,最后可以通过结构方程式模型(AMOS)来进行因素之前的路径分析,从而得知客户对于项目的整体影响主要源自于哪些因素,各因素之间又会产生何中关联性,以便与我们日后更好进行咨询服务。
从结果可以看出,各个因素之间存在一定的相关性,从价格驱动因素和配套及竞争力因素之间的相关程度,可以看出开发商要想卖出高价必须提升项目的自身配套和竞争力等实实在在的角度,其中主要交通状况和商业配套是客户最为关注的;项目的整体形象对于价格也有较高的驱动作用,其中影响最大的指标则为开发商形象和物业及会所的管理质量。

大数据背景下深入统计分析案例:市场监测

中国房地产市场研究已经走过了20多年的历程,我们已经能够熟练地掌握并运用一些常规的数据分析方式,比如说房地产市场供求量价的走势、结构性的分析、存货及去化周期的分析等一系列数据指标。但是我们静下心来仔细想想不难发现,这些传统的数据分析的已经逐渐无法满足我们对于数据研究的需求,我们需要寻找一些新的分析点来突破我们的惯性思维,也就是数据挖掘及分析思维的创新。

借鉴证券市场
古人云:“三人行,必有我师。”数据分析也是如此,我们可以去借鉴其他对于数据分析较为成熟的领域。

从纵向到横向


证券分析师在研究证券市场的时候,不仅需要对中国的证券市场历年的行情进行纵向的研究(历年来或者历月以来房地产市场或宏观经济的供求走势),还会去研究亚太、美欧(同级别城市房地产市场及宏观经济)以及各大宗商品市场(土地市场),通过横向的对比来反应中国证券市场的真实现象。
权重影响能力
证券市场常用“二八法则”来分析市场的走势和格局,楼市中也是可以通过此法则来分析和研究,我们可以通过研究TOP10、TOP20、TOP30、TOP50成交面积占比走势来判断市场的好坏,因为我们有着一个共同的认知,市场好的时候,项目成交应该是百花齐放,弱市中才会出现个别项目独领风骚的局面。这个通过文中的趋势图也很容易得到验证。
股价图
股价图主要是反应每支股票每天价格运行的趋势,我们可以将一个项目或者板块的日度成交价格走势进行汇总,通过股价图来表现他们一年或者半年的一个格局,就可以很明显地看出这个项目或者板块的价格运行趋势。


量比

量比=现成交总手/(过去5日平均每分钟成交量×当日累计开市时间(分)),在楼市中,我们可以用他来分析一个项目未来的趋势如何,在楼市中运用如下:量比=本周(月)成交量/(过去5周(月)平均成交量。在运用量比的同时,最好是结合股价图说明,将量能与价格结合到一处,更能反映实质的问题。
挖掘数据之间的关联性
我们在研究房地产市场的时候,往往会忽略这个城市或者这个板块到底有多少个在售项目,这些在售项目有多少个是持续有成交,但是真正将这两点进行量化后进行纵向和横向的分析,就不难看出其中的关联。如图所示:通过市场成交项目的个数以及成交项目占总体在售项目的比例可以来判断目前市场的活跃程度,这里主要是通过绝对值和相对值来与今年以及历年的同期水平进行对比,同样的原理可以适用于每个板块。
当然这些仅仅是我们在处理和分析一些数据时需要考虑的问题,在进行专业的数据分析的过程中,我们还是需要结合一些专业的数据统计的模型来给予更好的分析论证数据。
    发表评论
    评论通过审核后显示。