中国经济信心指数新闻舆情大数据报告

2016-12-28 15:10:00
李军、王宁、刘玉林、王召义
原创
摘要:当前,我国经济面临着空前的复杂性,实体经济投资放缓,金融市场面临压力,经济供需之间的结构性问题依然存在。尽管如此,在供给侧改革的大力推进下,我国经济仍保持在中高速增长。进入2016下半年以来,经济企稳向好迹象明显显现。

1   研究概述

当前,我国经济面临着空前的复杂性,实体经济投资放缓,金融市场面临压力,经济供需之间的结构性问题依然存在。尽管如此,在供给侧改革的大力推进下,我国经济仍保持在中高速增长。进入2016下半年以来,经济企稳向好迹象明显显现。

为了进一步了解我国经济面临的挑战和压力,以及面对挑战和压力我们的反应和态度,我们对各类主流新闻报道和网络媒体的新闻类文本大数据进行了研究,希望通过对大数据量的文本中蕴含的态度、情感、关注点等内容的分析,探寻各类媒体和网站对我国经济社会发展的信心,从另一个角度反映我国经济当下发展的现实和人们对未来的预期。[1]

1.1   研究对象

本次研究的对象选取能够通过互联网公开访问的所有主流新闻媒体和网站发布的新闻类文本作为研究对象。

由于新闻报道的正文内容一般篇幅较长,不太容易把握中心思想,而新闻的标题往往言简意赅,通常能够代表文章的主要观点。为了便于重点分析和比较研究,我们选取了2014年1月1日至2016年11月30日期间,标题中含有“经济”、“就业”、“收入”和“消费”中的任意一个关键词,并同时包含“中国/我国”或31个省、自治区、直辖市中的任何一个名称的所有新闻标题作为研究对象[2]

我们共采集了符合条件的110万余条新闻标题,涉及2000余家新闻媒体和网站,剔除大部分噪音数据后,最终筛选出近30万个文本供下一步的分析。需要说明的是,我们将每一次原创或转载都看作是一则新的发布,从而一定程度上代表了新闻发布者在网络空间上的一次话语表达。

1.2   研究方法

由于文本数量较大,人工进行分析研究的效率较低。本次研究将通过引入计算机的自然语言处理(NLP)技术,通过构建面向主题的情感字典库进行情感分析,本次研究最终构建了含有1800多条情感词汇的词典库。但即便如此,基于情感词汇库的分析方法通常无法达到比较高的准确率,本研究中我们还借助了基于语法规则匹配的半自动化文本处理技术,通过将文本内容与预先人工设定的具有确定情感属性的语法规则进行匹配,从而大幅提高了情感判别的准确性,经过多次抽样检验,本研究的情感判别准确度可达到90%以上。

为了便于比较分析,本报告也将尝试编制一个基于新闻大数据的舆情经济信心指数(以下简称信心指数)[3],用来反映特定时期内大多数新闻发布者、新闻内容作者或当事人的主观情感倾向。该指数计算以美国密歇根大学SRC指数编制法为基础,计算过程如下:

先计算各主题下的积极文本和消极文本的数量

其中,表示对第i个主题持积极看法的文本数量;表示对第i主题持消极看法的文本数量;表示第i个主题的得分值;基数设定为100。

最终根据各个主题的得分值采用算术平均法计算得出新闻舆情大数据中总的经济信心指数:

指数取值在0~100之间。其经济意义是,如果持积极看法的比例高于持消极看法的比例,指数结果将大于50,说明整体上信心较强,指数越高,信心越强;反之,如果持消极看法的比例大于持积极看法的比例,指数结果将小于50,意味整体上信心疲弱,指数越小,信心越疲弱。

1.3   研究内容

本次研究将从不同主题、地域、行业和热点进行分析。时间维度我们选择按照年、季度进行统计分析。我们分析了2014年1月1日至2016年11月30日,合计3年共12个季度的汇总数据,其中2016年第四季度为2个月的数据。研究的内容主要包括以下五个方面:

(1)主题分析:按照经济、就业、收入三个主题进行分析。

(2)地域分析:按照31个省、自治州和直辖市以及区域划分进行分析。

(3)行业分析:按照文本涉及的行业进行分析。本次研究还选取了股市、房地产、零售、文化娱乐等几个热门行业进行重点分析。

(4)驱动力分析:对我国经济发展的三个核心驱动力——投资、出口和消费进行分析。

(5)热点分析:通过词云对热点词频进行分析,解读经济发展的关注点和不同时期媒体关注领域的变化。


2   分析与解读

2.1   总体分析

图1  2014-2016年信心指数

通过对三年的数据进行统计和分析,我们计算出2014、2015和2016年的新闻舆情大数据的整体经济信心指数分别为82.6,81.7和83.2。

图2  2014-2016季度信心指数

从季度数据来看,经济信心指数在2015年第三季度达到最低80.3,随后指数在逐步企稳后,呈现上升趋势。

随着我国经济增速逐步放缓,新闻的报道倾向也出现了微妙的变化。从数据来看,过去三年,我国GDP增长率从7.4%下探到6.7%,而同期信心指数则出现了先降后升的情形。在2014年经济仍保持中高速发展的情况下,信心指数全年呈现上升趋势,并在2014年第四季度达到最高83.5;随后我国GDP增速在2015年从7.4%快速调整到6.9%,2015年信心指数也快速跌落至最低;但进入2016年后,我国经济发展逐步企稳,GDP基本保持在6.7%,信心指数又出现快速回升,并有望在2016年四季度达到历史新高。信心指数的稳步反弹,从侧面也印证了我国下半年经济增速逐步企稳的现实。

2.2   主题分析

为了更好地认识到经济所面临的压力和挑战,我们首先对经济、就业和收入三个主题分别进行研究,消费主题我们在经济驱动力分析部分再进行研究。

由于新闻文本的特殊性,新闻标题的整体情感倾向往往偏正面报道较多,但新闻标题中蕴含的各类诸如“压力”、“挑战”、“困难”等关键词汇,这恰恰反应了当下经济的确碰到的增长的压力。通过对这些含有“悲观”词性的关键词汇进行深入分析,我们能够从另外一个侧面了解经济当下的现状。分析的方法仍然是统计含有这类关键词的全部文本中积极报道和消极报道的文本数量,按照本研究报告中统一的信心指数模型进行分析。

本次研究选取“经济压力”和“就业压力”两个重点主题进行分析。经济压力或就业压力的信心指数反映了媒体在新闻报道“经济压力”和“就业压力”相关的话题时选择持积极正面态度的倾向。一部分新闻虽然含有“经济下行”等悲观情感词组,但其对这一问题的报道和认识则为正面,比如“新媒:尽管经济下行,但中国消费者的心态依然乐观!”,“山东积极应对经济下行压力增速呈现缓中趋稳态势”,“山西:多项并举分类援助就业困难人员”,“云南省红河州多举措缓解民族地区就业压力”等,这些文本均被认为是正面的报道。


2.2.1经济

图3  2014-2016经济舆情信心指数

通过数据可以看出,在GDP增长快速放缓并逐步企稳的过程中,经济舆情和经济压力舆情的信心指数与均呈现出一定的先升后降再企稳或回升的态势。总体而言,经济的舆情信心指数较为稳定,反映出媒体对经济增长的基本认识没有发生大的变化,而经济压力舆情信心指数偏低则也说明了我国经济所面临的复杂性和挑战性。

2.2.2就业

图4  2014-2016就业经济信心指数

为了更好地认识到就业所面临的压力和挑战,我们在分析就业压力舆情信心指数的同时,还引入由中国人民银行组织开展的《全国城镇储户问卷调查》中的“就业感受指数”[4],该指数一定程度反应了城镇居民对当前就业形势的看法。

数据显示,就业经济信心指数始终维持在高位,且相对较为平稳,而就业压力经济信心指数则出新了先升后降再回升的过程,就业感受指数也出现了先降后升再缓慢降低后企稳的情况。

就业感受指数在2015年逐步下滑后企稳,说明当下就业形势依然严峻;就业压力信心指数的上升,则反映了在我们对就业难问题的重视以及对解决就业难问题的乐观信心。通过对数据的深入研究,我们注意到有关就业话题的新闻报道中出现了大量的政府为学校缓解就业难问题,采取了各种措施进行积极应对的报道,其中通过鼓励创新创业,促进就业的相关报道占据了较高的比重。这一方面说明,我国政府高度重视就业难问题,并不遗余力地采取了多种有力措施,确保就业局势稳定发展;另一方面也印证了李克强总理大力提倡的创新创业对就业的带动作用成效显著。

2.2.3收入

图5  2014-2016收入经济信心指数

随着我国经济增速放缓,我国居民可支配收入总体上继续中高速增长,但增速也出现缓慢下滑,从2014年的8.6%下滑至2016年三季度的6.3%。从数据来看,居民可支配收入增速的缓慢下滑对收入舆情信心指数的影响较小,虽然收入舆情信心指数存在一定的周期性波动,每年第二季度将会出现一定程度的下降,但整体态势平稳。通过定性研究,收入舆情信心指数的波动主要是由于二季度政府和公司集中发布各类收入统计数据和报表所引起。

2.3   地域分析

图6  中国区域经济信心指数

我们将中国31个省、直辖市和自治州分为七大片区,分别为华东地区(包括山东、江苏、安徽、浙江、福建、上海市)、华南地区(包括广东、广西、海南)、华中地区(包括湖北、湖南、河南、江西)、华北地区(包括北京、天津、河北、山西、内蒙古)、西北地区(包括宁夏、新疆、青海、陕西、甘肃)、西南地区(包括四川、云南、贵州、西藏、重庆)和东北地区(包括辽宁、吉林、黑龙江)。

通过统计分析显示,华北、华东地区等经济发达地区的经济信心指数普遍要低于东北、西南和西部等经济欠发达地区。

图7  2016中国各省份经济信心指数

从各个省的数据看出,2016年北京、上海等地的经济信心指数较低,而贵州、四川等西部地区则较高,其他年份的统计结果出现类似的情形。

图8  2016省份经济信心指数对比1

将上海、贵州和重庆的数据进行了对比,并结合了各自的GDP增长率情况进行分析。从图中可以看出,贵州、重庆等中西部地区的经济增值率要大大高于上海、北京等经济相对发达地区,这些地方的GDP基数较低,经济增长率较快,新闻舆情的正面报道较多,其反映的经济信心指数相对也加高。而经济相对发达地区,由于与国家整体经济形势密切相关,其能够先于其他地区最早感受到经济的起伏,从而使得其新闻舆情更加敏锐和多样,反映在数据上,则是经济发达地区经济信心指数相对低。

图9  2016省份经济信心指数对比2

将上海和黑龙江等经济相对落后的地区的数据进行了对比分析,我们发现,经济增长率较低,甚至负增长的地区的经济信心指数也比较高。这可能是因为,在“振兴东北”的利好政策背景下,媒体对东北经济的发展也寄予了厚望。

2.4   行业分析

图10  2014-2016各行业经济信心指数

图11  2014-2016部分行业按年份经济信心指数

从行业来看与房地产、采矿业、科学研究和技术服务业、制造业、住宿与餐饮业、金融业等几个行业相关的负面新闻报道较多,因此指数相对较低。而文化、体育和娱乐业近年来发展迅速,普遍具有较高的指数。其中卫生和社会工作行业具有最高的信心指数。需要指出的是,李克强总理在2015年3月的政府工作报告中,明确提出了“加强和创新社会治理。深化社会组织管理制度改革,加快行业协会商会与行政机关脱钩。支持群团组织依法参与社会治理,发展专业社会工作、志愿服务和慈善事业”,“社会工作”作为社会治理的重要手段得到了充分的重视。近年来,我国培育了一大批公益性社会组织,这些组织对和谐社会的健康发展起到了重要的促进作用。

2.4.1股市

股市一直是大多数老百姓密切关心的领域之一,我们对所有涉及股市、股民、股票等相关的新闻也进行了分析。为了便于比较,我们选择了上海证券交易所2014年至2016年的每一交易日上证综指的收盘指数作为研究的参考对象。

下图是2014年至2016年股市媒体大数据的季度信心指数图:

图12  2014-2016股市经济信心指数

从数据可以看出,媒体报道的信心指数受股市波动影响,存在一定的关联性。具体来讲,股市平稳增长,指数向好;股市爆发式增长,风险增加,指数下降;股市大跌,风险释放,指数上升。2016年以来,股市整体较为平稳,这一时期也是中国经济增速企稳的时期,新闻舆情反映的股市信心指数快速上升,反映出社会对经济发展未来的信心和良好的预期。

2.4.2房地产

对房地产行业,我们比较关心经济信心指数是否与房价的涨跌存在一定的关联。本次研究我们选用了来自东方财富网的新房价指数[5]的每月同比指数作为比较研究对象,新房价指数为每月发布,基数为100,为了进行季度比较,我们选取了上海、北京和南京的2014年至2016年期间每季度的中间一个月的指数,即每年2月、5月、8月和11月的指数数据。

图13  2014-2016房地产经济信心指数

从数据可以看出,有关房地产新闻报道舆情信心指数与新房价指数存在一定负相关特性。具体来说,房价涨,则信心指数呈下降趋势,房价跌,信心指数呈一定的上升趋势。从新房价指数来看,2015年二季度以来,我国大部分一二线城市的房价均出现了过快的上涨,但到2016年三季度有明显的企稳迹象。2015年年末,中央城市工作会议将化解房地产库存作为2016年的重要任务,但在房价持续大幅上涨的背景下,明年房地产去库存的压力依然存在。

2.4.3零售

图14 2014-2016零售经济信心指数

零售业的舆情信心指数总体而言呈现先升后降再回升的趋势。受批发和零售业销售增速在2015年一季度出现大幅下降至5.8%的影响,零售业信心指数也在同期达到最低点70.5;随后批发和零售业销售增速缓慢回升,零售业信心指数也出现回升态势,这与社会消费品零售总额累计增长率的整体趋势较为相似。从数据看出,居民人均消费支出增速放缓较为明显,虽然经济下行压力较大,但批发和零售业累计增长率在2015年一季度大幅下挫后,正在缓慢上升;与此同时社会消费品零售总额已连续3个季度保持10%以上增速,正在逐步回升。数据显示,我国经济下行有企稳回升迹象,零售业经济信心指数总体稳定。

2.4.4文化娱乐

图15  2014-2016文化娱乐与旅游经济信心指数

文化娱乐领域,我们选取了居民人均教育文化娱乐消费支出和全国电影票房销售两项指标进行对比分析。从数据来看,居民人均教育文化娱乐消费支出的累计增长率在2015年一季度触底后,缓慢回升,在2016年一季度经过高点并下行后,目前已有企稳的迹象,其增长率远超过GDP增幅,达到12.9%;与此同时,全国票房销售的增长率在2014和2015年并没有明显受到经济下行压力的影响,反而保持了连续很长一段时间的超高速增长。但是进入2016年二季度以来,电影票房销售的增速出现了大幅度的下滑,从一季度的50%到三季度的7.4%,这说明经济下行仍存在较大的压力。

通过分析文化娱乐领域以及旅游业的舆情信心指数,我们看到指数总体均较为稳定,且大部分都达到90分值以上,这说明大家对该行业发展都十分看好和期待,从2016年的数据看,文化娱乐和旅游的经济信心指数均具有企稳向上的趋势。

2.5   驱动力分析

投资、出口和消费,作为我国经济发展的三驾马车之一,在我国经济发展中具有十分重要的地位。我们分别对这三个经济发展驱动力进行了分析和解读。

2.5.1投资

图16  2014-2016投资经济信心指数

投资方面,我们看到2014以来全国固定资产投资(不含农户)的名义增长率持续下行,与GDP具有相一致的趋势。尽管投资增速下滑明显,但我们看到整体的投资舆情信心指数较为平稳,在GDP增速企稳后,预计该信心指数会有进一步上升空间。

2.5.2出口

图17            2014-2016出口经济信心指数

出口方面,我们选择了我国外贸出口总值的季度增幅作为对比分析对象。数据显示,我国出口在2015年一季度达到增幅高点后,逐步下行,在2016年一季度触底后逐渐回升,出口总额增幅已经连续3个季度持续回升。与此同时,出口领域的经济信心指数也呈现出先降后升并逐步企稳的态势。

2.5.3消费

图18 2014-2016消费经济信心指数

针对消费领域的分析,我们引入了我国居民人均消费支出累计增长率、社会消费品零售总额累计增长率和批发和零售业累计增长率另外3个指标。

从数据可以看出,居民人均消费支出累计增长率缓慢下滑,批发和零售业累计增长率则在剧烈下降后出现企稳回升态势,而社会消费品零售总额累计增长率则一直在高位运行,虽然进入2016年有所下降,但前三季度仍保持10%以上的增长。与此同时,消费领域的信心指数仅在2015年第一季度出现短暂的大幅度下降后,又快速反弹并保持稳中上升趋势。这说明在投资放缓,出口下滑的背景下,消费作为经济发展的核心驱动力之一,越来越得到大家的关注和期待。

2.6   热点分析

我们分别对2014-2016年含有“经济”、“就业”、“收入”和“消费”关键词的新闻标题进行了分词和词频统计,并将高频词汇生产词云图,以便进一步对比分析。

2.6.1经济热点分析


图19  经济热点词云图

由图中可发现,媒体对经济话题的关注始终是“增长”、“发展”,“创新”和“转型”,这表明我国经济发展的基本面没有发生改变,增长仍然是永恒的话题。

从2014-2016年的高频词汇比较来看,2014年“一带一路”战略首次提出,“丝绸之路”得到了较多的关注;2015年一季度以来,经济下行明显,因此出现了“放缓”及“风险”等高频词汇;在李克强总理提出“互联网+”行动计划后,“互联网”的关注度越来越高;2016年,经济下行压力仍然存在,“创新”和“转型”显得更为紧迫,此外在大数据产业的带动下,社会对“数据”的重视度开始提升。

2.6.2就业热点分析

图20  就业热点词云图

近年来,每到毕业季,大学生就业难问题都会引起广泛的关注。过去三年来,“毕业生就业”、“高校毕业生”、“大学生就业”及“毕业”等高频词汇的出现表明媒体对就业的关注点始终是大学生就业难问题。

需要指出的是,这三年中,“创业”始终是一个永恒的热点话题。就词频比重来看,“创业”得到了越来越多的关注。这一方面有政府大力提倡和鼓励的因素,另一方面,也反映了在经济下行的背景下,更多的人投入到了创业活动中。

2.6.3收入热点分析


图21  收入热点词云图

由收入的词云图中可以发现,在去过三年中,“收入”与“增长”始终都就有较高的词频。这说明,我国经济仍然处在高速增长通道之中。此外“旅游”的关注度较高,说明“旅游”已经成为我国老百姓的最主要的消费娱乐形式之一,这和我国经济的高速发展以及居民收入水平的提高密不可分。而“保费收入”的频繁出现,则从侧面反映了我国保险行业的发展较为迅速。

2.6.4消费热点分析


图22  消费热点词云图

从图中可看出,“消费”、“消费者”、“投诉”、“维权”、“增长”等词多次出现。这说明,我国经济社会的高速发展,也伴随着各类消费投诉案件较快增长,与此同时,中国消费者的权益保护意识逐渐增强。总体而言,中国的消费市场处于良性发展过程之中。从2014-2016年的高频词汇比较来看,2014年“黄金”得到较高关注可能源于2013年多轮“抢金潮”的延续;2015年“金融”被关注,主要是源于“互联网金融”高速发展以及P2P平台密集发生问题后带来的各类消费者投诉事件的增多;2016年,“旅游”的关注度显著提升,再次说明我国的旅游经济正在崛起。

3     研究发现

通过对新闻舆情大数据的分析和解读,我们有以下几点发现或推断:

(1)媒体的整体经济信心受我国经济增速放缓影响较大,无论是整体的报道还是针对经济、就业、收入和消费等各个主题的报道,过去三年的信心指数都呈现先增后降再逐步回升的趋势,这从侧面可能印证了我国经济发展逐渐企稳的迹象。

(2)在应对就业难压力方面,我国各级地方政府采取了一系列积极措施,并取得了卓有成效的结果。其中大力提倡和扶持“创新创业”功不可没。

(3)经济信心指数在不同地区之间呈现出差异。经济增长率较快的区域,信心指数相对较高;政府大力扶持开发的地区,信心指数也相对较高;上海、北京等经济发达地区,由于与国家整体经济的联系更加紧密,对经济的变化更为敏感,经济信心指数反而相对较低。

(4)房地产经济信心指数在所有行业中排名最低,这一方面有宏观调控的因素,另一方面也与高房价所伴随的高风险有关。

(5)证券市场与股市经济信心指数有一定的关联,股市的大起大落也会在新闻舆情的经济信心指数上有所反应。具体来讲,股市平稳增长,指数向好;股市爆发式增长,风险增加,指数下降;股市大跌,风险释放,指数上升。

(6)在对零售、文化娱乐行业、旅游行业以及消费领域的数据分析后,消费领域经济信心指数总体趋势是稳中有升。批发和零售业累计增长率在2015年一季度大幅下挫后,正在缓慢上升;与此同时社会消费品零售总额增长率已连续3个季度企稳回升,数据显示出,我国经济下行企稳回升迹象明显。

(7)虽然全国固定资产投资增幅近年来持续下降,但投资领域的信心指数总体平稳;在“供给侧改革”背景下,经济调结构是大势所趋,预计固定资产投资还将继续保持一定的下行压力,在经济确立企稳回升态势后,投资预计会缓慢回升。

(8)出口增长率在2016年一季度触底后逐渐反弹,出口总额增幅已经连续3个季度持续回升。与此同时,出口领域的经济信心指数也呈现出先降后升并逐步企稳的态势。在“一带一路”战略背景下,考虑到人民币未来的国际化和汇率走势,相信我国出口市场会持续回暖。

(9)文本大数据词云分析表明:第一,经济增长仍然是中国经济发展的主旋律,转型创新是未来的必由之路;第二,创新创业已经深入人心,创业对就业的拉动效益明显;第三,旅游消费越来越得到关注,旅游经济有可能成为未来经济的重要支柱性产业;第四,中国消费者的维权意识越来越高,这对促进经济良性可持续发展至关重要。

4     总结

在新闻媒体领域,新闻标题往往蕴含了大量的客观事实、观点和态度,本研究通过采集主流媒体和网站的所有新闻标题,对其标题文本进行语义挖掘,最终构建了基于新闻舆情大数据的中国经济信心指数。

我们选取了“经济、就业、收入和消费”四个主题进行研究,并结合区域、行业、经济驱动力、热点话题以及经济运行的真实数据指标进行对比分析。新闻舆情大数据研究表明:2014年至2016年期间,中国经济舆情大数据信心指数呈现出先升后降再回升后企稳的形态,这与我国经济实际运行的数据相互印证,我国经济发展增长的基本面没有改变,2016年经济有望触底企稳回升,但下行的风险和压力依然存在。

本研究尝试利用新闻舆情大数据对中国经济社会发展进行把脉,对经济实际运行的数据进行检验,对政策执行的效果进行评估,对民众的信心和期待进行全面的了解,从而为政府部门更好地制定政策提供决策依据,为产业部门提供更好的行业洞察。本研究还将有助于帮助我国民众更好地了解中国经济发展的现状,增强对未来我国经济发展的信心。

当然,本研究目前仅对新闻舆情的标题文本进行了分析,受制于选取样本的局限性,后续还有很大提升的空间。下一步工作我们将对文本情感分析的计算机处理技术进一步改进,以提升其识别的自动化程度和准确性,此外我们还将就更大范围的互联网大数据进行收集和分析,希望能够通过我们努力,对社会科学领域互联网大数据的研究起到抛砖引玉的作用。


[1]本文作者:李军、王宁、刘玉林、王召义,感谢李常畴、蔚文彪、虞昌亮、薛晨杰、凌洁等团队成员的贡献以及上海萌泰数据科技股份有限公司对本研究提供了技术方面的支持。

[2]本研究所使用的数据通过网络爬虫从全网进行采集获得,采集数据共涉及2014家各类媒体和网站。

[3]本研究报告中所有提到的信心指数或经济信心指数均指基于新闻舆情大数据经济信心指数。

[4]当期就业感受指数是反映居民对当前就业情况感受的扩散指数,每季在全国50 个(大、中、小)调查城市、400 个银行网点各随机抽取50 名储户,全国共20000 名储户作为调查对象。该指数在50%以上,反映该项指标处于向好或扩张状态;低于50%,反映该项指标处于变差或收缩状态;等于50%表示该指标与上季持平。

    发表评论
    评论通过审核后显示。