科技创新 | BigResearch:基于互联网的大数据研究平台
- 2015-06-02 04:40:00
- 谢承灏 萌泰科技 原创
锐研大数据研究平台是一套基于Hadoop 平台面向互联网大数据领域,集互联网数据动态采集、文本分析、数据可视化和专题数据库管理于一体的软件产品,并能够支持自定义开发和扩展。
21世纪是互联网大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。如此众多数据中的大部分为非结构化文本数据。如何通过对这些非结构化数据进行存储、分析和利用,并从中挖掘出有价值的信息,将是下一代大数据调研技术的发展方向。
锐研大数据研究平台(Ring BigResarch)是一套面向互联网大数据领域,集互联网数据动态采集、文本分析、数据可视化和专题数据库管理于一体的软件产品。产品基于主流的开源软件(Hadoop)技术框架,具有稳定、可靠、高性能和高可扩展性。
锐研大数据研究平台主要包括以下几个组成部分:
(1)专题数据库
(Ring BigResearch Databases)
专题数据库是数据内容侧重于某一专题的数据集合,常针对某类专业应用或具体领域而建立。
专题数据库采用传统关系数据库与Hadoop 平台相结合的基础架构,能够满足各类结构化数据和非结构化数据的存储和访问需求。
(2)大数据分布式计算平台
(Ring BigResearch Hadoop)
锐研大数据分布式计算平台是大数据研究平台的支撑平台。
基于Hadoop 平台架构,集成了HDFS, Hive和MapReduce等模块,能够支持建立服务器集群进行分布式存储和计算,部署容易,扩展性强。
(3)互联网数据动态采集系统
(Ring BigResearch WebExtrator)
锐研互联网数据动态采集系统是针对大数据调研领域的一款数据采集产品。该系统能够允许用户设定互联网数据源,通过数据抓取技术动态采集文本数据,数据源包括各类论坛、微博、新闻和文献等平台。用户可以自定义需要监测的关键字及关键字组合,系统能够智能抓取相关网页的文本内容和URL资源。
(4)文本内容分析系统
(Ring BigResearch TextAnalyzer)
锐研文本内容分析系统能够对采集的文本内容进行文本分析,通过中文处理引擎,结合系统和用户自定义的词汇字典库进行各类主题分析。系统主要分为中文处理引擎、词汇字典库和分析结果展现三个部分。其中引擎主要处理中文分词、将分词与词汇字典库中的字典进行匹配、分类。词汇字典库主要负责存储主题模型的词汇词典,词典可由用户进行自定义增减。分析结果展现部分可进行常规的词频分析,聚类分析,情感分析等。
(5)数据可视化系统
(Ring BigResearch DataVisual)
数据可视化系统是大数据研究平台的核心模块之一,能够实现可视化的统计报表、文本词云、数据地图等功能,并能够支持用户自定义的可视化开发。数据可视化有助于发现数据间隐藏的相关关系,是进行描述性研究和探索性研究的必要工具。
(6)专题数据管理系统
(Ring BigResearch SpecDBMS)
锐研专题数据库管理系统是基于全新云计算架构研发的在线数据共享管理平台。该平台可以进行一个或多个专题数据库的存储、访问和管理维护功能。系统提供了基于Web的统一管理平台,以方便对各类数据库进行统一管理;系统可为快速构建大数据研究服务体系提供了专业的技术支撑。