谷银观点

谷银基金行业月度简报 | 大数据板块

2019-01-25 白双、程洁 阅读

政策/知识/技术总结

 大数据发展全球加码,广阔空间蕴含商机无限

基于大数据对各个行业的深入影响,近几年,美国、欧盟、日本等主要发达经济体都积极推进各自的大数据战略。2009年,美国科学家委员会(NSTC)就发布了《开发数字数据的威力》报告,初步提出发展大数据的框架,奥巴马政府亦对大数据行业大力支持,帮助美国取得世界领先地位。

参考《大数据白皮书(2016)》,IDC、Wikibon等咨询机构分析,2016年全球大数据核心产业规模约为300亿美元,预计2020年有望达到近600亿美元。

美欧日韩关于大数据的主要政策(非完全统计)

1548380075(1).jpg

全球大数据核心产业规模(亿美元)

1548380166.png

中国亦将大数据视为新经济的重要支撑。2012年,《“十二五”国家战略性新兴产业发展规划》明确提出支持海量数据存储、处理技术的研发和产业化,2014年“大数据”首次出现在《政府工作报告中》,奠定了行业快速发展的政策基础。而2017年以来,党的十九大报告、中共中央政治局就实施国家大数据战略进行第二次集体学习、首届数字中国峰会召开等,均再次显示出领导层对加快建设数字中国的高度重视。

图表3:国内大数据相关政策(非完全统计)

1548380242(1).png

对于中国大数据产业的规模,目前各个研究机构均采取间接方法估算。根据信通院数据,2017年中国大数据产业规模(包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务)为4700亿元人民币,同比增长30%,且预计2020年这一规模有望赶超1万亿,年均复合增速近30%。其中,大数据核心产业规模2017年为234亿元,同比增长39%,预计2018年为329亿。

中国大数据市场产值                 图大数据核心产业规模

1548380666(1).jpg

同时,大数据投融资市场也持续升温。根据信通院数据,2012-2016年期间,国内共发生大数据投融资事件超1600件,统计公布金额的1300余起投资,其融资总额达1200多亿,2016年同比增长189.7%。轮次上,A轮占比最高为40%,天使轮次之为38%;方向上,数据分析、应用项目等创新企业最受资本追捧。

中国大数据领域投融资金额                   中国大数据领域投融资轮次分布(次)

1548380746(1).jpg

2012-2016各产业项目融资情况(单位:亿元)

1548380777(1).jpg

典型数据处理框架:Hadoop

Apache Hadoop是首个在开源社区获得极大关注的大数据处理框架,由Apache基金会于2005年秋作为Lucene的子项目Nutch的一部分正式引入。该项目最早用于探索网页搜索,Yahoo在最初阶段做出了较大贡献,后Hadoop发展成能够为分布式数据提供各种服务的运算架构。

HDFS(Hadoop Distributed File System)和MapReduce是Hadoop的核心设计。两者分别是Google File System(GFS)、Google MapReduce的开源实现(谷歌三宝MapReduce、GFS和BigTable,具体可见谷歌著名的三篇大数据论文,Hadoop亦参考于此)。HDFS是一种分布式文件系统层,可对集群节点间的存储和复制进行协调;MapReduce是适合海量数据处理的编程模型,基本思想是“分而治之、然后归约”,可将大任务分解为多个小任务并行执行,其工作分Map、Reduce两个阶段:Map(映射)函数可理解为初略归类、分解任务,包括加载、解析、转换、过滤数据;reduce(归约)函数可理解为精简结果得到最终结果,负责把分解后多任务处理的结果汇总起来,处理的是Map输出的一个子集。

Hadoop物理结构

1548380832.jpg

单点物理结构

1548380877(1).jpg

Hadoop一出现就受到众多大公司的青睐,Yahoo 、LinkedIn、Fox互动媒体、默多克传媒、MySpace等均有运用,同时也引起了研究界的普遍关注。随后,一系列围绕Hadoop的开源技术得到开发,生态不断丰富。如:Hive提供数据仓库功能,包括数据抽取、转换、装载(由Facebook贡献);HBase实现海量结构化表的实时读写访问功能,类似谷歌的BigTable;Cassandra通过复制数据来提供容错数据存储功能。而YARN7(Yet Another Resource Negotiator)的引入,更是让Hadoop超越MapReduce程序,支持其他更多的分布式应用。

YARN运行流程

1548380966.jpg

Hadoop具备拓展性、容错性和高效性等优点,更为重要的是其低成本。在这之前,大数据功能通常只能从商业软件供应商处依靠专门的硬件获取,而开源的Hadoop使数据存储和处理能力——这些本只有像谷歌或其他商用运营商类公司才具备的能力,在普通商用硬件上也得到应用,大大降低了使用大数据的先期投入,并且具备了使大数据接触到更多潜在用户的潜力。(《大数据云图》,大卫•芬雷布著)

Hadoop特性

1548381033(1).png


个人用户登录 机构用户登录
账号:
密码:
忘记密码
新用户注册
会员注册
注册类型: 个人 机构








发送验证码

找回密码

发送验证码


修改密码


邮箱绑定
更换手机


委托人权限登录

由于个人隐私既客户权限问题请点击输入身份证号码进行查看您的资料