谷银观点
谷银基金行业月度简报 | 大数据板块
政策 知识 技术总结
三种最典型的大数据存储技术路线
大数据领域过去5年发展很快、热度很高,但是总的来说目前还在起步阶段。近期由中关村大数据产业联盟举办的“大数据100分”线上研讨会中,南大通用的CTO、资深业界专家武新博士同众多网友分享了底层数据处理技术的发展趋势和正在经历的巨大变革。以下为分享实录:
1. 数据价值的发现与使用
在大数据的4个V中,最显著的特征应该是Value(价值)。不管数据多大,是什么结构,来源如何,能给使用者带来价值的数据是最重要的数据。
我跟数据打了20多年的交道,从来没感觉到搞数据的地位有今天这么高。整个社会对数据的认知变了,大数据最大的贡献至少是让社会各个层面开始认识到数据的重要性,包括最高领导和底层的老百姓。
目前大家基本达成共识:数据像石油、煤一样是宝贵的资产,其内在的价值非常巨大。另外一个显著的贡献无疑是互联网企业对于数据的巧妙使用和价值体现。
2. 数据处理技术的回顾
互联网的数据“大”是不争的事实,现在分析一下数据处理技术面临的挑战。目前除了互联网企业外,数据处理领域还是传统关系型数据库(RDBMS)的天下。传统RDBMS的核心设计思想基本上是30年前形成的。过去30年脱颖而出的无疑是Oracle公司。全世界数据库市场基本上被Oracle,IBM/DB2,Microsoft/SQL Server 垄断,其他几家市场份额都比较小。SAP去年收购了Sybase,也想成为数据库厂商。有份量的独立数据库厂商现在就剩下Oracle和Teradata。开源数据库主要是MySQL,PostgreSQL,除了互联网领域外,其他行业用的很少。这些数据库当年主要是面向OLTP交易型需求设计、开发的,是用来开发人机会话应用为主的。这些传统数据库底层的物理存储格式都是行存储,比较适合数据频繁的增删改操作,但对于统计分析类的查询,行存储其实效率很低。在这些成熟的数据库产品中,有2个典型特例:一个是Teradata,一个是Sybase IQ。
Teradata一开始就使用MPP(Massive Parallel Processing)架构,以软硬一体机的产品方式提供给客户,其定位是高端客户的数据仓库和决策分析系统,Teradata在全世界的客户只有几千个。在这个数据分析高端市场上,Teradata一直是老大,在数据分析技术上Oracle和IBM打不过Teradata。Sybase IQ是一款最早基于列存储的关系型数据库产品,其定位跟Teradata类似,不过是以软件方式销售的。Teradata和Sybase IQ在数据分析应用上的性能其实都比Oracle,DB2等要普遍好。
3. 数据增长加速,数据多样化,大数据时代来临
如果说现在是大数据时代了,其实是数据来源发生了质的变化。在互联网出现之前,数据主要是人机会话方式产生的,以结构化数据为主。所以大家都需要传统的RDBMS来管理这些数据和应用系统。那时候的数据增长缓慢、系统都比较孤立,用传统数据库基本可以满足各类应用开发。
互联网的出现和快速发展,尤其是移动互联网的发展,加上数码设备的大规模使用,今天数据的主要来源已经不是人机会话了,而是通过设备、服务器、应用自动产生的。传统行业的数据同时也多起来了,这些数据以非结构、半结构化为主,而真正的交易数据量并不大,增长并不快。机器产生的数据正在几何级增长,比如基因数据、各种用户行为数据、定位数据、图片、视频、气象、地震、医疗等等。
所谓的“大数据应用”主要是对各类数据进行整理、交叉分析、比对,对数据进行深度挖掘,对用户提供自助的即席、迭代分析能力。还有一类就是对非结构化数据的特征提取,以及半结构化数据的内容检索、理解等。
传统数据库对这类需求和应用无论在技术上还是功能上都几乎束手无策。这样其实就给类似Hadoop的技术和平台提供了很好的发展机会和空间。互联网公司自然就选择能支撑自己业务的开源技术了,反过来又推动了开源技术的快速发展。
4. 新的数据处理技术、产品和创新
为了应对数据处理的压力,过去十年间在数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的OLTP内存数据库外(Altibase, Timesten),其他的技术创新和产品都是面向数据分析的,而且是大规模数据分析的,也可以说是大数据分析的。
在这些面向数据分析的创新和产品中,除了基于Hadoop环境下的各种NoSQL外,还有一类是基于Shared Nothing架构的面向结构化数据分析的新型数据库产品(可以叫做NewSQL),如:Greenplum(EMC收购),Vertica(HP 收购),Asterdata(TD 收购),以及南大通用在国内开发的GBase 8a MPP Cluster等。目前可以看到的类似开源和商用产品达到几十个,而且还有新的产品不断涌出。一个有趣的现象是这些新的数据库厂商多数都还没有10年历史,而且发展好的基本都被收购了。收购这些新型数据库厂商的公司,比如EMC、HP,都希望通过收购新技术和产品进入大数据处理市场,是新的玩家。SAP除了收购Sybase外,自己开发了一款叫HANA的新产品,这是一款基于内存、面向数据分析的内存数据库产品。
这类新的分析型数据库产品的共性主要是:
架构基于大规模分布式计算(MPP);硬件基于X86 PC 服务器;存储基于服务器自带的本地硬盘;操作系统主要是Linux;拥有极高的横向扩展能力(scale out)和内在的故障容错能力和数据高可用保障机制;能大大降低每TB数据的处理成本,为“大数据”处理提供技术和性价比支撑。
总的来看,数据处理技术进入了一个新的创新和发展高潮,机会很多。这里的主要原因是一直沿用了30年的传统数据库技术遇到了技术瓶颈,而市场和用户的需求在推动着技术的创新,并为此创造了很多机会。在大数据面前,越来越多的用户愿意尝试新技术和新产品,不那么保守了,因为大家开始清晰地看到传统技术的瓶颈,选择新的技术才有可能解决他们面临的新问题。
现在的总体趋势是在数据量快速增长、多类数据分析并存的需求压力下,数据处理技术朝着细分方向发展,过去30年一种平台满足所有应用需求的时代已经过去。我们必须开始根据应用需求和数据量选择最适合的产品和技术来支撑应用。世界数据处理市场格局正在发生革命性的变化,传统数据库(OldSQL)一统天下变成了OldSQL+NewSQL+NoSQL+其他新技术(流、实时、内存等)共同支撑多类应用的局面。在大数据时代,需要的是数据驱动最优平台和产品的选择。
5. MPP关系型数据库与Hadoop的非关系型数据库
大数据存储技术路线最典型的共有三种:
第一种是采用MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。
这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。
图1:MPP架构
第二种是基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。
第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。
6. 数据仓库的重要性
在互联网高速发展之前,无论是电信运营商,还是大银行,保险公司等都花费了巨额资金建立了自己的企业级数据仓库。这些仓库主要是为企业决策者生成企业的一些关键指标(KPI),有的企业有几千张、甚至上万张KPI报表,有日表,周表,月表等等。这些系统有几个主要特征:
技术架构主要基于传统RDBMS + 小型机 + 高端阵列 (就是大家说的IOE),当然数据库有部分DB2,Teradata等。
报表基本都是固定的静态报表,产生的方式是T+1 (无法即时产生)。
数据量增长相对缓慢,DW的环境变化很少。
最终用户只能看汇总的报表,很少能够基于汇总数据做动态drilldown (钻取)。
多数领导基本上认为花了很多钱,但看不出是否值得做,有鸡肋的感觉。最后大家对大量的报表都视而不见了。
这类系统属于“高富帅”,是有钱的企业给领导用的。
最后,目前多数企业和部门根本就没有数据仓库。其实大家对传统数据的分析还没做得太好、还没有普及,现在又遇上了大数据。
数据仓库对企业是真正有用的,其关键还是如何把数据用好。
7. 数据处理技术的核心问题到底是什么?
其实我们一直面临着数据处理中最核心、最大的问题,那就是性能问题。性能不好的技术和产品是没有生命力的。数据处理性能问题不是因为大数据才出现,也不会有了大数据技术而消失。处理性能的提升将促进对数据价值的挖掘和使用,而数据价值挖掘的越多、越深入,对处理技术要求就越高。
目前的数据仓库只能满足一些静态统计需求,而且是T+1模式;也是因为性能问题,运营商无法有效构造超过PB级别的大数据仓库,无法提供即席查询、自助分析、复杂模型迭代分析的能力,更无法让大量一线人员使用数据分析手段。
今天如果做“大数据”数据仓库,运营商面临的挑战比上个10年要大的多。目前没有单一技术和平台能够满足类似运营商的数据分析需求。可选的方案只能是混搭架构,用不同的分布式技术来支撑一个超越PB级的数据仓库系统。这个混搭架构主要的核心是新一代的MPP并行数据库集群+ Hadoop集群,再加上一些内存计算、甚至流计算技术等。
大数据需要多元化的技术来支撑。当前数据处理对企业的挑战越来越大,主要是下面几个原因:
第一个原因是数据量已经是上一代的一个数量级了,1个省份级运营商1年就可超越1PB结构化数据。
第二个原因是“大数据”关注的更多是用户行为、群体趋势、事件之间的相关性等,而不仅仅是过去的KPI,。这就对数据分析平台对数据的分析能力和性能提出了新的要求和挑战。
图2:未来大数据处理的核心技术
8. 总结——新型MPP数据库的价值
技术:基于列存储+MPP架构的新型数据库在核心技术上跟传统数据库有巨大差别,是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。在技术上为很多行业用户解决了数据处理性能问题。
用户价值:新型数据库是运行在x-86 PC服务器之上的,可以大大降低数据处理的成本(1个数量级)。
未来趋势:新型数据库将逐步与Hadoop生态系统结合混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。
下图是南大通用正在做的大数据处理平台架构图,将逐步把MPP与Hadoop技术融合在一起,为用户提供透明的数据管理平台。
图3:MPP与Hadoop技术融合的产品架构图
热点 趋势 动态
数字经济持续高速发展,5G将成为其重要推动力
事件
在“2018年IDC中国数字化转型年度盛典”上,IDC中国区总裁霍锦洁表示,到2021年,全球数字经济规模将达到45万亿美元,全球数字经济的比重将超过50%;中国是全球数字经济的引领者之一,到2021年,中国数字经济规模将达到8.5万亿美元,中国数字经济的比重将超过55%。
从IDC提出的第三平台的三大篇章来看,以第三平台为核心的信息技术正在由试点创新进入倍增创新,进而演进成智能创新,倍增洞察(洞察无处不在)、倍增触达(动态边缘无限)、倍增开发(应用爆发增长)、倍增期望(社交社会演化)、倍增信任(安全更为泛在)5大新浪潮将有效支撑第三平台第二篇章的主题“倍增创新”。
事件点评
1、数字经济规模持续扩大,占比持续扩大
数字化转型是以客户为中心,对企业业务进行自动化改革,不断提升企业产品竞争力和提供创新的服务。企业将从用户需求出发,全方位打造让客户满意的产品,以及让客户满意的服务。据统计,截至2017年,50%以上的中国TOP1000大企业都将把数字化转型作为公司的战略核心。《准备应战,蓄势待发,观望等待:亚太地区全数字化转型就绪性技术展望》白皮书指出,全数字化颠覆正在席卷所有国家、所有行业,技术创新只会让变革的步伐加快。重点聚焦中国市场的《全数字化就绪型网络智引数字经济未来》白皮书则显示,中国数字经济占GDP的比重已超30%,数字化成为经济增长的新引擎。可以看出,数字化转型是企业未来发展的必经之路。
图4: 2016年数字经济规模(亿美元)
据IDC预测,到2021年,全球数字经济规模将达到45万亿美元,全球数字经济的比重将超过50%。根据2016年的数据,美国以10万亿美元的数字经济位居全球数据经济第一,其占据了58%的GDP比重,其他排名靠前的国家除了中国数字经济都达到了50%以上。
合理预计,中国的数字经济比重将会持续上升。IDC方预计在2021年,中国作为全球数字经济的领导人之一,其数字经济规模将达到8.5万亿美元,比重将超过55%。
2、通信底层构筑数字经济高速公路,5G驱动数字经济再次提速
近日举行的2018年中国国际信息通信展览会暨ICT中国·2018高层论坛开幕式上,工信部副部长辛国斌指出,作为数字经济的重要组成部分和关键支撑,我国信息通信业保持蓬勃发展的态势,在推动数字产业化和产业数字化,推进网络信息技术和实体经济深度融合等方面发挥着重要作用。
传统运营商以中国移动和中国联通为代表纷纷将数字经济列为企业转型的重点方向。中国移动以“智慧教育”“智慧工业”“智慧农业”“智慧交通”“智慧金融”5个分行业模块进行数字化改革。中国移动在“智慧城市”方面利用云计算、大数据、物联网、人工智能等手段实现城市人、物、事件的等城市动态运行数据的有效感知。
我们认为,网络基础设施建设是数字化转型的底层设施的重要保障,因此5G的快速部署和光网络建设的推进将对数字经济提供有力的支撑。
物联网有望步入快速发展期,协同大数据、云计算共同前进
事件
10月20日-10月21日,2018世界物联网大会中国国家会议中心举行,大会上发布了首部《世界物联网白皮书》中英文版发布。
会上,世界物联网大会执行主席何绪明提出了世界物联网的组成架构模式和发展方向,概述了五大洲主要国家的物联网建设和产生发展状况。呼吁各国企业向物联网转型升级。
中国工程院院士邬贺铨在大会上表示,有研究认为,到2020年,全球工业物联网产值将达到1510亿美元,预计物联网的使用将带来1.9万亿美元的生产力提升和1770亿美元的生产成本降低。工业物联网的支撑技术主要包括大数据、人工智能、信息安全、移动互联网、5G、物联网、云计算、区块链等;而在工业应用上,还需要先进制造技术、机器人、信息物理系统等相关技术的支撑。同时指出工业物联网更大的市场价值体现在垂直行业的应用上。
事件点评
1、物联网有望步入快速发展,开启万物互联核心技术
物联网以互联网为基础,实现物与物之间的信息传输。物联网的发展需要三项关键支撑技术:传感器技术、RFID标签和嵌入式系统技术。可以应用于交通、消防、环境、工业、医疗等领域。
根据研究机构Gartner公司的调查,2017年全球物联网设备数量达到了84亿,比2016年的64亿增长31%,预计到2020年物联网设备数量将达到204亿。
图5: 全球互联网设备数量(亿)
同时,预计到2020年,全球工业物联网产值将达到1510亿美元,物联网的使用将带来1.9万亿美元的生产力提升和1770亿美元的生产成本降低。
工业物联网的支撑技术主要包括大数据、人工智能、信息安全、移动互联网、5G、物联网、云计算、区块链等;而在工业应用上,还需要先进制造技术、机器人、信息物理系统等相关技术的支撑。现阶段,随着5G、云计算、大数据、区块链等技术的逐渐成熟化,我们认为将会加快物联网的发展。
2、物联网将带来巨大产值空间,产业链全面迎来发展机遇
中国物联网起步早,在1999年就启动了物联网核心传感网技术研究,技术在全球领先。另外中国在传感网方面拥有大量专利,并且是少数能实现物联网全产业链的国家之一。
物联网的应用领域非常广,遍及我们生活的方方面面,从环境到交通,从健康到食品等等。据分析,今年的物联网将聚焦于以下几大领域:智慧零售,运用物联网技术实现精准销售;智慧物流,在物流的运输、仓储、运输、配送等各个环节实现系统感知、全面分析及处理;智慧能源保护,应用于智慧井盖监测水位以及其状态、智能水电表实现远程抄表、智能垃圾桶自动感应等;智能医疗,帮助医院实现对人的智能化管理和对物的智能化管理;智慧农业,实现农业生产全过程的信息感知、精准管理和智能控制等等。
我们认为,物联网的应用,可以让企业快速收集产品和企业业务流程数据,提高市场敏捷性,同时,可以挖掘出更多的业务,更好地为客户服务。物联网的到来将给企业业务结构进一步优化,业务方向更精准化,客户服务更智能化,将给多个领域、多个公司提供大量的发展机遇。
3、与大数据、云计算相辅相成,促进数字经济全面提速
物联网近几年高速增长,并且逐渐深入应用到工业、农业、交通、家居、医疗、物流等诸多领域,物联网的技术核心在于传感数据的获取和分析,对这些数据的分析从而改善产品性能,改进运营模式等。海量数据的产生,需要大数据技术的来进行处理分析,仅仅物物相联很难产生质变。而大数据又离不开云计算,云计算为大数据的运算提供资源层的灵活性。
我们认为,大数据和物联网将持续相辅相成,发挥各自的优势。“物联网+大数据+云计算”是未来的一个重要发展方向,将给人类生活带来巨大的改变。同时,物联网将会推进数字化经济快速发展和占据数字经济的重要比例。
投资 并购 重组
云上贵州大数据集团成立 茅台集团4.5亿元入股
10月19日,云上贵州大数据(集团)有限公司注册成立,注册资本170000万元人民币,工商资料备案的经营范围包括:数据采集、存储、开发、处理、服务和应用;大数据软件研发及服务;信息咨询服务;计算机信息系统集成;硬件研发销售;数据服务平台建设;数据库系统服务器等设备及存储空间租赁及相关配套服务;软件企业孵化及配套楼宇经济;教育培训信息咨询。
目前云上贵州大数据集团包括五家股东,分别是贵州省人民政府国有资产监督管理委员会、中国贵州茅台酒厂(集团)有限责任公司、 贵州金融控股(集团)有限责任公司、贵阳市工业投资(集团)有限公司和贵州双龙航空港开发投资(集团)有限公司,持股比例分别是38.24%、26.47%、17.65%、11.76%和5.88%。
其中,贵州省国资委出资6.5亿元,茅台集团出资4.5亿元。
云上贵州这一名字,与苹果中国iCloud密切挂钩。今年1月,苹果宣布,从2月28日起,苹果将iCloud(中国)服务切换到由云上贵州大数据产业发展有限公司运营,这一决定适用于国家或地区设置为中国的Apple ID。苹果表示,iCloud转由云上贵州运营后将有助于继续提升iCloud服务的速度和可靠性,并遵守中国法规。
据介绍,云上贵州大数据产业发展有限公司于2014年11月经贵州省人民政府批准成立,注册资金23500万元,由贵州省大数据发展管理局履行出资人职责,贵州省国有企业监事会进行监管。
公开信息显示,2017年12月,贵州省以云上贵州大数据产业发展有限公司为主体组建成立云上贵州大数据(集团)有限公司,承担全省政府大数据信息化项目及政府数据资源开发经营,打造支撑贵州省大数据产业发展的战略性、引领性、创新性企业集团。
数据宝入股运营华东江苏大数据交易中心 开启大数据产业新篇章
近日,中国领先的国有数据资产增值运营服务商—贵州数据宝网络科技有限公司(以下简称“数据宝”)入股华东江苏大数据交易中心并成为其运营方.
数据宝——中国领先的国有数据资产增值运营服务商,2016年成立于中国首个大数据综合试验区贵州省贵安新区,承担国有大数据资产增值共享开放流通先行试点之重任,同时也是华东江苏大数据交易中心的股东方与运营方;股东方包括:贵州省贵安新区(产业基金)、中科院中科创星(产业基金)、国家工业信息安全发展研究中心 (工业和信息化部电子第一研究所) 全资子公司、海尔 (旗下青岛政府引导基金) 及上海拓鹏集团;数据宝已获公安、银联、铁路、航旅、司法、工商、电信运营商等二十多个国家部委、央企权威的大数据资源授权,助力金融、互联网、服务等商业机构运用国有大数据完善运营管理、风险控制、精准营销、产品研发、客户服务等各个环节。数据宝是国内少数同时具备“国资参股、政府监管扶持、市场化运作、大数据资产交易合法经营资质”属性的大数据“国家队”。
华东江苏大数据交易中心——作为华东地区首家由国家批准设立,跨区域、标准化、综合性的大数据交易平台,华东江苏大数据交易中心秉承“开放 共享 互动 共赢”的精神,以数据资源归集,围绕企业需求数据产品,实现个人、企业及政府数据变现,最终实现数据资产证券化。激活数据资产,为传统产业的升级转型提供可行的解决方案。
AI大数据公司高重科技完成亿元级A轮融资,多家机构投资
AI大数据公司上海高重信息科技有限公司于近日完成A轮亿元级人民币融资,本轮由毅达资本等多家知名机构投资。此前,高重科技还曾获由海瀛产业基金出资的天使轮融资,以及天安金控出资的Pre-A 轮融资,具体金额未透露。
A轮融资完成后,高重科技将引进更多 AI 行业高端人才,优化视频结构化产品,建立国内各主要区域、国外分支机构体系,加强场景落地能力。
高重科技创立于2014 年,是一家以安防为应用场景的人工智能公司,致力于开展基于移动互联及大数据安全等技术的研究和相关产品的开发,旗下产品包括Sniper-高级持续威胁防护、Sniper-防勒索系统、FRA-人脸识别认证等,可为电商企业、政府机构、游戏娱乐等领域提供信息安全服务。
目前,高重科技公司规模接近百人,主要集中在超算科研技术、算法及建模、工程化落地测试、品牌商务四个部门。
上市公司/标杆企业分析
美亚柏科:公司三季度业绩承压,大数据业务有望成为新引擎
公司发布 2018 年三季报,前三季度实现收入 7.24 亿,同比增长 22.15%;归母净利润 4737 万,同比减少 27.97%;扣非后的归母净利润 2801 万,同比减少 49.31%。
大数据产品占比提升, 毛利率有所下降
前三季度公司毛利率为 59.10%,相比于去年同期毛利率 63.54%有所下降。 主要因前三季度公司毛利率较低的大数据业务较去年同期有所增加,导致综合毛利率有所下降。 同时, 根据公司业务发展规划,公司增加了人员储备、加大了研发和市场推广的投入,这些投入的增加导致前三季度费用较去年同期有较大增加。
风险概要:
1.电子数据取证业务增速不达预期: 短期受到如组建监察委、国地税合并等国家机构改革的影响,公司电子数据取证业务订单落地以及项目的验收出现滞后, 如果组建监察委、国地税合并的完成进度低于预期, 则公司电子数据取证业务增速存在不达预期的风险;
2.大数据信息化业务推广进度不达预期:公司城市公共安全平台目前推广及建设比较成熟的城市包括厦门、沈阳,如果城市公共安全平台在其他省市的推广进度不达预期,则公司的大数据信息化业务存在推广进度不达预期的风险;
3.国际市场业务发展不达预期:为满足符合国际市场需求的产品,公司在西安研发中心建立了专门的国际化技术服务团队, 如果公司电子数据取证产品的国际版本的开发进度低于预期,公司的国际市场业务存在发展不达预期的风险。