谷银观点

谷银基金行业月度简报 | 大数据板块

2019-05-17 程洁 阅读

政策/知识/技术总结

大数据开发需要掌握的技术总结

大数据是对海量数据存储、计算、统计、分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成的,大数据涉及分布式计算、高并发处理、高可用处理、集群、实时性计算等等,汇集的是IT最热门、最流行的IT技术,大数据是机器学习、深度学习、AI等尖端可以领域的基础架构。

大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,例如我国、美国以及欧盟等国家都已将大数据列入国家发展战略,微软、谷歌、百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码。

那么,常用的大数据技术有哪些呢?

第一阶段JavaSE + MySql + Linux

Java基础 → OOP编程 →Java集合→ IO/NIO → Eclipse → Intellij IDEA → Socket网络技术 → Mysql 数据库 → JDBC Api → JVM内存结构 → 阶段项目实战 → Linux(VMware、CentOS、目录结构、Linux命令)

第二阶段Hadoop 与 生态系统

Hadoop→ MapReduce → Hive →Avro与Protobuf → Zookeeper → HBase → phoenix →Redis → Flume分布式 → SSM(Spring、SpringMVC、Mybatis) →Kafka架构

第三阶段Storm 与Spark 及其生态圈

Scala→ Spark Job → Spark RDD→ spark job部署与资源分配 → Sparkshuffle → Spark SQL → SparkStreaming → Spark ML → azkaban

第四阶段Python与数据分析、机器学习算法

第五阶段项目实战、技术综合运用

大数据商业实战阶段需掌握的技术有:实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。


大数据处理技术的总结和分析

数据分析处理需求分类

1 事务型处理

在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。

这类系统数据处理特点包括以下几点:

一是事务处理型操作都是细粒度操作,每次事务处理涉及数据量都很小;

二是计算相对简单,一般只有少数几步操作组成,比如修改某行的某列;

三是事务型处理操作涉及数据的增、删、改、查,对事务完整性和数据一致性要求非常高;

四是事务性操作都是实时交互式操作,至少能在几秒内执行完成;

五是基于以上特点,索引是支撑事务型处理一个非常重要的技术。

在数据量和并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、 RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。

在数据量和并发交易量增加情况下,一般可以采用ORALCE RAC集群方式或者是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑。

事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用的系统来解决本问题。

2 数据统计分析

数据统计主要是被各类企业通过分析自己的销售记录等企业日常的运营数据,以辅助企业管理层来进行运营决策。典型的使用场景有:周报表、月报表等固定时间提供给领导的各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应的营销策略等。

数据统计分析特点包括以下几点:

一是数据统计一般涉及大量数据的聚合运算,每次统计涉及数据量会比较大。

二是数据统计分析计算相对复杂,例如会涉及大量goupby、 子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现。

三是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多的用户希望能做做到交互式实时统计;

传统的数据统计分析主要采用基于MPP并行数据库的数据仓库技术。主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析的结构来实现高性能的数据统计分析,以支持可以通过下钻和上卷操作,实现各种维度组合以及各种粒度的统计分析。

另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算的数据库仓库系统也成为一个发展趋势,例如SAP的HANA平台。

3 数据挖掘

数据挖掘主要是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中的规律和知识。

数据挖掘主要过程是:根据分析挖掘目标,从数据库中把数据提取出来,然后经过ETL组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件,一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模。

数据挖掘的计算复杂度和灵活度远远超过前两类需求。一是由于数据挖掘问题开放性,导致数据挖掘会涉及大量衍生变量计算,衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂,计算量就很大,特别是大量机器学习算法,都是迭代计算,需要通过多次迭代来求最优解,例如K-means聚类算法、PageRank算法等。

因此总体来讲,数据分析挖掘的特点是:

1、数据挖掘的整个计算更复杂,一般是由多个步骤组成计算流,多个计算步骤之间存在数据交换,也就是会产生大量中间结果,难以用一条sql语句来表达。

2、计算应该能够非常灵活表达,很多需要利用高级语言编程实现。

热点、趋势、动态

2019年第七届中国数据分析行业峰会圆满落幕

2019年4月27日由中国商业联合会、中国商业联合会数据分析专业委员会主办的以“数往知来 领跑华东”为主题的第七届中国数据分析行业峰会在山东济南鲁能希尔顿酒店盛大开幕。来自阿里、腾讯、万宝盛华、工业4.0俱乐部等世界顶尖企业及国内众多企事业单位的专家、学者、数据分析师们与众多关注中国大数据发展的朋友共聚济南,畅享大数据实战应用价值。

本届峰会宾朋满座,人山人海。截止发稿,仅峰会的线上图文直播频道观看已超20000余次,线上视频直播频道有4000余人次全程观看了本届峰会盛况。中国商业联合会副会长傅龙成先生致开幕词【数往知来·领跑华东】,阐述了自己对中国大数据行业发展的独到见解,并期许中国数据分析人才能够在大数据变革之中,真正成为国家大数据发展战略中的中流砥柱。中国商业联合会数据分析专业委员会会长邹东生先生反复强调大数据发展前行道路上人才的重要性,并指出大数据的灵魂是分析,而数据分析人才是行业发展的核心驱动力。除了峰会主会场嘉宾的精彩分享,本届峰会更是同时设置了大数据与智能制造、大数据与商业BI、大数据与实战应用、大数据执业人才专场四场分论坛。来自中国工程院、潍柴控股集团、帆软软件、ATA全美在线、太阳纸业等众多专家学者,毫无保留的分享了各自领域内数据分析的实战应用与科研成果。

第七届中国数据分析行业峰会是一场知识与实战的盛宴,全国各地的专家学者和大数据人才共聚一堂,共同探讨如何让数据快速、高效的转化为生产力,并创造商业价值。

投资、并购、重组

生物科技公司“人和未来”完成2.5亿元融资

近期消息,总部位于北京的生物科技公司“人和未来”日前宣布,公司刚刚完成了新一轮的A轮融资,融资金额达2.5亿元人民币,投资方为稼沃资本和海捷资本。据了解,“人和未来”成立于2014年7月,是一家以基因科技为核心的健康解决方案提供商,其主营业务包括医学诊断、智慧健康管理以及生物医疗大数据三个方面。本轮融资完成之后,该公司估值将达到27.5亿人民币。

阿里云“再下一城”,将在印度建成首个数据中心

近些年来,印度在科技方面的发展有目共睹,而在云计算领域,印度俨然已经成为亚洲增速最快的市场之一。早在18年6月,阿里巴巴集团就表示了要进如印度市场的决心。近日更有媒体报道称,阿里云将在印度孟买建立其在当地的首家数据中心,还中心将于明年3月底建成。

想要共同做“比特币”的生意,暴风播酷云与BitcoinFile正式达成战略合作

近日,暴风集团旗下的暴风BFC播酷云宣布已经和BitcoinFile正式达成战略合作。资料显示,BIFI是比特币一个全新的分叉项目,是基于区块链技术的点对点分布式文件系统协议。根据双方签订的协议显示,未来播酷云将在全球范围内为BIFI网络提供全节点支持,而BIFI网络正式上线播酷云后,也将按照BIFI网络的规则,将获得的回报分配给播酷云的用户。

大数据招聘平台“亿封简历”完成A轮融资

日前,基于大数据技术的招聘服务平台“亿封简历”宣布完成了新一轮的A轮融资,融资金额暂未透露,投资方为启赋资本、联创资本和宁波梅山保税港区达宏投资。资料显示,亿封简历成立于2014年,前身是实力派,主要通过自然语言处理、数据挖掘等人工智能技术,帮助HR猎头管理线上渠道及本地简历。同时通过深度学习,解决人岗匹配难题。


上市公司/标杆企业分析

国内做大数据的公司依旧分为两类:

一类是现在已经有获取大数据能力的公司,如百度、腾讯、阿里巴巴等互联网巨头以及华为、浪潮、中兴等国内领军企业,涵盖了数据采集,数据存储,数据分析,数据可视化以及数据安全等领域。

另一类则是初创的大数据公司,他们依赖于大数据工具,针对市场需求,为市场带来创新方案并推动技术发展。其中大部分的大数据应用还是需要第三方公司提供服务。

国内大数据主力阵营如下:

(注:以下排名不分先后)

1、阿里巴巴,阿里巴巴拥有交易数据和信用数据,更多是在搭建数据的流通、收集和分享的底层架构;

2、华为,华为云服务整合了高性能的计算和存储能力,为大数据的挖掘和分析提供专业稳定的IT基础设施平台,近来华为大数据存储实现了统一管理40PB文件系统;

3、百度,百度的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。近来百度正式发布大数据引擎,将在政府、医疗、金融、零售、教育等传统领域率先开展对外合作;

4、浪潮,浪潮互联网大数据采集中心已经采集超过2PB数据,并已建立5大类数据分类处理算法。近日成功发布海量存储系统的最新代表产品AS130000;

5、腾讯,腾讯拥有用户关系数据和基于此产生的社交数据,腾讯的思路主要是用数据改进产品,注重QZONE、微信、电商等产品的后端数据打通;

6、 探码科技,探码科技自主研发的DYSON只能分析系统,可以完整的实现大数据的采集、分析、处理。一直做的国外项目美国最大的律师平台、医生平台和酒店、机票预订平台的数据采集、分析、处理。将在国内推出一系列面向政务、企业的创新型大数据研究项目与合作,为各大企业提供高端信息技术咨询服务;

7、中兴通讯,中兴通讯推出的“聚焦ICT服务的高效数据中心整体服务解决方案”,可帮助运营商有效解决大数据时代建设IDC面临的大部分问题,提升运营商ICT融合服务能力;

8、神州融,神州融整合了国内权威的第三方征信机构和电商平台等信贷应用场景的征信大数据,通过覆盖信贷全生命周期管理的顶尖风控技术,为微金融机构提供大数据驱动的信贷风控决策服务;

9、中科曙光,中科曙光XData大数据一体机可实现任务自动分解,并在多数据模块上并行执行,全面提高了复杂查询条件下的效率;

10、华胜天成,胜天成自主研发的大数据产品“i维数据”,颇具创新,近期又与IBM达成战略合作关系,涵盖Linux on Power市场、智慧城市、存储业务、管理服务、咨询与应用管理服务;

11、神州数码,“神州数码”启动了“智慧城市”战略布局,先后推出了市民融合服务平台、自助终端服务平台等产品,并在佛山、武汉等“智慧城市”建设中实践运用;

12、用友,用友在商业分析、大数据处理等领域进行研发,先后推出了用友BQ、用友AE等产品;

13、东软,东软大数据战略以医疗行业为突破口,凭借在社保、医疗行业积累的资源,搭建了东软熙康这一智慧医疗平台;

14、金蝶,金蝶KBI与金蝶ERP无缝集成,实现BI数据采集——集成——分析决策支持的一体化应用;

15、宝德,宝德大数据云备份,是一个专为大数据而设的云备份方案,支持实体机及虚拟机备份,而且具有无限扩充的可能,并且完全自动;

16、启明星辰,大数据时代的IP治理和审计,启明星辰提供了终端审计、终端数据防泄露、日志审计,通过综合审计平台来帮助用户解决IP治理需求等解决方案;

17、拓尔思,通过收购天行网安,可以拓展在公安行业的应用,目前正着力开拓行业应用市场,挖掘各个产业链中的大数据价值;

18、荣之联,零售、证券、生物、政府等都是荣之联大数据业务的主要目标行业,已为零售业提供了大数据分析的解决方案,解决了库存问题;

19、中科金财,作为国内领先的高端IT综合服务商,主要服务于金融业的大数据;

20、美亚柏科,专注于公安市场,其业务包括电子数据取证、电子数据鉴定、网络舆情分析、数字维权、公证云、搜索云以及取证云服务;

21、赛思信安,国内存储技术与服务供应商赛思信安推出了自主研发的大数据管理系统,适用范围包括互联网、公众服务、商业智能、金融、医疗卫生、能源等多个行业;

22、华宇软件,作为大数据、食品安全、法务软件等相关热门行业软件,同时也是公安领域大数据的上市公司;

23、天玑科技,天玑科技的数据中心运维管理服务,为大数据的分析能力提供了强大的后台支撑和保障;

24、东方国信,东方国信主营业务为企业商业智能软件及系统解决方案,收购北科亿力和科瑞明,有效拓展了工业和金融大数据领域;

25、华三,华三全融合虚拟化网络技术能够极大简化网络结构,减轻网络管理和维护量,为企业数据中心大规模建设提供最强有力的技术支持;

26、海康威视,海康威视基于英特尔Hadoop发行版,并融合可以灵活按需调配IT资源对应用和服务进行支持的开放架构云计算技术,打造出了视频智能云计算方案;

27、高德,高德与阿里将在地图搜索、产品商业化、数据共享、云计算等领域展开合作,特别是在数据共享方面,高德和阿里巴巴将共建一个大数据服务体系;

28、四维图新,作为提供导航地图、地理信息系统软件建设的内容提供商,现在已尝试使用大数据为政府部门提供决策;

29、海捷科技,专注于商业智能领域(BI)、数据仓库领域、数据库领域的专业咨询、项目实施、软件开发、系统集成等方面,为金融、电信、快速消费品等行业提供相应方案;

30、北京信合运通,信合运通专注于为运营商和行业客户提供基于大数据的深度分析和挖掘技术、渠道支撑服务及行业解决方案。



个人用户登录 机构用户登录
账号:
密码:
忘记密码
新用户注册
会员注册
注册类型: 个人 机构








发送验证码

找回密码

发送验证码


修改密码


邮箱绑定
更换手机


委托人权限登录

由于个人隐私既客户权限问题请点击输入身份证号码进行查看您的资料