非常复杂,上双11数据大屏背后的秘密:大规模流式增量计算及应用

回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦。在云栖社区2017在线技术峰会大数据技术峰会上,阿里云大数据计算平台架构师钱正平做了题为《大规模流式增量计算及应用》的分享,钱正平结合阿里巴巴真实的业务场景为大家分享了流式增量计算编程方面的挑战和当前的解决方案。


首先从理解什么是数据流开始今天的分享,其实在真实的世界中,大部分的数据都是连续产生的数据流,比如手机上产生的GPS信号、用户在互联网上的行为、在线搜索、用户的点击、社交网络分享、即时通信以及一些传感器和物联网设备采集的日志信息等,这些数据都是连续产生的,自然就形成了数据流,在这些数据流产生以后,在很多场景下对于数据流的实时分析就会产生很大的价值。

接下来从大家比较熟悉的数据场景切入,比如大家经常会关注的股市情况,股价的波动其实就是实时数据的分析和聚合,除此之外大家在日常生活中还可能比较关心天气预报,可能会根据实时的信息来看比如当前的台风的情况,这些都是大家习以为常的,也已经深入大家生活的实时数据分析。

而随着实时数据源的越来越多,实时数据的规模也越来越大,可以应用的场景也越来越多,实时数据的应用也正在往更多的领域深入。比如像每年的天猫双11全球狂欢节,阿里巴巴就有一个实时大屏,左图上是2015年的情况,当时在第35分钟的时候就已经有了200亿的销售额,同样的2016年也是一样,所有的交易数据都会在秒级之内反映在数据大屏之上,再比如在2015年还有模拟的一个地球,可以看到从卖家到买家的订单都会被实时地刻画出来,这在商业领域将会给大家一个非常直观的印象,也可以用于辅助商业决策。

特别是在安全以及监控这些领域,数据有时候除了用于看以外还可以预先设定很多规则,基于流计算的“规则引擎”提供了传统的安全监控系统无法提供的海量数据处理能力,根据这些规则就可以省去很多的人力劳动,可以自动化地进行报警,利用大规模分布式集群实时计算和分析监控数据,避免人肉数据检查的低效,有效扩大监控范围,提升监控时效。这方面目前有很多的应用,比如像监控电网的运作等。

除了判断简单规则以外,还可以通过实时分析数据去发现一些规律,去实现更多的机器智能。这里举的是阿里巴巴帮助协鑫光伏的一个案例,协鑫光伏是一个专门加工太阳能电池的企业,它的设备都面的每个设备都有几百个传感器,加起来就有成千上万路信号输入,如果通过人去理解传感器的行为,去检测或者预测哪一个设备将会发生故障再去更换,这中间的延迟就会造成很大的浪费,也就会导致次品率上升的问题。而通过实时的数据分析加上人工智能的算法最终实现了机器自动预警和判断,这样不仅提高了工作效率,甚至还能够预先自动提示操作人员对于设备的某些部件进行更换,最终实现对于良品率的提高,进而提高企业的收益。

全文点击:http://click.aliyun.com/m/13434/

原文地址:https://www.cnblogs.com/iyulang/p/6547798.html