红蓝对抗常态化 支付宝技术风险防控机制首次曝光

小蚂蚁说:

支付宝红蓝CP又开始日常“互怼”啦!为了迎接年度技术“期末考试”周,技术蓝军每周都会组织突袭攻击“测验”,通过实战中发掘出来的脆弱点牵引红军进行能力升级。而红军的防控体系建设也在如火如荼地进行着,实时核对平台能够做到稳定的分钟级核对异常发现能力,还能提供业务快速接入的能力。

 

为提升全面风险意识,持续提升业务及技术架构的风险应对能力,从2016年开始,支付宝探索并建立了“红蓝对抗”机制,通过全栈级别的大型技术攻防演练,增强团队应急处理能力和系统防护水平。

 

支付宝技术蓝军正在布置“突袭”计划

 

 

“技术风险是所有蚂蚁技术人需要具备的最关键的能力”, 蚂蚁金服副CTO胡喜介绍,随着今年12月技术期末考周结束,支付宝技术团队正将风险从一个不确定的事变为确定性的事。

 

支付宝低调神秘部门SRE浮出水面

 “红军重点防守,蓝军重点进攻,实现以演练促防御,以演练增强风险意识的长期目标”,蚂蚁金服技术风险部资深总监陈亮介绍,蓝军从属SRE部门,红军包括SRE及各业务部门技术团队。

 

SRE全拼为Site Reliability Engineer,是软件工程师和系统管理员的结合。据悉,目前全球只有少数几家顶级互联网公司拥有真正意义上的SRE团队,蚂蚁金服是其中之一。

 

支付宝这支技术蓝军的主要职能是寻找系统“软肋”,并随时攻击。陈亮介绍,除了每年12月第三个星期为年度技术“期末考试”周,日常中每周技术蓝军都会组织突袭攻击“测验”,通过实战中发掘出来的脆弱点牵引红军进行能力升级。

 

支付宝风险防控能力全面开放

除了每周“突袭”,每年还有期中考试和期末考试各一场。这样三年实践下来,支付宝的“红蓝对抗”演练已经沉淀为一整套成熟的风险防控体系,通过仿真环境模拟天灾人祸,以此考验技术架构的健壮性及技术人员的应急能力,从而全面地提升系统稳定,实现系统的高可靠性和高可用性。

 

“技术风险主要表现为天灾和人祸。天灾指的是,当出现台风、断网、火情等极端异常情况的时候,系统如何快速应对“。陈亮介绍,这有点类似于今年杭州云栖ATEC大会上,蚂蚁金服副CTO胡喜现场演练的异常断网情况下,“三地五中心”自动切换,保证支付服务不中断。人祸则是指因技术人员操作失误引发故障后,系统如何快速应。

 

据悉,这些技术风险相关的能力也通过蚂蚁金融科技官网(tech.antfin.com)正式对外开放。目前,包括容灾应急平台、全链路压测、资金安全监控、变更管控、巡检平台以及黑屏运维管控等产品。

 

蚂蚁金服AT

原文地址:https://www.cnblogs.com/Ant-Techfin/p/10146683.html