读《当当网系统分级与海量信息动态发布实践》有感

这周就暂停一段对微博的研究,最近我买了很多书,也经常浏览当当网,所以就看到了这篇文章。

当当网自成立以来,内部技术体系的发展已经有15年左右的历史了。系统架构也经历了从高度集成的软件向分布式、低耦合、SOA化系统的演进过程,形成全面支持网上零售业各种业态模式的系统架构,每天支撑着千万级的PV访问,承载了超过100亿元人民币的年营业额,2013年双11峰值流量达到日常的10倍。

作为一个典型的自营与开放平台相结合的网上零售电子商务平台,当当网网上购物流程由多达上百个大小系统共同实现。当当网最终服务于消费者,良好的用户体验、钱物准确是立足的根本,因此对系统稳定性、可靠性、准确性有非常严格的要求。任何时候都能保证线上系统的稳定运行,是我们工作的第一优先级。电商系统的运行峰值通常出现在各类促销、营销活动期间,以及大量集中收订的订单带来很大的生产和配送压力时。

除了参加每年的双11和双12大促、每年的10月店庆、业内重要的庆典、两次开学季图书大促、换季服装大促、常规的新品和尾品大促以外,当当网每个月至少会有一次公司级别大促,而各种中小型大促常年不断。各种促销活动均可以闪购、秒杀、大量SKU促销等模式实现。网站流量的来源除了新老用户的直接登录以外,还包括多种站外引流方式如网址导航、联盟、搜索引擎、各种线上线下媒介、短信、邮件、微信等通道。

因流量来源的不同,相应用户的浏览、购物模式也大有不同。如很多促销落地页是当当网的“馆”,或者专题页,那么我们可以在活动之前做非常有针对性的准备;有时用户已提前准备好了购物清单,如双11这样的促销中,订单转化率会比平时高,体现在订单收订和卖场流量不会成比例上涨——如订单收订上涨6倍,卖场流量可能只会涨3~4倍;而一些外部引流方式会带来大量无效、垃圾流量,所以订单转化率会比正常流量低。

有的活动流量会对首页有较大影响;有的活动会对购物车有较大影响,如闪购类的限时购买或复杂的促销逻辑;有的活动会对当当网的仓储、配送系统有较大影响,如当当网配送的订单;有的活动会对开放平台有较大影响,如商家订单。

因此,摸清业务模式和活动特点,是设计和运维高峰值电商系统,即高伸缩性系统的重中之重。但从另一个角度来说,在没有动态弹性部署的前提下,过度的设计和服务器部署是一种浪费,特别是硬件非常有限的寿命会带来每年巨大的成本摊销。当当网根据业务发展速度和业务运营规律,结合多年的经验,制定的系统伸缩性的设计原则和硬件常备策略使各流程能够直接应对日常5倍业务量的上涨。通过增加服务器的方式,能够应对10倍业务量上涨。而如果要应对10倍以上的上涨,则需要提前做有针对性的系统优化。但无论当前承受的业务量是否超过了设计范围,都不能影响设计范围内业务量的正常处理。

设计和部署大流量、高并发系统的技术方案选择比较多,业内有很多成功经验和案例。但根据我们的经验,设计高峰值的网上零售业电商应用系统通常要面对以下几大难点。应用架构复杂,业务发展快,迭代速度快,各系统之间盘根错节,历史包袱重。不仅有牵一发而动全身的风险,更有边缘case出错影响主流程处理、耗尽过多资源的隐患。

从前台到后台的业务流程长,用例多。在能承受的最大峰值上,存在短板效应。设计实现时要面面俱到。

通常促销活动的持续时间短而集中,前期推广活动已经启动,在活动期间,短暂的系统不可用,也会带来惨重的销售损失与负面影响,没有亡羊补牢的机会。要确保系统的稳定性,平时的工作就要做足。

针对这几大难点,有以下几大应对策略。基于SOA架构理念,降低系统耦合性,接口定义清晰明确,保证独立子系统的健壮性高,降低故障跨系统扩散风险,从而将伸缩性的困难逐步分解到各个系统。对系统进行分级,集中力量,突出重点系统。当当网从卖场到交易流程均属于一级系统,这部分系统直接关乎用户体验和订单量。在系统稳定性和可靠性等指标上,设计标准高于后台系统。

优先考虑用异步处理代替同步处理,做好系统异常的降级方案,保证有限的合格服务。

当当网技术团队经过多年的沉淀,积累了大量处理电商业务峰值的经验。通过深入分析应用场景,对系统进行分级,SOA化完成系统解耦,并采用多种技术手段实现海量数据的高效处理发布,不断提升系统吞吐能力,确保为用户提供稳定友好的购物服务体验,充分体现技术力量在产业中的重要作用。

本文参考文献:李震平,史海峰《当当网系统分级与海量信息动态发布实践》

原文地址:https://www.cnblogs.com/sunshine-z/p/11054775.html