专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
51好读  ›  专栏  ›  雷峰网

阿里云道哥解密:保卫“双十一”的技术牛在哪里 | 硬创公开课

雷峰网  · 公众号  · 科技媒体 硬件  · 2016-11-12 22:43

正文

请到「今天看啥」查看全文



4.云上的客户,保卫的难度在哪?


道哥:云计算是大规模计算,任何事务只要上了大规模,就会变得复杂和难于处理,但这也是创新的机会。大规模计算下的一个典型特点是「小概率事件变为常态」。比如一个正规的网站,一年可能都不会经历一次 DDoS 攻击,但是在阿里云上,我们每天都要防御数千次DDoS攻击。在这样的攻击量级下,靠人工处理已经变得不现实。这倒逼我们进行技术创新,所以我们做到DDoS防御的全自动值守,不需要任何人工参与。任何一次 DDoS 攻击都可以在1秒内完成从检测到响应到防御的整个过程。


二、云盾的独门绝技


1.总是提到云盾的态势感知,这究竟是个神马神奇的技术?你们的大数据分析模型来源是?依据什么建立的模型?


道哥:态势感知区别于传统的 SIEM ,有两个非常关键的点。现在很多安全厂商都开始做态势感知,但往往只是把 SIEM 换了个名字,这是种误区。


态势感知最早在安全行业的应用,是我在 2015 年 7 月的阿里安全峰会上正式发布云盾态势感知产品后提出来的。后来到了 2016 年的 4月 习总书记的讲话里,也明确了要重视网络安全的态势感知。所以态势感知赋能的 Visibility,是整个安全的基础。


态势感知有两个重要的特征,区别于其他安全产品。第一个是要基于原始的数据,要充分尊重原始的数据。目前云盾每天分析超过 500T 的增量数据,存量数据的量在 100P 以上。这让我们能够从原始数据中分析出第一手的信息,而不是从一些第三方安全设备里获取第二手资料。最有价值的信息都是存在于原始数据里的,当我们的算法更新后,我们仍然能基于过去的原始数据计算出新的价值。


2.云盾强调全链路监控预警,请科普一下如何实现?


道哥:我们从各个纬度的 sensor 收取数据,包括网络、服务器、数据库,也包括四层和七层的数据,也包括操作日志和系统日志。因为今天云盾是全链路部署的,既包括来自于全网的扫描器,也包括流量分析、应用层的数据分析,同时在服务器还有 Agent ,所以我们能从不同的视角观测到不同的现象。同时阿里云还提供各个纬度的 API ,通过 RAM 授权后,我们可以调用云计算本身提供的一些数据。把所有的这些数据整合在一起,做出综合的诊断。


3.云盾还在研发哪些新的黑科技?希望达到什么目标?


道哥:我们希望把阿里云强大的计算能力充分的利用起来,应用在我们的安全领域。我们知道因为计算能力的解放,带给了深度学习和人工智能非常大的机会。


比如,我们正在研究如何让一个计算机系统,来代替安全专家的所有人工工作。包括所有的评估结果分析、策略维护、响应等,都可以通过机器自动来完成,这些需要高级思维和经验的工作,在过去都是由专家人工完成。但是,我们认为由机器来代替是可行的,甚至在某些时候机器比人会做得更好。


这是一个很浩大的工程,我们正在逐步努力。我们把未来的这个新的人工智能,叫做「云小盾」,我希望他会是我们的一个明星员工。


三、靠什么守卫“双十一”?


1.“双十一”马上就要来了,是否可以科普一下阿里云需要为“双十一”提供哪些方面的基础服务和保障?这些“双十一”剁手党能感受到吗?


道哥:实际上安全带有保障属性,和运维有点类似,所以做得好的安全往往是感受不到的。就像此前保护G20峰会一样,过去几年的“双十一”保障在安全上都平稳度过。“双十一”的挑战来自于海量访问请求,导致很多解决方案在这样的场景下都会极具挑战性。


比如,在“双十一”,我们需要从全国,以及海外的数个可用区,将每秒的流量进行集中统计和分析,进行安全检测和响应。这意味着跨地域的TB级流量分析挑战非常大,同时对稳定性和实时性要求都非常高,如果其中有一分钟失去检测能力,很可能就会对后端的服务器带来巨大的压力,从而导致“双十一”整体的失败,所以“双十一”是一场大考。


其次,在去年的“双十一”,我们首次应用了 WAF 技术,今年将继续使用,也就是说“双十一”的每一个请求,都会经过 WAF 的安全检测,这需要非常强的检测能力和可以弹性伸缩的技术架构。WAF支持同时下发超过100万条策略,这也是在其他的安全设备上没有看到过的能力。因为“双十一”独特的场景,造就了我们的这些技术突破。


最后,也许消费者们能感受到我们存在的一点,在于在“双十一”的过程中,我们采用了一种「无损限流」的技术。因为谁也无法预测“双十一”的洪峰会有多大,后端准备再多的服务器也许都不够,所以在安全控制上,对于超出系统负载的请求,会采用一种「排队机制」,但这种机制不会drop掉你的连接,而是会让你等待,直到轮到系统处理你的请求。这有点像去苹果店排队买iphone,大家不是一拥而上,而是非常有序的排队等待。


2.万一有突发情况,阿里云有怎样的应急响应方案?尤其是“双十一”,发生点什么事情岂不是大家都不能买买买了?


道哥:我们有专业的应急响应团队来处理所有的紧急情况,包括产品的漏洞、云上的安全事件、外部来源报告的一些问题,以及客户投诉的一些严重case。我们会在事前广泛的收集所有信息,在事中有一个值班长的机制,来驱动所有相关团队进行响应,在最后还会进行效果的观察和复盘。


在云计算上,经常会面临一些大的安全漏洞,可能影响到数十万的用户。我们能观测到一些高级的威胁是如何蔓延和传播的,在内部称之为「安全疫情」。事实上如果能提前一个小时进行止血,我们就可能会挽救数万用户的损失。所以,我们的应急响应团队是在和黑客赛跑。而所有的应急响应,前提是要能被我们观测到,这是态势感知的能力。所以,态势感知提供的「看见」的能力是我们的基础。


在“双十一”,我们有专门的保障小组,他们针对各种安全紧急情况,设计了几十种预案。同时在“双十一”前的几个月,就开始不断进行演练,以保证这些预案是有效的。在整个“双十一”中,都会进行7*24小时的值守。


3.为了大家的买买买,你们也是很用心。是否能举例说明下以前“双十一”保障遇到的紧急事件,以及云盾团队如何化险为夷的?


道哥:去年“双十一”,很多黄牛来秒杀促销商品。我们会通过威胁情报,提前分析全国黄牛的大概分布,以及他们使用的工具和资源。在“双十一”前,我们会突击下发策略,在主站的关键流量上 block 掉这些黄牛的工具和资源,保障正常的商家服务。我们在风控上的策略,对抗是非常频繁的,经常是一个算法用半个小时,就要换新的了。


4.听说今年的“双十一”加入了直播业务,看上去牛牛哒,针对这样的特色,阿里云需要做点特殊服务保障吗?


道哥:直播主要有两个安全问题,一个是被 DDoS 攻击导致直播中断,那么前期的大量市场推广可能就白做了。所以直播期间需要准备好 DDoS 的预案,同时网络质量上还不能有抖动,影响到直播的效果;第二,很多直播还提供弹幕的功能,可能会有些违规、违禁的信息会出现在弹幕里,造成很不好的影响。所以,直播的 UGC 内容需要进行检测。云盾的绿网产品今天就是提供这个检测与拦截服务的。







请到「今天看啥」查看全文