云端智度活动 | 文章详情

iTechClub贵安领“大势”,云端智度“诸葛”亮了


日期:2017-09-18

刚刚过去的这个周末,“大势,iTechclub第十九届互联网精英高峰论坛”在贵州贵安新区成功举办。



本次大会聚集了近300名中国一线互联网技术大咖和技术高管,聚焦AI与大数据领域未来最可能改变人类生活的几大领域展开研讨。


峰会上,云端智度技术合伙人汪志武紧贴峰会主题发表演讲,主要介绍了云端智度如何将大数据应用于CDN领域并搭建智能融合CDN平台,其重磅发布的“诸葛”智能关联分析系统引起了众多与会人员的浓厚兴趣,成为峰会的一大亮点。


云端智度技术合伙人汪志武发表演讲


大势——融合弥补CDN服务短板,大数据提升融合平台效率


汪志武首先介绍了云端智度推出融合CDN产品的原因,他说,调度空间有限、稳定性低、管理成本高等这些传统CDN服务的短板,是融合CDN平台诞生的逻辑。


基于这个逻辑,云端智度融合CDN业务以几倍于传统CDN业务的速度增长:2016年2月成立,目前已与20家以上的CDN厂商完成了双向对接,聚合的可用带宽为30T,融合CDN领域NO.1,总带宽是其他融合CDN友商的5倍以上……


但是,当20家甚至更多厂商接入,当形成了超过30T的可用带宽规模,新的问题就会随之产生:“对接多家CDN厂商之后,融合CDN也面临非常多的挑战,如渠道技术、资源差异,节点多故障点变多,故障定位困难的等各种问题。”汪志武说。


为了解决这些问题,云端智度打造了三个核心能力:多维监控体系,实时监测网络;智能调度系统,全网择优调度;聚合管理系统,掌控全局状态。


而大数据分析处理能力则是打造三个核心能力的关键基础。云端智度大数据系统架构:



如上图:根据处理数据的类型不同,云端智度大数据系统分为实时计算和延时计算两部分。


数据源:CDN节点的访问日志、各类监控数据、客户业务数据。


在融合CDN平台中,大数据主要用途是做数据聚合及分析,发现及定位问题并协助解决问题。目前,云端智度融合CDN平台计算的典型数据主要有四类:


1、带宽数据,每5分钟的计费带宽,也有更细精度的区域运营商带宽,大客户定制的一些业务带宽统计。

2、质量数据,状态码、慢速比,命中率,下载速度,回源率等。

3、监控数据,源站可用性,节点可用性,业务错误率等。

4、日志合并。


汪志武说:“有了大数据,我们可以快速发现问题,但是,在融合CDN业务模式下,由于对接了多家CDN渠道,故障定位分析变得更复杂,这就决定了,我们必须有一款强大的智能关联分析系统。”


经过技术研发人员的不懈努力,云端智度开发出了符合要求的强大系统,基于系统精准、快速的特点,称之为“诸葛”。


诸葛——自动从全网资源聚合平台中分析定位故障


诸葛系统架构


云端智度“诸葛”系统由以下五个模块构成:

1、策略管理器:异常判定策略维护;

2、异常检测:根据阈值来判定产生异常事件;

3、关联分析:定位问题,产生告警调度事件;

4、告警处理:对事件进行告警或合并处理;

5、事件追踪:根据事件状态机持续追踪,直到恢复或外部标识解决。



异常检测模块实时根据阈值进行检测,其参照的检测阈值是策略管理系统自动学习维护的,发现异常后触发一个事件。横向关联分析模块,根据CMDB及预定义的策略库进行关联分析。


横向关联分析结论后触发报警事件及调度事件。在必要的时候,进行人工辅助标记。对于持续报警,在解决之前,会根据报警合并规则进行合并。


“诸葛”系统的异常事件追踪模块,会根据事件状态持续跟踪,阈值转到正常范围内会标记事件恢复。大大的降低了运营人员的压力,提升了效率。


为更清晰地介绍“诸葛”系统的价值所在,汪志武列举了云端智度融合CDN平台日常运营中的两个异常事件。

 

事件一:状态码异常告警


人工分析:


首先得找到状态码分布及来源,手动每个渠道进行分析排查,然后分析对应的节点,再分析出由哪些url导致,最后,分析源站上这个些URL的状态是什么,对比之后才能出结论。效率非常低,所需时间要超过10分钟,极有可能(如502状态码)对客户业务造成重大影响。


“诸葛”系统自动分析:


“诸葛”系统自动替代人去做以上分析,从多纬度数据中找出最终原因,从而快速选取策略,业务正常现象可以忽略,区域故障进行自动切换,或者交由人工继续分析。

 

事件二:带宽波动异常


人工分析:


造成带宽突降的原因很多,如客户未通知厂商的情况下把流量切走,或者配置出现故障,节点故障,接口故障等。


“诸葛”系统自动分析:


带宽数据异常后,能够关联分析各个渠道带宽,请求数,状态码数据。此次问题中某家CDN的部分区域403快速增长,确认问题后,自动触发调度事件,迅速把用户访问从问题渠道切走。


诸葛策略控制系统


复杂繁复的指标靠人工维护是不可行的,需要一套自动化的维护机制。在“诸葛”系统中,策略控制系统持续对各指标分析阈值、参数,定期自动调整。同时也支持人工标注,可根据人工反馈学习。将人工干预降到最低。


汪志武发布“诸葛”智能关联分析系统


最后,汪志武表示:“在大数据应用上,云端智度除了基本的实时计算和延时计算,还在继续探索和尝试。我们希望大数据与机器学习结合,最终实现资源调度及故障处理智能化。”

 

客户需求催生技术进步,云端智度将继续以客户体验为本,推出更多、更强大的技术产品,打造出高效、易用、可靠的中立融合云平台。