云端智度要闻 | 文章详情

云端智度:自主学习技术重构网络监控分析系统


日期:2017-11-07

正如世界上不存在没有BUG的程序,网络故障也是不可避免的,再加上影响CDN服务的因素数不胜数,CDN服务故障非常多见。


既然故障无法避免,那么,提升用户体验的关键点就在于,如何快速发现故障、定位分析并做出决策。在整个流程里面,监控分析是一切的前提,云端智度正是借助于领先于行业的全网监控分析系统,为有效提升服务体验打下了基础。


CDN业务中,监控包括各种各样的基础数据,如云端智度目前计算分析的典型数据包含:

1、带宽数据可以分得很细,每5分钟的计费带宽,也有更细精度的区域运营商带宽,当然还有大客户定制的一些业务带宽统计。

2、质量数据,状态码、慢速比,命中率,下载速度,回源率等。

3、监控数据,源站可用性,节点可用性,业务错误率等。

4、日志合并


只有实时采集并分析这些数据,才能及时找到影响CDN服务质量的因素,比如各机房的网络服务质量、CDN配置异常、上线程序BUG等,并以此作为CDN运维及调度的依据。


但是,目前最广泛的监控方式都是采用传统的简单阀值告警的方法。其方式是通过人工预先设置相关的阀值,然后通过是否触发阀值来判断网络服务质量是否出现异常。而且,设定阈值的时候,主要是依据历史数据和经验进行,这就导致监控精确度严重不足,此外还存在工作量巨大、灵活度不够、滞后性等问题。


此外,最关键的问题在于:如果报警信息太多,各种报警数据巨大,导致人工看不过来,被报警信息淹没,将导致重要的报警信息被忽略,从而无法起到预期的效果。虽然报警分级能解决一些问题,但分级结果是严重故障才会被处理(响应),或者说小故障变成大故障才会被处理。监控效果无法保证。


云端智度借鉴AI自主学习技术,开发了针对监控数据分析及关联决策系统,采用流式处理模式,并形成一个从挖掘规则阀值到数据分析,再到生成结论标记,最终将结论标记用于规则阀值池中的处理闭环:


1,监控数据采集:自有分布式全网实时监控;第三方监控;采集渠道监控数据;采集客户监控数据。

2,监控数据分析:大数据智能分析,形成结论供调度系统或人工决策。

3,监控数据汇总:系统对分析结果进行汇总,并得出最终的结论标记。结论标记将会最终用于后续规则阈值的挖掘。

4,监控阈值挖掘:系统从历史业务数据中挖掘出各类规则阈值,挖掘出来的规则阀值都被输入到策略机。规则阀值挖掘的周期可以根据需要自行定义,通常可设置为一天挖掘一次。形成新的阈值。


策略机技术:所有经过CDN的实时业务数据都输入到策略机,策略机根据规则阀值对数据进行处理,处理的过程主要是判断业务数据是否满足规则阀值,处理完成以后策略机输出带有标签的数据。每个标签具有特定的含义,比如有的标签标明业务数据是否满足规则阀值;有的标签标明带宽是突增还是突降。


聚合分析技术:带上标签的实时数据从策略机输出以后,进入到聚合分析模块。聚合分析模块根据业务通常的逻辑关系,对带上标签的业务数据再次进行分析。

自主学习能力是云端智度全网监控分析系统的核心能力之一,云端智度智能融合CDN借助此项技术,极大地提高了监控分析的准确性和时效性。


正是借助高效、智能、多维的监控分析体系,云端智度才能够在双向对接的20多家CDN平台中进行智能调度。相信在未来,技术进步会为我们带来更好的客户体验。