时序异常数据检测从理论到落地

最近在解决一个挺有意思的问题,该问题可以抽象简化为:如何检测外部依赖接口发生异常。如果是在中小公司,那么这个问题其实是不需要解决的,从研发层面规范接口的格式,并规定依赖接口必须达到要求的可用性,只要调用成功率低于规范就进行告警。不幸的是,这个方法在当前的BU中是推不动的,是为背景。

简单的对接口调用失败量对齐时间轴看了一下,这是一个典型的时序数据异常检测问题。

从分类看,当前发展阶段的时序异常检测算法和模型可以分为一下几类:

  • 统计模型:优点是复杂度低,计算速度快,泛化能力强悍。因为没有训练过程,即使没有前期的数据积累,也可以快速的投入生产使用。缺点是准确率一般。但是这个其实是看场景的,并且也有简单的方法来提高业务层面的准确率。这个后面会提到。
  • 机器学习模型:鲁棒性较好,准确率较高。需要训练模型,泛化能力一般。
  • 深度学习模型:普遍需要喂大量的数据,计算复杂度高。整体看,准确性高,尤其是近段时间,强化学习的引入,进一步巩固其准确性方面的领先优势。

而我们希望在9月份就能够上线运行,并且没有历史数据,更不要提打标数据了。因此,只能选择统计模型作为一期落地的方案。而在统计模型中,twitter 在2015年发布的 AnomalyDetection 自然是翘楚。如果你正好使用 R 语言,那么直接上手就可以用。如果你需要 pure python 版本,推荐使用 Twitter’s Anomaly Detection in Pure Python.

S-H-ESD 原理

twitter 公开的异常检测算法的核心是使用了S-H-ESD异常检测算法。这种算法的思想是将时序数据使用 STL 分解,然后将分解的余项使用 Grubbs’ Test 进行异常点的检测(实际使用的算法考虑了极值异常点对整体的影响,实际使用的是的Grubbs’ Test变形)。关于算法的细节可以参看 twitter 发布的论文 Automatic Anomaly Detection in the Cloud Via Statistical Learning. 显然,这个算法之所以有效的两个关键就是 STL 和 Grubbs’ Test。

STL 将时序数据分解为 趋势 + 周期 + 余项:

直观上,可以将趋势项理解为时序数据的骨骼;周期数据是数据的振幅;余项是则是消除趋势和周期数据后,相对平滑稳定的“皮毛”。而这种皮毛数据是符合 Grubbs’ Test 假设中正常数据正态分布的。反之,则被 Grubbs’ Test 认为是异常数据。

因此,S-H-ESD 只适用于周期性数据。对于无周期性或数据变化特别剧烈的时序数据,S-H-ESD都不是好的选择。

S-H-ESD 用于生产环境

S-H-ESD 原理简单,理论效果也非常不错,基本起手能达到 40% ~ 60% 的准确率。但是实际应用中经常会遇到以下典型的误报情况:

而这种误报其实很难从算法本身消除,即使消除了其实也没有泛化性。一种简单的思路是引入更多数据和规则:

  • 上图中我们只是用的接口的报错量作为时序数据,单村在报错量上提高准确性在统计模型这个大前提下边际成本已经很高了。因此,可以考虑引入接口调用量和成功率来综合判断该点是否真正异常。
  • 结合实际业务,设定一些简单的规则减少误报量。对于我们的场景,可以设定的规则有报错量的基础阈值、报错点的持续时长等。

S-H-ESD 不是银弹,结合多维数据和业务规则以后,准确率基本达到了我们的预期。S-H-ESD 也不是终点,确切说是我们顺便解决当前问题,同时收集异常数据的手段。未来,我们会尝试结合深度学习模型提高异常检测点上的准确性,同时融合多维数据,将点上的异常检测逐步整合为线和面上的检测能力。

扩展阅读

使用函数计算解析视频地址

最近工作上的事情比较忙,于是不得不花些时间追剧分散一下注意力。因为之前听过一期高晓松与亲王马伯庸《晓说》,因此追的是很多人已经看完的根据马伯庸小说改编的《长安十二时辰》。

然而,独播该剧的优酷动辄120秒的广告,实在是太影响观影体验。于是花了点时间搞了今天这个小创造:视频地址解析。严格来讲,这个小工具其实不算是什么创造,因为类似的工具其实有很多。只是正好之前一直关注serverless,因此这个工具其实是使用阿里云的函数计算来完成。方案如下:

使用函数计算来做这个功能其实并不是“锤子思维”,而是因为在github找的一些视频地址解析工具命令行方式提供,而我为了在几分钟以为快速解决自己问题,不想花时间使用代码来调用工具中的执行函数。因此每个函数计算其实是开了一个进程去执行视频地址解析命令,然后向前端返回结果。函数计算因为是按照调用计费,非常适合这种场景。一来不用对进程未正常退出进行容错处理;二来频繁创建和销毁进程是非常昂贵的,不适合放在我的小vps上处理这种任务;第三,阿里云函数计算提供每个月100W次的免费调用额度(都是贫穷惹的祸呀?)

为了快速完成这个小工具,我选择 Python 作为自己函数计算的开发语言。阿里云的函数计算也支持 Java, Node.js, C#, PHP 等其他语言,挑选一个自己趁手的就行。整体上,函数计算这个产品非常简单,基本跟着引导就能做完。其中有几个点比较常见也很重要,在这里简单记录一下。

1. 函数的调试

函数计算有 Web IDE, 你可以直接在上面编写和调试代码。但是,如果你习惯使用 VS Code在本地调试的话,推荐你使用函数计算的VSCode 插件

2. 添加外部依赖

函数计算的 Python 环境默认配置了标准库以及几个常用的的包依赖。如果需要添加其他依赖,你需要使用 fun 这个工具来管理和添加语言依赖

对于 Python, 只需要使用如下命令安装包依赖即可:

fun install –runtime python3 –package-type pip flask

该命令会将依赖包安装在项目目录的 .fun 目录下:

3. 使用 flask 封装 web server

函数计算有好几种触发方式,最常规的肯定是通过 HTTP API 调用方式触发。这个场景,当时是 fask 与 Python 最搭:

有时候,我们折腾事情可能会因为过程而忘记了初心。对于追剧这件小事这种情况是肯定不允许发生的。愉快的追剧去吧

Enjoy!

最近的一个创造-又开车了

过了而立之年,很多事情会不期而遇,无论好的还是坏的,有准备的还是意料之外的,不一而足。有人说,哪有什么岁月静好,唯有负重前行罢了。

一个人有一两项长期的兴趣爱好是非常重要的。有时候,实在累了的时候,驻足看看自己的爱好,如同一道希望之光,给你难以言说的温暖与慰藉。而我,作为一个喜欢驾驶的老司机,除了美剧,工作之余也会跟一些自媒体汽车节目,关注汽车本身,也关注汽车相关的文化和生活。

但是,当前的汽车自媒体平台比较分散,并且每个平台都有自己的APP,推送消息也非常不克制,这就导致要订阅这些内容变成了一个非常繁琐,还经常被推送消息打扰的事情。于是有了又开车了微信服务号这个创造:

  • 在微信中聚合你的汽车自媒体订阅,免去安装各个平台的APP,来回切换内容查找的烦恼。
  • 当你订阅的汽车自媒体有内容更新的时候,你会收到一个微信消息提醒,除此之外没有其他任何推送打扰。
  • 支持订阅历史管理,历史内容一目了然。
  • 当前接入了1000+的自媒体频道,喜欢开车的你也许能在这里发现更多精彩的内容。

生活需要仪式感,在这个逐渐被奶头乐所占据的时代,希望你无论多么忙碌都能时不时抬头看看自己一直以来的兴趣,看看那不经意间的希望之光。如果你有跟我类似的兴趣爱好,欢迎关注我的微信服务号: