秋天的况味

大概我所爱的不是晚秋,是初秋,那时暄气初消,月正圆,蟹正肥,桂花皎洁,也未陷入凛冽萧瑟气态,这是最值得赏乐的。

那时的温和,如我烟上的红灰,只是一股熏热的温香罢了。或如文人已排脱下笔惊人的格调,而渐趋纯熟练达,宏毅坚实,其文读来有深长意味。

这就是庄子所谓“正得秋而万宝成”结实的意义。

——《秋天的况味》 林语堂

可能是因为秋天出生的缘故吧,每每重要的决定,印象深刻的经历都发生在秋天。

去年的满满焦虑并没有在今年化解,反而有愈演愈烈。要说今年秋天与去年最大的不同,也许应该是看事情的不缓不急与平和,如同路两旁的桂花,毫不起眼,但是散发着绵长独特的香味,难以忘怀。

是日,老爸张罗了一桌菜,老妈说几十年来,老爸这是第一次。傍晚时候,妞儿发来了家里门铃的出入记录:一段老爸今天十几次出入的记录。盯着屏幕发呆了良久,不知道说什么,假装俏皮的回复了一个狡黠的表情。当妞儿说父爱如山,内心深处一直想不表露的小心思,瞬间崩溃。子当如水,父爱如山,这是需要去体悟和兑现一生的事。

回成都以后,很多北京的朋友,亦师亦友,少了很多叙旧的机会。赶着国庆后的第一个周日,见到了大学的恩师。为导师如今的发展和成就由衷高兴,当然也免不了作为当年实验室第一批排头兵暗自自豪。了解到了很多朋友的近况,然后对应着他们每个人朋友圈对应时期的晒图,深感每张图背后的拼搏不息与勤勉向前。哪有什么岁月静好,也没有什么easy模式,为最好的结果努力,为最坏的结果买单,成长路上,难免如此。

曾经以为自己是一个能够仗剑走天涯的人,但是发现是一个特别小家情怀的人。国庆所有在老家的时间都花在了拾掇老家的“杂事”上。解决了好几个十几年一直用起来不顺手但是却一直“将就”过来的设计。当然,也免不了两个手都有轻微挂彩。我想,哪天自己真的干不动的时候,这里就是自己养老的港湾了吧。不过,现在还远远、远远不是时候。

女儿一天天长大,已经从当初盼望她快快成长的心态扭转为希望她长慢一些,再慢一些。陪她玩的时候,接她幼儿园放学的时候,心态上会不由自主的举重若轻,不仅仅是因为发现她又长高了,而是感受到了一种独特的“小确幸”。

邓肯说:“世人只会吟咏春天与恋爱,真无道理。须知秋天的景色,更华丽,更恢奇,而秋天的快乐有万倍的雄壮,惊奇,都丽。我真可怜那些妇女识见偏狭,使她们错过爱之秋天的宏大的赠赐。”若邓肯者,可谓识趣之人。

时序异常数据检测从理论到落地

最近在解决一个挺有意思的问题,该问题可以抽象简化为:如何检测外部依赖接口发生异常。如果是在中小公司,那么这个问题其实是不需要解决的,从研发层面规范接口的格式,并规定依赖接口必须达到要求的可用性,只要调用成功率低于规范就进行告警。不幸的是,这个方法在当前的BU中是推不动的,是为背景。

简单的对接口调用失败量对齐时间轴看了一下,这是一个典型的时序数据异常检测问题。

从分类看,当前发展阶段的时序异常检测算法和模型可以分为一下几类:

  • 统计模型:优点是复杂度低,计算速度快,泛化能力强悍。因为没有训练过程,即使没有前期的数据积累,也可以快速的投入生产使用。缺点是准确率一般。但是这个其实是看场景的,并且也有简单的方法来提高业务层面的准确率。这个后面会提到。
  • 机器学习模型:鲁棒性较好,准确率较高。需要训练模型,泛化能力一般。
  • 深度学习模型:普遍需要喂大量的数据,计算复杂度高。整体看,准确性高,尤其是近段时间,强化学习的引入,进一步巩固其准确性方面的领先优势。

而我们希望在9月份就能够上线运行,并且没有历史数据,更不要提打标数据了。因此,只能选择统计模型作为一期落地的方案。而在统计模型中,twitter 在2015年发布的 AnomalyDetection 自然是翘楚。如果你正好使用 R 语言,那么直接上手就可以用。如果你需要 pure python 版本,推荐使用 Twitter’s Anomaly Detection in Pure Python.

S-H-ESD 原理

twitter 公开的异常检测算法的核心是使用了S-H-ESD异常检测算法。这种算法的思想是将时序数据使用 STL 分解,然后将分解的余项使用 Grubbs’ Test 进行异常点的检测(实际使用的算法考虑了极值异常点对整体的影响,实际使用的是的Grubbs’ Test变形)。关于算法的细节可以参看 twitter 发布的论文 Automatic Anomaly Detection in the Cloud Via Statistical Learning. 显然,这个算法之所以有效的两个关键就是 STL 和 Grubbs’ Test。

STL 将时序数据分解为 趋势 + 周期 + 余项:

直观上,可以将趋势项理解为时序数据的骨骼;周期数据是数据的振幅;余项是则是消除趋势和周期数据后,相对平滑稳定的“皮毛”。而这种皮毛数据是符合 Grubbs’ Test 假设中正常数据正态分布的。反之,则被 Grubbs’ Test 认为是异常数据。

因此,S-H-ESD 只适用于周期性数据。对于无周期性或数据变化特别剧烈的时序数据,S-H-ESD都不是好的选择。

S-H-ESD 用于生产环境

S-H-ESD 原理简单,理论效果也非常不错,基本起手能达到 40% ~ 60% 的准确率。但是实际应用中经常会遇到以下典型的误报情况:

而这种误报其实很难从算法本身消除,即使消除了其实也没有泛化性。一种简单的思路是引入更多数据和规则:

  • 上图中我们只是用的接口的报错量作为时序数据,单村在报错量上提高准确性在统计模型这个大前提下边际成本已经很高了。因此,可以考虑引入接口调用量和成功率来综合判断该点是否真正异常。
  • 结合实际业务,设定一些简单的规则减少误报量。对于我们的场景,可以设定的规则有报错量的基础阈值、报错点的持续时长等。

S-H-ESD 不是银弹,结合多维数据和业务规则以后,准确率基本达到了我们的预期。S-H-ESD 也不是终点,确切说是我们顺便解决当前问题,同时收集异常数据的手段。未来,我们会尝试结合深度学习模型提高异常检测点上的准确性,同时融合多维数据,将点上的异常检测逐步整合为线和面上的检测能力。

扩展阅读

使用函数计算解析视频地址

最近工作上的事情比较忙,于是不得不花些时间追剧分散一下注意力。因为之前听过一期高晓松与亲王马伯庸《晓说》,因此追的是很多人已经看完的根据马伯庸小说改编的《长安十二时辰》。

然而,独播该剧的优酷动辄120秒的广告,实在是太影响观影体验。于是花了点时间搞了今天这个小创造:视频地址解析。严格来讲,这个小工具其实不算是什么创造,因为类似的工具其实有很多。只是正好之前一直关注serverless,因此这个工具其实是使用阿里云的函数计算来完成。方案如下:

使用函数计算来做这个功能其实并不是“锤子思维”,而是因为在github找的一些视频地址解析工具命令行方式提供,而我为了在几分钟以为快速解决自己问题,不想花时间使用代码来调用工具中的执行函数。因此每个函数计算其实是开了一个进程去执行视频地址解析命令,然后向前端返回结果。函数计算因为是按照调用计费,非常适合这种场景。一来不用对进程未正常退出进行容错处理;二来频繁创建和销毁进程是非常昂贵的,不适合放在我的小vps上处理这种任务;第三,阿里云函数计算提供每个月100W次的免费调用额度(都是贫穷惹的祸呀😅)

为了快速完成这个小工具,我选择 Python 作为自己函数计算的开发语言。阿里云的函数计算也支持 Java, Node.js, C#, PHP 等其他语言,挑选一个自己趁手的就行。整体上,函数计算这个产品非常简单,基本跟着引导就能做完。其中有几个点比较常见也很重要,在这里简单记录一下。

1. 函数的调试

函数计算有 Web IDE, 你可以直接在上面编写和调试代码。但是,如果你习惯使用 VS Code在本地调试的话,推荐你使用函数计算的VSCode 插件

2. 添加外部依赖

函数计算的 Python 环境默认配置了标准库以及几个常用的的包依赖。如果需要添加其他依赖,你需要使用 fun 这个工具来管理和添加语言依赖

对于 Python, 只需要使用如下命令安装包依赖即可:

fun install –runtime python3 –package-type pip flask

该命令会将依赖包安装在项目目录的 .fun 目录下:

3. 使用 flask 封装 web server

函数计算有好几种触发方式,最常规的肯定是通过 HTTP API 调用方式触发。这个场景,当时是 fask 与 Python 最搭:

有时候,我们折腾事情可能会因为过程而忘记了初心。对于追剧这件小事这种情况是肯定不允许发生的。愉快的追剧去吧

Enjoy!