blog

SRE 技术简报 20191127

Author: ninehills
Labels: blog
Created: 2019-11-27T06:39:00Z
Link and comments: https://github.com/ninehills/blog/issues/72

前沿进展

  1. KubeCon North America 2019 ( 11.18 - 11.21)

    KubeCon North America 2019 上周在圣地亚哥举办,目前各个Topic的材料已经基本上传完毕,但是还没有上传视频,感兴趣可以关注下。

    没有参加过KubeCon的小伙伴可以关注 @drkellyannfitz 的现场记录:

优秀文章

  1. Measuring Production-Readiness Using Qualification Gates

    文件存储服务的指标设定的一个实践,通过不间断的测量并配置不同级别的“质量门”,从而使产品达到生产环境要求的质量水平。

  2. The Configuration Complexity Curse

    如果厌烦去编写复杂的 YAML 配置,可以看一下这篇文章提出的CUE,它是一种DCL(Data Configuration Language),CUE 想去解决复杂系统带来的复杂配置的难题。值得一提的是,作者之一 @mpvl_ 曾经在Google负责 borgcfg 的维护。

  3. Debugging network stalls on Kubernetes

    Github 技术团队定位 K8s 丢包问题的全过程记录,知识点包括 软中断、NAPI、ksoftirqd、内核调试、进程调试等,十分硬核。

  4. 携程容器偶发性超时问题案例分析 Part1 Part2

    携程关于容器网络偶发超时问题的分析和定位,最终也是定位到在新机型上,内核已经修复的某个BUG。

  5. Monitoring server applications with Vortex

    Dropbox 的应用监控系统 Vortex,设计目标是完全横向扩展、没有单点、查询隔离、性能线性增长的监控系统。

  6. Snap: a microkernel approach to host networking

    Google的用户空间网络协议解决方案,类似于微内核的机制。跳过内核协议栈后,性能得到了极大的提升,类似的项目有dpdk等。

  7. Taiji: managing global user traffic for large-scale Internet services at the edge

    Taiji(应该是太极),Facebook的全球负载均衡器,类似于百度的BFE(https://github.com/baidu/bfe)。

业界故障

  1. 20191120 Azure Front Door 服务故障导致 Azure、Microsoft 365、Microsoft Power Platform等服务故障

    RCA - Multiple Services - Downstream impact from Azure Front Door Azure Front Door 是 Azure 提供的全球接入层服务,利用 Azure 全球上百个 POP(接入点)提供加速接入服务。在11月20日 00:56 - 03:40 之间,变更导致触发线上代码BUG,从而导致服务故障。

  2. 20191106 Honeycomb 因为内存泄漏导致20min故障

    原因比较简单,就是代码BUG导致内存泄漏,亮点是这个故障报告本身。