Author: ninehills
Labels: blog
Created: 2019-11-27T06:39:00Z
Link and comments: https://github.com/ninehills/blog/issues/72
KubeCon North America 2019 ( 11.18 - 11.21)
KubeCon North America 2019 上周在圣地亚哥举办,目前各个Topic的材料已经基本上传完毕,但是还没有上传视频,感兴趣可以关注下。
没有参加过KubeCon的小伙伴可以关注 @drkellyannfitz 的现场记录:
Measuring Production-Readiness Using Qualification Gates
文件存储服务的指标设定的一个实践,通过不间断的测量并配置不同级别的“质量门”,从而使产品达到生产环境要求的质量水平。
The Configuration Complexity Curse
如果厌烦去编写复杂的 YAML 配置,可以看一下这篇文章提出的CUE,它是一种DCL(Data Configuration Language),CUE 想去解决复杂系统带来的复杂配置的难题。值得一提的是,作者之一 @mpvl_ 曾经在Google负责 borgcfg 的维护。
Debugging network stalls on Kubernetes
Github 技术团队定位 K8s 丢包问题的全过程记录,知识点包括 软中断、NAPI、ksoftirqd、内核调试、进程调试等,十分硬核。
携程关于容器网络偶发超时问题的分析和定位,最终也是定位到在新机型上,内核已经修复的某个BUG。
Monitoring server applications with Vortex
Dropbox 的应用监控系统 Vortex,设计目标是完全横向扩展、没有单点、查询隔离、性能线性增长的监控系统。
Snap: a microkernel approach to host networking
Google的用户空间网络协议解决方案,类似于微内核的机制。跳过内核协议栈后,性能得到了极大的提升,类似的项目有dpdk等。
Taiji: managing global user traffic for large-scale Internet services at the edge
Taiji(应该是太极),Facebook的全球负载均衡器,类似于百度的BFE(https://github.com/baidu/bfe)。
20191120 Azure Front Door 服务故障导致 Azure、Microsoft 365、Microsoft Power Platform等服务故障
RCA - Multiple Services - Downstream impact from Azure Front Door Azure Front Door 是 Azure 提供的全球接入层服务,利用 Azure 全球上百个 POP(接入点)提供加速接入服务。在11月20日 00:56 - 03:40 之间,变更导致触发线上代码BUG,从而导致服务故障。
20191106 Honeycomb 因为内存泄漏导致20min故障
原因比较简单,就是代码BUG导致内存泄漏,亮点是这个故障报告本身。