blog

SREcon18 Americas 我的推荐清单

Author: ninehills
Labels: blog done
Created: 2018-06-02T04:54:54Z
Link and comments: https://github.com/ninehills/blog/issues/63

SREcon18 Americas 最近放出了视频资料，我整理后，觉得值得看的 Talk 如下：

听力不好的同学（比如我），推荐打开 Youtube 自动生成的英文字幕。
部分主题没有被列入，选题和推荐指数纯属个人口味偏好，没有任何原因。很多我都还来得及看，只是匆匆扫了几眼，难免有错误和疏漏，欢迎回复指出。

1. [Workshop] Containers from Scratch ⭐️⭐️⭐️⭐️

Workshop 是动手环节，这个主题是让你从头实现容器，对理解容器的原理很有帮助。

详细的动手步骤，请参考 https://github.com/Fewbytes/rubber-docker
动手前，可以先读下PPT: Linux Primitives

2. [Workshop] How to Build a Distributed System in 3 Hours ⭐️⭐️⭐️

这个 Workshop 来自 Google，让你在三小时内设计一个 N+2 的多地域分布式系统，难度系数很高。建议学过 MIT 6.824 后再来看这个。

3. [Workshop] Ansible for SRE Teams ⭐️⭐️⭐️

就是一个 Ansible 实战指南，对 Ansible 感兴趣的可以了解下：https://github.com/Eronarn/deploying-applications-with-ansible。

从我个人的角度，我觉得中小规模的公司，使用 Ansible 自动化是一个相当不错的选择。

4. [Workshop]Tech Writing 101 for SREs ⭐️⭐️

如何写技术文章，如故障报告、文档之类，参考 https://lisafc.github.io/tw101-reading/ ，不过这种文章得翻译下才行。

5. [Workshop]Chaos Engineering Bootcamp ⭐️⭐️

Netflix 的 Chaos Engineering 也算是一个招牌了，就和 Baidu 的 AIOps 一样，有兴趣的可以看看。

6. If You Don’t Know Where You’re Going, It Doesn’t Matter How Fast You Get There ⭐️⭐️⭐️

偏向 IT 团队管理，介绍怎么评价效能，设定目标等。比如对变更，他提出了四个指标：部署频率应该 on demand、全量部署耗时 < 1h、MTTR < 1h、变更导致服务异常率 < 15%。

对于需要带领一个运维团队的同学，建议观看。

7. Stable and Accurate Health-Checking of Horizontally-Scaled Services ⭐️⭐️⭐️⭐️

对大规模水平扩展的服务，怎么做稳定而又精确的健康检查？做过相关事情的同学应该有所体会，这个问题并没有看起来那么简单。推荐有类似困扰或对分布式系统监控有兴趣的同学了解下。

8. Don’t Ever Change! Are Immutable Deployments Really Simpler, Faster, and Safer? ⭐️⭐️⭐️

最早的服务部署，基本都是原地更新（增量或者全量），而在容器化时代，部署方式变成了创建-销毁-重新创建模式，容器部署后不再改变，只有销毁重建。所以题目才说现在是 Immutable Deployments，但是这种部署方式真的可以更加简单、快速和安全么？

9. Lessons Learned from Our Main Database Migrations at Facebook ⭐️⭐️

用 Facebook 自己的经历推荐他们的 MyRocks （需要翻墙），基于 RocksDB 引擎的 MySQL。对分布式的关系数据库有兴趣的，可以看看。

10. Leveraging Multiple Regions to Improve Site Reliability: Lessons Learned from Jet.com ⭐️⭐️⭐️

多地域实践经验总结，比较实用。

11. Lessons Learned from Five Years of Multi-Cloud at PagerDuty ⭐️⭐️

PageDuty 的 Multi-Cloud 实践，有兴趣的可以看。

12. Help Protect Your Data Centers with Safety Constraints ⭐️⭐️⭐️⭐️⭐️

讲述了 Google 如何控制变更引入的风险，思路比较新颖，提出了使用一个 sanity check API 来对变更进行管控。

13. Real World SLOs and SLIs: A Deep Dive ⭐️⭐️

讲述了一些现实场景下的SLO和SLI的设定的例子，对不知道怎么给自己服务设定的，可以参考下。

14. Learning at Scale Is Hard! Outage Pattern Analysis and Dirty Data ⭐️⭐️

使用机器学习的方法进行故障诊断的一些探索性的想法。

15. Containerization War Stories ⭐️

Pinterest 容器化碰到的一些坑。

16. Monitoring DNS with Open-Source Solutions ⭐️⭐️

其实就是对开源监控系统的一个评测。

Data Collection: Packetbeat, Collectd, DSC, Fievel, and GoPassiveDNS
DB engines: Prometheus, Druid, ClickHouse, InfluxDB, ElasticSearch, and OpenTSDB
Visualization: Kibana, Grafana, and Graphite Web

17. Security as a Service ⭐️

安全即服务，嘛我不是安全团队的，不感兴趣。

18. “Capacity Prediction” instead of “Capacity Planning”: How Uber Uses ML to Accurately Forecast Resource Utilization ⭐️⭐️⭐️

Uber 使用机器学习进行“容量预测”，取代以前的“容量规划”的一些探索。容量很复杂，这个仅仅是一个探索方向。

19. Distributed Tracing, Lessons Learned ⭐️

分布式 Trace 的一些心得。

20. Know Thy Enemy: How to Prioritize and Communicate Risks ⭐️⭐️⭐️

认识和管理风险，这个是 Google CRE 团队的入门文章。看过《Google SRE》的就会发现大部分书里都提过。

21. Building Shopify’s PaaS on Kubernetes ⭐️

K8s 实战经验<_<

22. Automatic Metric Screening for Service Diagnosis ⭐️⭐️⭐️⭐️

陈老师的故障根因诊断！

23. Approaching the Unacceptable Workload Boundary ⭐️⭐️

关于容量和工作负载的文章，如果你对性能瓶颈、压测感兴趣，可以看看。