SRE生存指南:系统中断响应与正常运行时间最大化

SRE生存指南:系统中断响应与正常运行时间最大化 pdf epub mobi txt 电子书 下载 2025

出版者:电子工业出版社
作者:【美】纳特•韦尔奇(Nat Welch) 著
出品人:
页数:244页
译者:冯文辉 译
出版时间:2019-10
价格:79.00元
装帧:平装
isbn号码:9787121371769
丛书系列:
图书标签:
  • 运维
  • 计算机
  • 系统管理
  • 技术
  • 工作学习
  • SRE
  • IT
  • SRE
  • 可靠性工程
  • 系统运维
  • 故障排除
  • 事件响应
  • 高可用性
  • 性能优化
  • DevOps
  • 云计算
  • 监控
想要找书就要到 小美书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。

《SRE生存指南:系统中断响应与正常运行时间最大化》是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。

作者简介

Nat Welch是一名美国的软件开发人员。自2005年以来,他一直做着网站构建及运维的工作。他热爱网站的基础设施建设,因为这可以支持其他人的创造性努力。2012年,Nat成为谷歌的SRE(Site Reliability Engineering,站点可靠性工程)工程师,并爱上了这个职业。从那时起,他在各种规模的公司工作过,并一直致力于提高网站的可靠性,以帮助开发人员构建可靠的系统。

目录信息

1 简介 1
SRE简史 2
SRE是什么 3
关于这本书 7
以SRE作为新项目的框架 9
小结 12
2 监控 13
为什么要监控 13
检测应用程序 16
度量什么 23
SLI、SLO和错误预算简介 26
错误预算 27
收集和保存监控数据 29
轮询应用程序 29
推送应用程序 32
展示监控信息 35
任意查询 35
图表 36
仪表板 37
聊天机器人 38
管理和维护监控数据 38
沟通 39
他们知道有监控吗 39
小结 40
参考资料 40
3 事故响应 42
什么是事故 43
什么是事故响应 45
警报 47
什么时候发起警报 48
怎么发出警报 49
向谁发出警报 54
随时待命 55
沟通 57
事故指挥系统 59
在哪里沟通 61
恢复系统 61
警报解除 63
小结 64
4 事后回顾 65
什么是事后回顾 65
为什么写事后回顾报告 66
何时写事后回顾报告 68
开展事故分析 69
如何写事后回顾报告 71
总结 71
影响 72
时间 73
根本原因 74
行动项 75
附录 77
停止事后指责 77
举行事后回顾会议 79
分析以往的事后回顾报告 80
MTTR与MTBF 81
警报疲劳 81
讨论过去的服务中断 81
小结 82
参考资料 82
5 测试和发布 83
测试 84
测试内容 87
发布 100
何时发布 101
回滚 104
自动化 104
持续 105
小结 106
6 容量规划 107
企业财务简介 108
为什么需要规划 110
风险管理与期望管理 111
定义一个规划 112
当前的容量是多少 113
何时达到容量极限 115
应该如何更改容量 119
执行规划 125
架构——性能变化的根源 126
技术作为利润中心和采购 128
小结 128
7 构建工具 129
寻找项目 131
定义项目 133
RDD 133
设计文档 136
项目计划 138
例子 139
回顾会与站会 141
工作分配 142
构建项目 143
关于编写代码的建议 143
关注点分离 144
长期工作 145
笔记本 148
文档与维护项目 149
小结 150
8 用户体验 151
设计和用户体验简介 155
现实世界的交互设计 157
用户测试 160
挑选一种体验 161
设计测试 162
寻找要测试的人 162
开发者体验 163
工具经验 164
绩效预算 164
安全性 166
身份认证 167
授权 168
风险概况 168
网络钓鱼 169
ACM道德准则 170
小结 171
参考资料 172
9 网络基础 173
互联网 173
发送一个HTTP请求 175
DNS 175
以太网和TCP/IP 179
HTTP 186
curl与wget 189
网络监控工具 194
netstat 194
nc 195
tcpdump 196
小结 197
参考资料 197
10 Linux和云基础 198
Linux基础 198
一切皆是文件 199
进程是什么 206
syscalls 207
构建自己的工具 213
云基础 214
虚拟机 215
容器 216
负载均衡 218
自动伸缩 219
存储 219
队列与发布/订阅 220
伸缩单元 221
架构面试示例 222
小结 226
参考资料 226
· · · · · · (收起)

读后感

评分

评分

评分

评分

评分

用户评价

评分

整本书泛泛而谈吧, 提供了一些方法论的概述, 当做故事书读读看可能还行

评分

整本书泛泛而谈吧, 提供了一些方法论的概述, 当做故事书读读看可能还行

评分

作者为Google前SRE,书本内容比较泛也相对简单,适合一个企业从无到有建立SRE角色和团队做参考,也适合要成为SRE工程师的伙伴建立全局认识,不愧为“生存指南”的定位。书本框架还可以,主要是采用了Mikey金字塔内容展开。(BTW这就成了此书豆瓣第一个评论?)

评分

整本书泛泛而谈吧, 提供了一些方法论的概述, 当做故事书读读看可能还行

评分

整本书泛泛而谈吧, 提供了一些方法论的概述, 当做故事书读读看可能还行

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美书屋 版权所有