op - meetbill/op_practice_book GitHub Wiki

运维

运维是以服务为中心,以稳定、安全、高效为三个基本点,确保公司的业务能够 7×24 小时为用户提供高质量的服务。

加上成本的话,总的来说就是质量(高)、安全(风险)、效率(快)、成本(低)

1 运维目标

  • 稳定
    • 可用性
  • 安全
  • 高效(运维效率能够看到运维平台化的能力)
    • 故障(发现,定位,处理)
    • 资源交付(提供虚拟机等等)
    • 变更(扩容)
  • 成本低
    • 服务器
    • 带宽
    • 人力

2 运维业务区别

to C 和 to B 业务因为场景需求不通,所以侧重点的不同

  • to C 的业务更多是运维人员本身维护服务,基本上有成型的运维平台以及工单平台进行管理
  • to B 的业务更多是用户 / 代理商 / 公司的技术支持维护服务

2.1 to B 运维

那么 to B 的运维在做什么事情尼?就是如何将一件复杂的事情变得【简单】而且【可控】,比如部署,升级,做到可执行性简单和流程性可控。

  • 可执行性简单
    • 【二义性】(就是一个任务不能有既能 A 方法完成,也能 B 方法完成)
    • 【交叉性】(不能说执行了 5 步骤后跳到 3 步骤)
  • 流程性可控
    • 【所有的操作可拆分为小的任务】
    • 【每个小的任务有问题时有对应的解决方法】

输出的工具为

  • 部署工具
  • 升级工具
  • 巡检工具

3 自动化平台

运维这个行当,需要相关系统的支持,提高工作效率,提高稳定性

  • 发布之前:版本管理系统,比如 gitlab、编译打包平台、制品管理仓库
  • 发布中:机器管理分组系统,部署系统,大文件分发工具
  • 发布之后:监控系统,资源利用率平台
  • 日常工作:初始化平台来初始化操作系统,跳板机、堡垒机控制登录,工单系统等等

4 故障处理

4.1 故障处理生命周期

发现->定位->止损->学习改进

4.2 故障处理的几个原则

  • 原则一:先通告,后止损
  • 原则二:优先止损,后查根因
  • 原则三:凡故障比查根因,推动根除
  • 原则四:及时复盘