System Administration - yusukew62/docs GitHub Wiki

System Administration

1.障害対応

1-1.障害発生時

  • 障害発覚後は、影響範囲(最悪概算で良い)・影響内容・問い合わせ状況を至急確認し、上司へ報告する
  • 自責障害の場合は、復旧を優先し、平行して障害連絡先へ障害連絡を行う
  • 他責障害の場合は、担当営業へ連絡し、営業がいない場合はサポート窓口への問い合わせ障害掲示板を確認する

1-2.障害復旧後

  • 障害報告に必要な情報を整理し、障害報告書にまとめる
  • 影響範囲・影響数などの数字は、後の議論に必要な情報となるため、正確に出す
  • 暫定対応は、対応を判断した根拠と、対応後の経過状況を説明できるようにする
  • 恒久対応は、再発防止策を挙げ、再発しない根拠といつまでに実現できるかを説明できるようにする
  • 他のサービスやシステムでも同様の事象が起きないよう、横展開する(忘れがち)

1-3.FAQ

2.メンテナンス

2-1.事前準備

  • 当日のスケジュールは紙で印刷する
    → 複数人で実績の記入や進捗状況の確認を行えるようにするため
  • 当日進捗報告を行う予実メールを事前に作成しておく

3.保守

  • 年間の保守の相場は下記のとおり
  • 基本的に24/365の半額が9:00-17:00になると思って良い
機器 24/365 9:00-17:00
サーバ 10-20万円 5-10万円 OS, HW
アプライアンス 40-50万円 20-25万円 Paloalto
NW機器 2-3万円 1-1.5万円 HW(configを流して終わりなため廉価)
ストレージ 20-40万円 10-20万円 3PAR

4.チーム

4-1.team Geakより

  • 自分が成長したいことを得意な人や実現したいと思っている人と一緒にやる
  • 失敗を文書化する
    → 何を学んだか、何を変更するか
  • 謙虚に新しいことに挑戦していく
  • 失敗は早い段階で行い、学習の機会とする

5.会議

  • 打ち合わせメモは、社内フォーマットの議事録で取るようにする(訓練になる)
  • 参加した会議は、一度は自分の意見や提案を言う