【運用監視】AWS大規模障害(2025年10月) - j-komatsu/myCheatSheet GitHub Wiki
【運用監視】AWS大規模障害(2025年10月)
📋 概要
発生日時: 2025年10月20日(月)16:11 JST(現地時間: 2025年10月20日 0:11 PDT) 影響範囲: AWS US-EAST-1リージョン(米バージニア北部)を中心とした大規模障害 復旧完了: 2025年10月21日(火)07:00 JST(主要サービス) 影響時間: 約15時間
この障害により、グローバルで数千の企業・サービスが影響を受け、日本国内でも多くのゲーム、業務システム、ECサイト、スマートデバイスが利用不可となりました。
⏱️ 時系列(日本時間)
| 日時(JST) | 出来事 |
|---|---|
| 10/20 16:11 | AWS Health Dashboardで「US-EAST-1リージョンで複数サービスのエラー率上昇と遅延」を検知。EC2、Lambda、DynamoDB等で障害が連鎖開始 |
| 10/20 16:10〜16:20 | 国内メディア(ITmedia等)が速報。「20サービスが停止・遅延、Zoomや任天堂のサービスにも影響」と報道 |
| 10/20 16:10頃 | 日本国内でサービス影響が顕在化開始- 任天堂: Nintendo Switch Onlineで接続障害- Skeb: メール配信不具合を公式発表- 各種ゲーム: Fortnite、Roblox等でログイン不可 |
| 10/20 18:01 | AWSが「根本原因を特定、復旧作業中」と更新 |
| 10/20 18:22〜18:35 | ThousandEyesが段階的な回復の兆候を観測(ただし完全復旧ではない) |
| 10/20 夜〜深夜 | 国内で業務システム・EC・アプリでアクセス遅延/ログイン不能の報告がSNSで拡大 |
| 10/20 22:40頃 | 任天堂が「ネットワークサービス復旧」を公式発表 |
| 10/21 06:00 | ITmedia「原因特定も完全復旧に至らず」と続報 |
| 10/21 07:00 | AWS「通常運用へ回復」と発表(ロイター/ブルームバーグも報道)※一部サービスでバックログ継続 |
| 10/24 | AWSが謝罪と再発防止策を発表 |
🔍 原因
直接原因
-
Network Load Balancer (NLB) のヘルスモニタリングサブシステム異常
- US-EAST-1リージョン内のNLBで障害発生
- 内部通信・トラフィック分散機構に波及
-
内部DNS障害
- DynamoDB APIエンドポイント向けの内部DNS解決が失敗
- アプリケーションが「どのサーバに接続すべきか」を判断できず
-
連鎖的な障害拡大
- コントロールプレーンとデータプレーンの両方が影響
- EC2、Lambda、CloudWatch等のコアサービスが連鎖的に停止
根本原因
-
単一リージョン依存のリスク顕在化
- US-EAST-1はAWS最大級のリージョンで、多くのサービスがデフォルト使用
- マルチAZ構成でも、リージョンレベルの内部通信障害には無力
-
サイバー攻撃ではない
- 技術的・構成上の内部不具合(AWS公式、各種報道で確認済み)
🇯🇵 日本国内への影響
1. ゲーム・エンターテインメント
| サービス | 影響内容 | 時刻 |
|---|---|---|
| Nintendo Switch Online | ネットワークサービス全般が停止 | 16:00頃〜22:40頃 |
| Fortnite | ログイン不可、接続不調 | 16:11頃〜 |
| Roblox | 接続不調 | 16:11頃〜 |
| ELDEN RING NIGHTREIGN | 接続不調 | 16:11頃〜 |
| パルワールド | ログイン不可 | 16:11頃〜 |
| Skeb(クリエイター向け) | メール配信停止 | 16:10頃〜 |
2. IoT・スマートデバイス
| サービス | 影響内容 |
|---|---|
| Furbo(ペットカメラ) | サーバーエラーによるログイン不可 |
| スマートホーム機器 | 接続断の報告 |
3. 業務システム・ECサイト
- ITmediaブログの報告: 国内のAWS上の業務システム・ECサイト・アプリでアクセス遅延やログイン不能の報告がSNS上で相次ぐ
- 具体的な社名の公開は限定的だが、認証・通知・課金・分析などのSaaS連携が米国リージョン経由の場合、影響を受けた
4. その他サービス
- 銀行アプリ: アクセス遅延の報告
- 暗号資産取引所: 一部で取引停止
- SNS: 接続不調
- 決済サービス(Venmo等): グローバルで影響
影響の特徴(日本視点)
✅ 就業時間内に発生
- 16時台〜夜にかけて障害が発生したため、B2B/B2C双方で運用影響が大きかった
✅ US-EAST-1依存の間接的影響
- 自社サーバーが東京リージョンでも、外部SaaS(認証、通知、課金等)がUS-EAST-1経由の場合、ユーザー体験が毀損
✅ 復旧後もバックログ残存
- 復旧宣言後も再送・遅延・再起動ループ等が継続し、完全な平常化には時間差が発生
📊 影響規模
| 項目 | 詳細 |
|---|---|
| 影響企業数 | 数千社 |
| 影響サービス | 20以上のAWSコアサービス |
| 主要影響サービス | EC2、Lambda、DynamoDB、CloudWatch、ELB、S3等 |
| グローバル影響 | Snapchat、Zoom、Venmo、航空会社チェックインシステム等 |
💡 技術的教訓
1. リージョン設計の見直し
❌ 問題
単一リージョン(US-EAST-1のみ)
└─ リージョン全体の障害で全サービス停止
✅ 対策
マルチリージョン構成
├─ US-EAST-1(Primary)
└─ US-WEST-2(Secondary/DR)
または
マルチクラウド構成
├─ AWS(Primary)
└─ Azure/GCP(Secondary)
2. 依存関係の可視化
重要な気づき:
- マルチAZ構成でも、リージョンレベルの内部通信(DNS、NLB等)障害には無力
- コントロールプレーン(管理機能)の障害は、データプレーン(実行環境)にも波及
対策:
graph TD
A[自社アプリケーション] --> B[認証サービス]
A --> C[決済API]
A --> D[通知サービス]
B --> E{AWS US-EAST-1}
C --> E
D --> E
style E fill:#f99,stroke:#333,stroke-width:4px
- 外部SaaS/APIのリージョン依存を洗い出す
- 単一障害点(SPOF)の特定
3. フェイルオーバー戦略
| 戦略 | 実装例 |
|---|---|
| DNSフェイルオーバー | Route 53で正常なリージョンへ自動切り替え |
| グレースフルデグレード | 重要機能のみ継続、一部機能を一時停止 |
| サーキットブレーカー | 異常検知時に自動的に別経路へ切り替え |
4. SLI/SLO/SLAの定義
SLI(Service Level Indicator):
- API可用性: 99.9%
- レスポンスタイム: 95%ile < 200ms
SLO(Service Level Objective):
- 月間ダウンタイム: < 43.2分(99.9%)
SLA(Service Level Agreement):
- 顧客向け保証: 99.5%以上
- 違反時の補償条件
🛡️ 再発防止策(エンジニア/PM視点)
即座に実施すべきこと
-
現在のアーキテクチャレビュー
- 使用しているAWSリージョンの棚卸し
- US-EAST-1への依存度確認
- 外部SaaSのリージョン確認
-
障害シミュレーション
- Chaos Engineering(障害注入テスト)
- リージョン停止時の影響範囲確認
- RTO/RPOの現実的な検証
-
モニタリング強化
- AWS Health Dashboard監視の自動化
- 複数リージョンのヘルスチェック
- 外部監視サービス(ThousandEyes等)の導入
中長期的な対策
graph LR
A[現状分析] --> B[リスク評価]
B --> C{対策選択}
C -->|低コスト| D[マルチAZ強化]
C -->|中コスト| E[マルチリージョン]
C -->|高コスト| F[マルチクラウド]
D --> G[継続的改善]
E --> G
F --> G
-
マルチリージョン戦略
- アクティブ/パッシブ構成
- アクティブ/アクティブ構成(コスト高だが可用性最大)
-
データ同期戦略
- DynamoDB Global Tables
- Aurora Global Database
- S3 Cross-Region Replication
-
BCP(事業継続計画)の整備
- 障害時の対応フロー文書化
- エスカレーションパス明確化
- 顧客コミュニケーション計画
📚 参考資料
- AWS Service Health Dashboard
- ITmedia - AWS障害関連報道(2025年10月)
- ThousandEyes - AWS US-EAST-1 Outage Analysis
- 任天堂公式サポート - ネットワークサービス障害情報
- Furboヘルプセンター - サーバーエラー告知
🔗 関連トピック
- 【運用監視】Datadog - クラウド監視ツール
- 【運用監視】日本国内の大規模システム障害事例集 - 過去の障害事例
- 【クラウド】【AWS】クラウド操作チートシート(AWS編) - AWS運用のベストプラクティス
- 【アーキテクチャ】マイクロサービスアーキテクチャ - 障害の影響範囲を限定する設計
- 【プロジェクト管理】SRE(Site Reliability Engineering) - 信頼性エンジニアリング
📝 チェックリスト(自社システム向け)
緊急度:高
- 現在使用しているAWSリージョンを確認
- US-EAST-1への依存度を評価
- 単一リージョン障害時の影響範囲を特定
- AWS Health Dashboard監視の自動化
緊急度:中
- マルチリージョン構成の検討・設計
- フェイルオーバー手順の文書化
- 障害シミュレーションの実施
- SLI/SLO/SLAの見直し
緊急度:低(中長期)
- マルチクラウド戦略の検討
- Chaos Engineeringの導入
- インシデント対応訓練の定期実施
- BCP文書の整備・更新
📝 作成日: 2025-10-25 📝 最終更新: 2025-10-25