Datadogについて - j-komatsu/myCheatSheet GitHub Wiki

Datadogについて

1. Datadogとは？

読み方：データドッグ

Datadogは、クラウド環境やオンプレミスのインフラ、アプリケーションの監視・分析・可視化を行うSaaS型の統合モニタリングツールです。

特徴	説明
リアルタイム監視	サーバー、コンテナ、ネットワーク、アプリのメトリクスをリアルタイムで収集・分析
ログ管理	ログを収集・解析し、問題の特定やトラブルシューティングを支援
分散トレーシング	マイクロサービスのリクエストをエンドツーエンドで追跡
ダッシュボード	カスタマイズ可能な視覚的なダッシュボードを提供
アラート機能	異常値検知し、Slackやメールで通知
統合性	AWS、GCP、Azureなどのクラウドと連携が可能

初学者向け説明

Datadogは、システムの健康状態を監視するための「体温計」のようなものです。例えば、Webアプリを運営していて「遅くなった」「エラーが出る」などの問題が起きたとき、Datadogを使うとどこに原因があるかを素早く見つけられます。

2. Datadogの構成要素

Datadogは以下のコンポーネントで構成されます。

flowchart TD;
    A[Datadog] -->|メトリクス収集| B[エージェント]
    A -->|ログ管理| C[ログ解析]
    A -->|分散トレーシング| D[APM]
    A -->|ダッシュボード| E[可視化ツール]
    A -->|アラート| F[通知機能]

3. Datadogの導入

3.1 インストール（Linux環境）

DD_AGENT_MAJOR_VERSION=7 \
DD_API_KEY=<YOUR_API_KEY> \
DD_SITE="datadoghq.com" \
bash -c "$(curl -L https://s3.amazonaws.com/dd-agent/scripts/install_script.sh)"

3.2 Windows環境でのインストール

公式サイトからインストーラーをダウンロード
APIキーを設定
Datadogエージェントを起動

4. Datadogの基本的な利用方法

4.1 メトリクスの可視化

Webダッシュボードで監視対象のメトリクスを選択
フィルターを設定して特定のサーバーやサービスを監視
グラフやアラートを追加

4.2 アラート設定

Conditions（条件）: CPU使用率が80%以上になったらアラート発動
通知方法: Slack、メール、PagerDuty など
設定例（CPU使用率が80%を超えた場合）

monitor:
  name: "High CPU Usage"
  type: "metric alert"
  query: "avg(last_5m):avg:system.cpu.user > 80"
  message: "@pagerduty CPU usage is too high!"
  tags:
    - "env:production"

5. Datadogの活用例

5.1 アプリのログ監視

import logging
from datadog import initialize, api

options = {
    'api_key': '<YOUR_API_KEY>',
    'app_key': '<YOUR_APP_KEY>'
}
initialize(**options)

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("my_application")
logger.info("This is a test log!")

5.2 Kubernetes 監視

helm repo add datadog https://helm.datadoghq.com
helm install my-datadog-agent datadog/datadog --set datadog.apiKey=<YOUR_API_KEY>

6. まとめ

Datadogは、システムの状態をリアルタイムで監視し、問題の早期発見を助けるツールです。

初心者向けポイント
- 「システムの健康診断」をするツール
- ログ、メトリクス、エラーの可視化が簡単
専門家向けポイント
- KubernetesやAWSとの統合がスムーズ
- カスタムメトリクス、分散トレーシングに対応

Datadogを活用して、運用の安定化を図りましょう！