dd-monitors

作成者: datadog-labs

モニター管理 - 作成、更新、ミュート、およびアラートのベストプラクティス。

npx skills add https://github.com/datadog-labs/pup --skill dd-monitors

Datadog Monitors

Create, manage, and maintain monitors for alerting.

Prerequisites

This requires the pup binary in your path.

pup - cargo install --git https://github.com/DataDog/pup

Quick Start

pup auth login

Common Operations

List Monitors

pup monitors list
pup monitors list --tags "team:platform"
pup monitors search --query "status:Alert"

Get Monitor

pup monitors get <id>

Create Monitor

pup monitors create --file monitor.json

Mute/Unmute

# Mute with duration
pup monitors update 12345 --file monitor-muted.json

# Or mute with specific end time
pup monitors update 12345 --file monitor-muted-until.json

# Unmute
pup monitors update 12345 --file monitor-unmuted.json

⚠️ Monitor Creation Best Practices

1. Avoid Alert Fatigue

RuleWhy
No flapping alertsUse last_Xm not last_1m
Meaningful thresholdsBased on SLOs, not guesses
Actionable alertsIf no action needed, don't alert
Include runbook@runbook-url in message
# WRONG - will flap constantly
query = "avg(last_1m):avg:system.cpu.user{*} > 50"  # ❌ Too sensitive

# CORRECT - stable alerting
query = "avg(last_5m):avg:system.cpu.user{env:prod} by {host} > 80"  # ✅ Reasonable window

2. Use Proper Scoping

# WRONG - alerts on everything
query = "avg(last_5m):avg:system.cpu.user{*} > 80"  # ❌ No scope

# CORRECT - scoped to what matters
query = "avg(last_5m):avg:system.cpu.user{env:prod,service:api} by {host} > 80"  # ✅

3. Set Recovery Thresholds

monitor = {
    "query": "avg(last_5m):avg:system.cpu.user{env:prod} > 80",
    "options": {
        "thresholds": {
            "critical": 80,
            "critical_recovery": 70,  # ✅ Prevents flapping
            "warning": 60,
            "warning_recovery": 50
        }
    }
}

4. Include Context in Messages

message = """
## High CPU Alert

Host: {{host.name}}
Current Value: {{value}}
Threshold: {{threshold}}

### Runbook
1. Check top processes: `ssh {{host.name}} 'top -bn1 | head -20'`
2. Check recent deploys
3. Scale if needed

@slack-ops @pagerduty-oncall
"""

⚠️ NEVER Delete Monitors Directly

Use safe deletion workflow (same as dashboards):

def safe_mark_monitor_for_deletion(monitor_id: str, client) -> bool:
    """Mark monitor instead of deleting."""
    monitor = client.get_monitor(monitor_id)
    name = monitor.get("name", "")
    
    if "[MARKED FOR DELETION]" in name:
        print(f"Already marked: {name}")
        return False
    
    new_name = f"[MARKED FOR DELETION] {name}"
    client.update_monitor(monitor_id, {"name": new_name})
    print(f"✓ Marked: {new_name}")
    return True

Monitor Types

TypeUse Case
metric alertCPU, memory, custom metrics
query alertComplex metric queries
service checkAgent check status
event alertEvent stream patterns
log alertLog pattern matching
compositeCombine multiple monitors
apmAPM metrics

Audit Monitors

# Find monitors without owners
pup monitors list | jq '.[] | select(.tags | contains(["team:"]) | not) | {id, name}'

# Find noisy monitors (high alert count)
pup monitors list | jq 'sort_by(.overall_state_modified) | .[:10] | .[] | {id, name, status: .overall_state}'

Downtime vs Muting

UseWhen
Mute monitorQuick one-off, < 1 hour
DowntimeScheduled maintenance, recurring
# Downtime (preferred)
pup downtime create --file downtime.json

Failure Handling

ProblemFix
Alert not firingCheck query returns data, thresholds
Too many alertsIncrease window, add recovery threshold
No data alertsCheck agent connectivity, metric exists
Auth errorpup auth refresh

References

datadog-labsのその他のスキル

agent-install
datadog-labs
agent-install — datadog-labs/agent-skills が公開する、AIエージェント用のインストール可能なスキルです。
official
agent-skills
datadog-labs
AIエージェント向けのDatadogスキル。必須のモニタリング、ロギング、トレーシング、および可観測性。
official
dd-apm
datadog-labs
APM - インストール、オンボーディング、インスツルメンテーション、有効化、セットアップ、設定、トレース、サービス、依存関係、パフォーマンス分析。Datadog APMに関するあらゆるリクエストに使用します…
official
dd-audit
datadog-labs
監査証跡の調査 - 誰が何を変更したか、鍵の侵害、コスト急増の根本原因、コンプライアンス証拠(SOC 2/PCI)、およびAIアクティビティの監査。
official
dd-audit-ai-activity
datadog-labs
Bits AIアシスタント(MCPサーバー)がDatadog組織内で行ったアクションを監査します — ユーザーごとのツール呼び出し、アクセスされたリソース、AIガバナンスのための異常フラグ。
official
dd-audit-compliance-report
datadog-labs
Datadog Audit TrailからSOC 2およびPCI DSSに対応した監査対応のコンプライアンス証跡を生成します。フレームワークのコントロールを特定のクエリパターンにマッピングし、…
official
dd-audit-cost-spike-investigation
datadog-labs
Datadogの製品使用量やコストの急増を調査するために、使用量計測データ(いつ、何が急増したか)と監査証跡の設定変更(誰が何を変更したか)を関連付けます。
official
dd-audit-key-compromise
datadog-labs
潜在的に侵害されたDatadog APIキーを調査 — アクションのタイムライン、地理/IPの内訳、呼び出されたエンドポイント、異常フラグ、および修復手順。
official