dd-monitors
द्वारा datadog-labs
मॉनिटर प्रबंधन - बनाना, अपडेट करना, म्यूट करना और अलर्टिंग के सर्वोत्तम अभ्यास।
npx skills add https://github.com/datadog-labs/pup --skill dd-monitorsDatadog Monitors
Create, manage, and maintain monitors for alerting.
Prerequisites
This requires the pup binary in your path.
pup - cargo install --git https://github.com/DataDog/pup
Quick Start
pup auth login
Common Operations
List Monitors
pup monitors list
pup monitors list --tags "team:platform"
pup monitors search --query "status:Alert"
Get Monitor
pup monitors get <id>
Create Monitor
pup monitors create --file monitor.json
Mute/Unmute
# Mute with duration
pup monitors update 12345 --file monitor-muted.json
# Or mute with specific end time
pup monitors update 12345 --file monitor-muted-until.json
# Unmute
pup monitors update 12345 --file monitor-unmuted.json
⚠️ Monitor Creation Best Practices
1. Avoid Alert Fatigue
| Rule | Why |
|---|---|
| No flapping alerts | Use last_Xm not last_1m |
| Meaningful thresholds | Based on SLOs, not guesses |
| Actionable alerts | If no action needed, don't alert |
| Include runbook | @runbook-url in message |
# WRONG - will flap constantly
query = "avg(last_1m):avg:system.cpu.user{*} > 50" # ❌ Too sensitive
# CORRECT - stable alerting
query = "avg(last_5m):avg:system.cpu.user{env:prod} by {host} > 80" # ✅ Reasonable window
2. Use Proper Scoping
# WRONG - alerts on everything
query = "avg(last_5m):avg:system.cpu.user{*} > 80" # ❌ No scope
# CORRECT - scoped to what matters
query = "avg(last_5m):avg:system.cpu.user{env:prod,service:api} by {host} > 80" # ✅
3. Set Recovery Thresholds
monitor = {
"query": "avg(last_5m):avg:system.cpu.user{env:prod} > 80",
"options": {
"thresholds": {
"critical": 80,
"critical_recovery": 70, # ✅ Prevents flapping
"warning": 60,
"warning_recovery": 50
}
}
}
4. Include Context in Messages
message = """
## High CPU Alert
Host: {{host.name}}
Current Value: {{value}}
Threshold: {{threshold}}
### Runbook
1. Check top processes: `ssh {{host.name}} 'top -bn1 | head -20'`
2. Check recent deploys
3. Scale if needed
@slack-ops @pagerduty-oncall
"""
⚠️ NEVER Delete Monitors Directly
Use safe deletion workflow (same as dashboards):
def safe_mark_monitor_for_deletion(monitor_id: str, client) -> bool:
"""Mark monitor instead of deleting."""
monitor = client.get_monitor(monitor_id)
name = monitor.get("name", "")
if "[MARKED FOR DELETION]" in name:
print(f"Already marked: {name}")
return False
new_name = f"[MARKED FOR DELETION] {name}"
client.update_monitor(monitor_id, {"name": new_name})
print(f"✓ Marked: {new_name}")
return True
Monitor Types
| Type | Use Case |
|---|---|
metric alert | CPU, memory, custom metrics |
query alert | Complex metric queries |
service check | Agent check status |
event alert | Event stream patterns |
log alert | Log pattern matching |
composite | Combine multiple monitors |
apm | APM metrics |
Audit Monitors
# Find monitors without owners
pup monitors list | jq '.[] | select(.tags | contains(["team:"]) | not) | {id, name}'
# Find noisy monitors (high alert count)
pup monitors list | jq 'sort_by(.overall_state_modified) | .[:10] | .[] | {id, name, status: .overall_state}'
Downtime vs Muting
| Use | When |
|---|---|
| Mute monitor | Quick one-off, < 1 hour |
| Downtime | Scheduled maintenance, recurring |
# Downtime (preferred)
pup downtime create --file downtime.json
Failure Handling
| Problem | Fix |
|---|---|
| Alert not firing | Check query returns data, thresholds |
| Too many alerts | Increase window, add recovery threshold |
| No data alerts | Check agent connectivity, metric exists |
| Auth error | pup auth refresh |
References
datadog-labs की और Skills
agent-install
datadog-labs
agent-install — डेटाडॉग-लैब्स/एजेंट-स्किल्स द्वारा प्रकाशित, AI एजेंटों के लिए एक इंस्टॉल करने योग्य स्किल।
official
agent-skills
datadog-labs
AI एजेंटों के लिए Datadog कौशल। आवश्यक निगरानी, लॉगिंग, ट्रेसिंग और अवलोकनीयता।
official
dd-apm
datadog-labs
एपीएम - इंस्टॉल करें, ऑनबोर्ड करें, इंस्ट्रूमेंट करें, सक्षम करें, सेट अप करें, कॉन्फ़िगर करें, ट्रेस, सेवाएँ, निर्भरताएँ, प्रदर्शन विश्लेषण। Datadog APM से संबंधित किसी भी अनुरोध के लिए उपयोग करें…
official
dd-audit
datadog-labs
ऑडिट ट्रेल जांच - किसने क्या बदला, कुंजी समझौता, लागत वृद्धि का मूल कारण, अनुपालन साक्ष्य (SOC 2/PCI), और AI गतिविधि ऑडिटिंग।
official
dd-audit-ai-activity
datadog-labs
जाँच करें कि Bits AI सहायक (MCP सर्वर) ने आपके Datadog संगठन में क्या किया है — उपयोगकर्ता द्वारा टूल कॉल, एक्सेस किए गए संसाधन, और AI शासन के लिए विसंगति फ़्लैग।
official
dd-audit-compliance-report
datadog-labs
Datadog ऑडिट ट्रेल से SOC 2 और PCI DSS के लिए ऑडिटर-तैयार अनुपालन साक्ष्य उत्पन्न करें। फ्रेमवर्क नियंत्रणों को विशिष्ट क्वेरी पैटर्न से मैप करता है और उत्पन्न करता है…
official
dd-audit-cost-spike-investigation
datadog-labs
Datadog उत्पाद उपयोग या लागत में वृद्धि की जांच करें, उपयोग मीटरिंग डेटा (कब/क्या बढ़ा) को ऑडिट ट्रेल कॉन्फ़िगरेशन परिवर्तनों (किसने क्या बदला...) से संबंधित करके।
official
dd-audit-key-compromise
datadog-labs
संभावित रूप से समझौता किए गए Datadog API कुंजी की जांच करें — कार्रवाइयों की समयरेखा, भौगोलिक/IP विवरण, कॉल किए गए एंडपॉइंट, विसंगति फ़्लैग और सुधारात्मक कदम।
official