dd-apm

APM - dấu vết, dịch vụ, phụ thuộc, phân tích hiệu suất.

npx skills add https://github.com/datadog-labs/pup --skill dd-apm

Datadog APM

Distributed tracing, service maps, and performance analysis.

Requirements

Datadog Labs Pup should be installed via:

brew tap datadog-labs/pack
brew install pup

Quick Start

pup auth login
pup apm services list --env production
pup traces search --query="service:api-gateway" --from="1h"

Services

List Services

--env is required for all apm services commands.

pup apm services list --env production
pup apm services list --env staging

Service Statistics

pup apm services stats --env production
pup apm services stats --env production --from 4h

Service Operations and Resources

# List operations for a service
pup apm services operations --env production --service api-gateway

# List resources (endpoints) for an operation
pup apm services resources --env production --service api-gateway --name http.request

Service Dependencies

pup apm dependencies list --env production

Flow Map

# View service flow map (--query and --env required)
pup apm flow-map --query "service:api-gateway" --env production

Traces

Traces are searched via the top-level traces command (not under apm).

Important: APM durations are in nanoseconds: 1 second = 1,000,000,000 ns.

Search Traces

# By service
pup traces search --query="service:api-gateway" --from="1h"

# Errors only
pup traces search --query="service:api-gateway status:error" --from="1h"

# Slow traces (>1 second = 1000000000 ns)
pup traces search --query="service:api-gateway @duration:>1000000000" --from="1h"

# With specific tag
pup traces search --query="service:api @http.url:/api/users" --from="1h"

Aggregate Traces

# Average duration by resource
pup traces aggregate \
  --query="service:api-gateway" \
  --compute="avg(@duration)" \
  --group-by="resource_name" \
  --from="1h"

# Error count by service
pup traces aggregate \
  --query="status:error" \
  --compute="count" \
  --group-by="service" \
  --from="1h"

# p99 latency
pup traces aggregate \
  --query="service:api-gateway" \
  --compute="percentile(@duration, 99)" \
  --from="1h"

Key Metrics

MetricWhat It Measures
trace.http.request.hitsRequest count
trace.http.request.durationLatency
trace.http.request.errorsError count
trace.http.request.apdexUser satisfaction

⚠️ Trace Sampling

Not all traces are kept. Understand sampling:

ModeWhat's Kept
Head-basedRandom % at start
Error/SlowAll errors, slow traces
RetentionWhat's indexed (billed)

Trace Retention Costs

RetentionCost
Indexed spans$$$ per million
Ingested spans$ per million

Best practice: Only index what you need for search.

Service Level Objectives

Link APM to SLOs:

pup slos create --file slo.json

Common Queries

GoalQuery
Slowest endpointspup traces aggregate --query="service:api" --compute="avg(@duration)" --group-by="resource_name" --from="1h"
Error rate by servicepup traces aggregate --query="status:error" --compute="count" --group-by="service" --from="1h"
Throughputpup traces aggregate --query="service:api" --compute="count" --group-by="resource_name" --from="1h"

Service Config

Query service instance metadata — instance IDs, hostnames, and config IDs for all running instances of a service. Returns up to 100 instances.

# Get instance metadata for a service
pup apm service-config get --service-name my-service

# Filter by environment
pup apm service-config get --service-name my-service --env prod

# Filter by specific instance IDs
pup apm service-config get --service-name my-service --service-instance-ids "id-1,id-2"

Note on service identity: service_name and env come from the SDK telemetry pipeline and may differ from values in the Service Catalog.

Service Library Config

Query the APM tracer configuration deployed across all running instances of a service. Useful for auditing config drift — finding instances where tracing, profiling, or AppSec is misconfigured relative to the rest of the fleet.

# Get tracer config for a service
pup apm service-library-config get --service-name my-service

# Filter by environment
pup apm service-library-config get --service-name my-service --env prod

# Filter by language
pup apm service-library-config get --service-name my-service --env prod --language python

# Only show configs where instances disagree (config drift)
pup apm service-library-config get --service-name my-service --mixed

Note on service identity: service_name, env, and language_name come from the SDK telemetry pipeline and reflect what the tracer reports at runtime. These may differ from values in the Service Catalog, which aggregates data from multiple sources (APM spans, USM, infrastructure tags, manual definitions).

Troubleshooting

ProblemFix
No tracesCheck ddtrace installed, DD_TRACE_ENABLED=true
Missing serviceVerify DD_SERVICE env var
Traces not linkedCheck trace headers propagated
High cardinalityDon't tag with user_id/request_id
--env required errorAlways pass --env to apm services commands

References/Docs

Thêm skills từ datadog-labs

agent-install
datadog-labs
agent-install — một kỹ năng có thể cài đặt cho các tác nhân AI, được phát hành bởi datadog-labs/agent-skills.
official
agent-skills
datadog-labs
Kỹ năng Datadog cho các tác nhân AI. Giám sát, ghi nhật ký, theo dõi và quan sát thiết yếu.
official
dd-apm
datadog-labs
APM - cài đặt, triển khai, tích hợp, kích hoạt, thiết lập, cấu hình, traces, services, dependencies, phân tích hiệu suất. Sử dụng cho bất kỳ yêu cầu nào liên quan đến Datadog APM…
official
dd-audit
datadog-labs
Điều tra dấu vết kiểm toán - ai đã thay đổi cái gì, xâm phạm khóa, nguyên nhân gốc rễ của sự tăng vọt chi phí, bằng chứng tuân thủ (SOC 2/PCI) và kiểm toán hoạt động AI.
official
dd-audit-ai-activity
datadog-labs
Kiểm tra những gì trợ lý Bits AI (máy chủ MCP) đã thực hiện trong tổ chức Datadog của bạn — các lệnh gọi công cụ theo người dùng, tài nguyên đã truy cập và cờ bất thường cho quản trị AI.
official
dd-audit-compliance-report
datadog-labs
Tạo bằng chứng tuân thủ sẵn sàng cho kiểm toán viên từ Datadog Audit Trail cho SOC 2 và PCI DSS. Ánh xạ các kiểm soát khung đến các mẫu truy vấn cụ thể và tạo ra…
official
dd-audit-cost-spike-investigation
datadog-labs
Điều tra sự gia tăng đột biến về mức sử dụng hoặc chi phí sản phẩm Datadog bằng cách đối chiếu dữ liệu Đo lường Mức sử dụng (khi nào/cái gì tăng đột biến) với Nhật ký Kiểm toán các thay đổi cấu hình (ai đã thay đổi cái gì trong…
official
dd-audit-key-compromise
datadog-labs
Điều tra một khóa API Datadog có khả năng bị xâm phạm — dòng thời gian các hành động, phân tích địa lý/IP, các điểm cuối được gọi, cờ bất thường và các bước khắc phục.
official