Iris

chính thức

Máy chủ đánh giá và quan sát tác nhân gốc MCP với ghi nhật ký theo dõi, đánh giá chất lượng đầu ra, theo dõi chi phí, 12 quy tắc đánh giá tích hợp sẵn, bảng điều khiển thời gian thực và phát hiện PII

Tài liệu

Iris — Tiêu Chuẩn Đánh Giá Tác Nhân cho MCP

Glama Score Install in Cursor npm version npm downloads GitHub stars CI OpenSSF Scorecard OpenSSF Best Practices License: MIT Docker PulseMCP mcp.so

Biết liệu tác nhân AI của bạn có thực sự đủ tốt để triển khai hay không. Iris là một máy chủ MCP mã nguồn mở giúp chấm điểm chất lượng đầu ra, phát hiện lỗi an toàn và thực thi ngân sách chi phí trên tất cả các tác nhân của bạn. Bất kỳ tác nhân tương thích MCP nào cũng tự động phát hiện và sử dụng nó — không cần SDK, không cần thay đổi mã.

Iris Dashboard

Vấn Đề

Các tác nhân của bạn đang chạy trong môi trường thực tế. Giám sát hạ tầng thấy 200 OK và bỏ qua. Nó không hề biết tác nhân vừa:

  • Làm rò rỉ số an sinh xã hội trong phản hồi
  • Ảo giác một câu trả lời không có căn cứ thực tế nào
  • Tiêu tốn $0.47 cho một truy vấn duy nhất — gấp 4.7 lần ngưỡng ngân sách của bạn
  • Thực hiện 6 lần gọi công cụ trong khi 2 lần là đủ

Iris đánh giá tất cả những điều đó.

Những Gì Bạn Nhận Được

Ghi Nhật Ký VếtCây span phân cấp với độ trễ mỗi lần gọi công cụ, mức sử dụng token và chi phí bằng USD. Lưu trữ trong SQLite, có thể truy vấn ngay lập tức.
Đánh Giá Đầu Ra13 quy tắc tích hợp sẵn trên 4 danh mục: tính đầy đủ, tính liên quan, an toàn, chi phí. Phát hiện PII (10 mẫu: SSN, thẻ tín dụng, điện thoại, email, IBAN, DOB, MRN, IP, khóa API, hộ chiếu), tiêm prompt (13 mẫu), phát hiện đầu ra sơ khai, dấu hiệu ảo giác (17 cụm từ lảng tránh + heuristic trích dẫn bịa đặt). Thêm quy tắc tùy chỉnh với lược đồ Zod.
Hiển Thị Chi PhíTổng hợp chi phí trên tất cả các tác nhân trong bất kỳ khoảng thời gian nào. Đặt ngưỡng ngân sách. Nhận cảnh báo khi tác nhân chi tiêu quá mức.
Bảng Điều Khiển WebGiao diện người dùng chế độ tối thời gian thực với trực quan hóa vết, kết quả đánh giá và phân tích chi phí.

Yêu cầu Node.js 20 trở lên. Kiểm tra bằng node --version.

Bắt Đầu Nhanh

Thêm Iris vào cấu hình MCP của bạn. Hoạt động với Claude Desktop, Cursor, Windsurf và bất kỳ tác nhân tương thích MCP nào.

{
  "mcpServers": {
    "iris-eval": {
      "command": "npx",
      "args": ["@iris-eval/mcp-server"]
    }
  }
}

Vậy là xong. Tác nhân của bạn phát hiện Iris và tự động bắt đầu ghi nhật ký vết.

Bật bảng điều khiển

Iris đi kèm với bảng điều khiển web thời gian thực hiển thị vết, kết quả đánh giá, phân tích chi phí và tỷ lệ vượt qua quy tắc. Nó bị tắt theo mặc định để máy chủ MCP luôn nhẹ — hãy bật nó lên bằng một cờ.

{
  "mcpServers": {
    "iris-eval": {
      "command": "npx",
      "args": ["@iris-eval/mcp-server", "--dashboard"]
    }
  }
}

Sau đó mở http://localhost:6920 sau khi tác nhân của bạn chạy một vết. Cùng bảng điều khiển đó có sẵn qua CLI:

npx @iris-eval/mcp-server --dashboard
Thiết lập theo công cụ

Claude Desktop

Chỉnh sửa tệp cấu hình MCP của bạn:

  • macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
  • Windows: %APPDATA%\Claude\claude_desktop_config.json

Thêm cấu hình JSON ở trên, sau đó khởi động lại Claude Desktop.

Claude Code

claude mcp add --transport stdio iris-eval -- npx @iris-eval/mcp-server

Sau đó khởi động lại phiên (/clear hoặc khởi chạy lại) để tải các công cụ.

Lưu ý cho Windows: Không sử dụng trình bao bọc cmd /c — nó gây ra vấn đề phân tích đường dẫn. Lệnh npx hoạt động trực tiếp.

Cursor / Windsurf

Thêm vào .cursor/mcp.json không gian làm việc của bạn hoặc cài đặt MCP toàn cục bằng cấu hình JSON ở trên.

Các Phương Thức Cài Đặt Khác

# Global install (recommended for persistent data and faster startup)
npm install -g @iris-eval/mcp-server
iris-mcp --dashboard

# Docker
docker run -p 3000:3000 -v iris-data:/data ghcr.io/iris-eval/mcp-server

Mẹo: Cài đặt toàn cục (npm install -g) lưu trữ vết liên tục tại ~/.iris/iris.db. Với npx, vết được lưu trữ ở cùng vị trí, nhưng khởi động chậm hơn do phân giải gói.

Công Cụ MCP

Iris đăng ký chín công cụ mà bất kỳ tác nhân tương thích MCP nào cũng có thể gọi — vòng đời quy tắc + vết đầy đủ + LLM làm giám khảo + xác minh trích dẫn ngữ nghĩa:

  • log_trace — Ghi nhật ký một lần thực thi tác nhân với các span, lần gọi công cụ, mức sử dụng token và chi phí
  • evaluate_output — Chấm điểm chất lượng đầu ra dựa trên các quy tắc về tính đầy đủ, tính liên quan, an toàn và chi phí (heuristic, xác định, miễn phí)
  • get_traces — Truy vấn các vết đã lưu trữ với hỗ trợ lọc, phân trang và phạm vi thời gian
  • list_rules — Liệt kê các quy tắc đánh giá tùy chỉnh đã triển khai (chỉ đọc)
  • deploy_rule — Đăng ký một quy tắc đánh giá tùy chỉnh mới để nó kích hoạt trên mỗi evaluate_output của danh mục đó
  • delete_rule — Xóa một quy tắc tùy chỉnh đã triển khai (có tính hủy diệt, lũy đẳng)
  • delete_trace — Xóa một vết đã lưu trữ theo ID (có tính hủy diệt, phạm vi theo đối tượng thuê)
  • evaluate_with_llm_judge — Đánh giá ngữ nghĩa qua LLM (Anthropic hoặc OpenAI). Năm mẫu: độ chính xác, tính hữu ích, an toàn, tính đúng đắn, độ trung thực. Giới hạn chi phí, công bố giá mỗi lần đánh giá. Mang theo khóa API của riêng bạn (IRIS_ANTHROPIC_API_KEY hoặc IRIS_OPENAI_API_KEY) — Iris không ủy quyền hoặc chuyển tiếp các cuộc gọi LLM.
  • verify_citations — Trích xuất trích dẫn từ đầu ra (đánh số, tác giả-năm, URL, DOI), tìm nạp nguồn đằng sau một trình phân giải được bảo vệ chống SSRF + danh sách cho phép tên miền, và sử dụng giám khảo LLM để kiểm tra xem mỗi nguồn có thực sự hỗ trợ tuyên bố được trích dẫn hay không. HTTP ra ngoài tùy chọn. Cùng yêu cầu BYOK như evaluate_with_llm_judge.

Khi IRIS_OTEL_ENDPOINT được cấu hình, các cuộc gọi log_trace cũng phát ra một xuất JSON OTLP/HTTP nỗ lực tốt nhất tới bất kỳ bộ thu thập OpenTelemetry nào (Jaeger, Grafana Tempo, Datadog OTLP, Honeycomb, v.v.). Xem docs/otel-integration.md.

Lược đồ công cụ và cấu hình đầy đủ: iris-eval.com

Phiên Bản Đám Mây (Sắp Ra Mắt)

Iris tự lưu trữ chạy trên máy của bạn với SQLite. Khi nhu cầu đánh giá của nhóm bạn tăng lên, phiên bản đám mây bổ sung PostgreSQL, bảng điều khiển nhóm, cảnh báo về suy giảm chất lượng và hạ tầng được quản lý.

Tham gia danh sách chờ để được truy cập sớm.

Ví Dụ

Cộng Đồng

Cấu hình & Bảo mật

Tham Số CLI

CờMặc địnhMô tả
--transportstdioLoại truyền tải: stdio hoặc http
--port3000Cổng truyền tải HTTP
--db-path~/.iris/iris.dbĐường dẫn cơ sở dữ liệu SQLite
--config~/.iris/config.jsonĐường dẫn tệp cấu hình
--api-keyKhóa API cho xác thực HTTP
--dashboardfalseBật bảng điều khiển web
--dashboard-port6920Cổng bảng điều khiển

Biến Môi Trường

BiếnMô tả
IRIS_TRANSPORTLoại truyền tải (stdio hoặc http)
IRIS_PORTCổng truyền tải HTTP
IRIS_HOSTMáy chủ truyền tải HTTP (mặc định 127.0.0.1)
IRIS_DB_PATHĐường dẫn cơ sở dữ liệu SQLite
IRIS_LOG_LEVELMức nhật ký: debug, info, warn, error
IRIS_DASHBOARDBật bảng điều khiển web (true/false)
IRIS_DASHBOARD_PORTCổng bảng điều khiển (mặc định 6920)
IRIS_API_KEYKhóa API cho xác thực HTTP
IRIS_ALLOWED_ORIGINSNguồn gốc CORS được phép, phân tách bằng dấu phẩy

Cờ CLI được ưu tiên hơn biến môi trường khi cả hai đều được đặt.

Bảo Mật

Khi sử dụng truyền tải HTTP, Iris bao gồm:

  • Xác thực khóa API với so sánh an toàn thời gian
  • CORS bị giới hạn về localhost theo mặc định
  • Giới hạn tốc độ (100 yêu cầu/phút API, 20 yêu cầu/phút MCP)
  • Tiêu đề bảo mật Helmet
  • Xác thực đầu vào Zod trên tất cả các tuyến
  • Regex an toàn ReDoS cho các quy tắc đánh giá tùy chỉnh
  • Giới hạn thân yêu cầu 1MB
# Production deployment
iris-mcp --transport http --port 3000 --api-key "$(openssl rand -hex 32)" --dashboard
Khắc phục sự cố

Iris không khởi động / ERR_MODULE_NOT_FOUND

Bạn có thể có phiên bản cũ được lưu trong bộ nhớ đệm. Xóa bộ nhớ đệm npx và thử lại:

npx --yes @iris-eval/mcp-server@latest

Hoặc cài đặt toàn cục để tránh hoàn toàn vấn đề bộ nhớ đệm:

npm install -g @iris-eval/mcp-server@latest

Công cụ không hiển thị trong Claude Code

Các công cụ MCP chỉ tải khi bắt đầu phiên. Sau khi thêm iris-eval, khởi động lại phiên với /clear hoặc khởi chạy lại terminal.

Kiểm tra phiên bản

Xác minh phiên bản nào đang chạy:

npx @iris-eval/mcp-server --help
# Shows "Iris — MCP-Native Agent Eval Server vX.Y.Z"

Cập nhật

# If using npx (clears cache and fetches latest)
npx --yes @iris-eval/mcp-server@latest

# If installed globally
npm update -g @iris-eval/mcp-server

Phiên bản Node.js

Iris yêu cầu Node.js 20 trở lên. Node 18 đã hết hạn EOL vào tháng 4 năm 2025 và không được hỗ trợ.

node --version  # Must be v20.x or v22.x+

Windows: cmd /c không cần thiết

/doctor của Claude Code có thể đề xuất bao bọc npx bằng cmd /c. Điều này không cần thiết và gây ra vấn đề phân tích đường dẫn. Sử dụng trực tiếp npx:

# Correct
claude mcp add --transport stdio iris-eval -- npx @iris-eval/mcp-server

# Wrong (causes /c to be parsed as a path)
claude mcp add --transport stdio iris-eval -- cmd /c "npx @iris-eval/mcp-server"

Nếu Iris hữu ích với bạn, hãy cân nhắc gắn sao cho repo — điều đó giúp người khác tìm thấy nó.

Star on GitHub

Được cấp phép MIT.