Iris
chính thứcMáy chủ đánh giá và quan sát tác nhân gốc MCP với ghi nhật ký theo dõi, đánh giá chất lượng đầu ra, theo dõi chi phí, 12 quy tắc đánh giá tích hợp sẵn, bảng điều khiển thời gian thực và phát hiện PII
Tài liệu
Iris — Tiêu Chuẩn Đánh Giá Tác Nhân cho MCP
Biết liệu tác nhân AI của bạn có thực sự đủ tốt để triển khai hay không. Iris là một máy chủ MCP mã nguồn mở giúp chấm điểm chất lượng đầu ra, phát hiện lỗi an toàn và thực thi ngân sách chi phí trên tất cả các tác nhân của bạn. Bất kỳ tác nhân tương thích MCP nào cũng tự động phát hiện và sử dụng nó — không cần SDK, không cần thay đổi mã.

Vấn Đề
Các tác nhân của bạn đang chạy trong môi trường thực tế. Giám sát hạ tầng thấy 200 OK và bỏ qua. Nó không hề biết tác nhân vừa:
- Làm rò rỉ số an sinh xã hội trong phản hồi
- Ảo giác một câu trả lời không có căn cứ thực tế nào
- Tiêu tốn $0.47 cho một truy vấn duy nhất — gấp 4.7 lần ngưỡng ngân sách của bạn
- Thực hiện 6 lần gọi công cụ trong khi 2 lần là đủ
Iris đánh giá tất cả những điều đó.
Những Gì Bạn Nhận Được
| Ghi Nhật Ký Vết | Cây span phân cấp với độ trễ mỗi lần gọi công cụ, mức sử dụng token và chi phí bằng USD. Lưu trữ trong SQLite, có thể truy vấn ngay lập tức. |
| Đánh Giá Đầu Ra | 13 quy tắc tích hợp sẵn trên 4 danh mục: tính đầy đủ, tính liên quan, an toàn, chi phí. Phát hiện PII (10 mẫu: SSN, thẻ tín dụng, điện thoại, email, IBAN, DOB, MRN, IP, khóa API, hộ chiếu), tiêm prompt (13 mẫu), phát hiện đầu ra sơ khai, dấu hiệu ảo giác (17 cụm từ lảng tránh + heuristic trích dẫn bịa đặt). Thêm quy tắc tùy chỉnh với lược đồ Zod. |
| Hiển Thị Chi Phí | Tổng hợp chi phí trên tất cả các tác nhân trong bất kỳ khoảng thời gian nào. Đặt ngưỡng ngân sách. Nhận cảnh báo khi tác nhân chi tiêu quá mức. |
| Bảng Điều Khiển Web | Giao diện người dùng chế độ tối thời gian thực với trực quan hóa vết, kết quả đánh giá và phân tích chi phí. |
Yêu cầu Node.js 20 trở lên. Kiểm tra bằng node --version.
Bắt Đầu Nhanh
Thêm Iris vào cấu hình MCP của bạn. Hoạt động với Claude Desktop, Cursor, Windsurf và bất kỳ tác nhân tương thích MCP nào.
{
"mcpServers": {
"iris-eval": {
"command": "npx",
"args": ["@iris-eval/mcp-server"]
}
}
}
Vậy là xong. Tác nhân của bạn phát hiện Iris và tự động bắt đầu ghi nhật ký vết.
Bật bảng điều khiển
Iris đi kèm với bảng điều khiển web thời gian thực hiển thị vết, kết quả đánh giá, phân tích chi phí và tỷ lệ vượt qua quy tắc. Nó bị tắt theo mặc định để máy chủ MCP luôn nhẹ — hãy bật nó lên bằng một cờ.
{
"mcpServers": {
"iris-eval": {
"command": "npx",
"args": ["@iris-eval/mcp-server", "--dashboard"]
}
}
}
Sau đó mở http://localhost:6920 sau khi tác nhân của bạn chạy một vết. Cùng bảng điều khiển đó có sẵn qua CLI:
npx @iris-eval/mcp-server --dashboard
Thiết lập theo công cụ
Claude Desktop
Chỉnh sửa tệp cấu hình MCP của bạn:
- macOS:
~/Library/Application Support/Claude/claude_desktop_config.json - Windows:
%APPDATA%\Claude\claude_desktop_config.json
Thêm cấu hình JSON ở trên, sau đó khởi động lại Claude Desktop.
Claude Code
claude mcp add --transport stdio iris-eval -- npx @iris-eval/mcp-server
Sau đó khởi động lại phiên (/clear hoặc khởi chạy lại) để tải các công cụ.
Lưu ý cho Windows: Không sử dụng trình bao bọc
cmd /c— nó gây ra vấn đề phân tích đường dẫn. Lệnhnpxhoạt động trực tiếp.
Cursor / Windsurf
Thêm vào .cursor/mcp.json không gian làm việc của bạn hoặc cài đặt MCP toàn cục bằng cấu hình JSON ở trên.
Các Phương Thức Cài Đặt Khác
# Global install (recommended for persistent data and faster startup)
npm install -g @iris-eval/mcp-server
iris-mcp --dashboard
# Docker
docker run -p 3000:3000 -v iris-data:/data ghcr.io/iris-eval/mcp-server
Mẹo: Cài đặt toàn cục (
npm install -g) lưu trữ vết liên tục tại~/.iris/iris.db. Vớinpx, vết được lưu trữ ở cùng vị trí, nhưng khởi động chậm hơn do phân giải gói.
Công Cụ MCP
Iris đăng ký chín công cụ mà bất kỳ tác nhân tương thích MCP nào cũng có thể gọi — vòng đời quy tắc + vết đầy đủ + LLM làm giám khảo + xác minh trích dẫn ngữ nghĩa:
log_trace— Ghi nhật ký một lần thực thi tác nhân với các span, lần gọi công cụ, mức sử dụng token và chi phíevaluate_output— Chấm điểm chất lượng đầu ra dựa trên các quy tắc về tính đầy đủ, tính liên quan, an toàn và chi phí (heuristic, xác định, miễn phí)get_traces— Truy vấn các vết đã lưu trữ với hỗ trợ lọc, phân trang và phạm vi thời gianlist_rules— Liệt kê các quy tắc đánh giá tùy chỉnh đã triển khai (chỉ đọc)deploy_rule— Đăng ký một quy tắc đánh giá tùy chỉnh mới để nó kích hoạt trên mỗievaluate_outputcủa danh mục đódelete_rule— Xóa một quy tắc tùy chỉnh đã triển khai (có tính hủy diệt, lũy đẳng)delete_trace— Xóa một vết đã lưu trữ theo ID (có tính hủy diệt, phạm vi theo đối tượng thuê)evaluate_with_llm_judge— Đánh giá ngữ nghĩa qua LLM (Anthropic hoặc OpenAI). Năm mẫu: độ chính xác, tính hữu ích, an toàn, tính đúng đắn, độ trung thực. Giới hạn chi phí, công bố giá mỗi lần đánh giá. Mang theo khóa API của riêng bạn (IRIS_ANTHROPIC_API_KEYhoặcIRIS_OPENAI_API_KEY) — Iris không ủy quyền hoặc chuyển tiếp các cuộc gọi LLM.verify_citations— Trích xuất trích dẫn từ đầu ra (đánh số, tác giả-năm, URL, DOI), tìm nạp nguồn đằng sau một trình phân giải được bảo vệ chống SSRF + danh sách cho phép tên miền, và sử dụng giám khảo LLM để kiểm tra xem mỗi nguồn có thực sự hỗ trợ tuyên bố được trích dẫn hay không. HTTP ra ngoài tùy chọn. Cùng yêu cầu BYOK nhưevaluate_with_llm_judge.
Khi IRIS_OTEL_ENDPOINT được cấu hình, các cuộc gọi log_trace cũng phát ra một xuất JSON OTLP/HTTP nỗ lực tốt nhất tới bất kỳ bộ thu thập OpenTelemetry nào (Jaeger, Grafana Tempo, Datadog OTLP, Honeycomb, v.v.). Xem docs/otel-integration.md.
Lược đồ công cụ và cấu hình đầy đủ: iris-eval.com
Phiên Bản Đám Mây (Sắp Ra Mắt)
Iris tự lưu trữ chạy trên máy của bạn với SQLite. Khi nhu cầu đánh giá của nhóm bạn tăng lên, phiên bản đám mây bổ sung PostgreSQL, bảng điều khiển nhóm, cảnh báo về suy giảm chất lượng và hạ tầng được quản lý.
Tham gia danh sách chờ để được truy cập sớm.
Ví Dụ
- Thiết lập Claude Desktop — Cấu hình MCP cho chế độ stdio và HTTP
- TypeScript — MCP SDK client — kết nối và gọi công cụ
- HTTP transport (TS + Python) — mã client đầy đủ cho tích hợp kiểu REST
- LangChain instrumentation (Python, khái niệm) — khung mẫu thể hiện cấu trúc; cần mã tác nhân của bạn để có thể chạy được
- CrewAI instrumentation (Python, khái niệm) — khung mẫu; cùng lưu ý
Cộng Đồng
- GitHub Issues — Báo cáo lỗi và yêu cầu tính năng
- GitHub Discussions — Câu hỏi và ý tưởng
- Hướng dẫn Đóng góp — Cách đóng góp
- Lộ trình — Những gì sắp tới
Cấu hình & Bảo mật
Tham Số CLI
| Cờ | Mặc định | Mô tả |
|---|---|---|
--transport | stdio | Loại truyền tải: stdio hoặc http |
--port | 3000 | Cổng truyền tải HTTP |
--db-path | ~/.iris/iris.db | Đường dẫn cơ sở dữ liệu SQLite |
--config | ~/.iris/config.json | Đường dẫn tệp cấu hình |
--api-key | — | Khóa API cho xác thực HTTP |
--dashboard | false | Bật bảng điều khiển web |
--dashboard-port | 6920 | Cổng bảng điều khiển |
Biến Môi Trường
| Biến | Mô tả |
|---|---|
IRIS_TRANSPORT | Loại truyền tải (stdio hoặc http) |
IRIS_PORT | Cổng truyền tải HTTP |
IRIS_HOST | Máy chủ truyền tải HTTP (mặc định 127.0.0.1) |
IRIS_DB_PATH | Đường dẫn cơ sở dữ liệu SQLite |
IRIS_LOG_LEVEL | Mức nhật ký: debug, info, warn, error |
IRIS_DASHBOARD | Bật bảng điều khiển web (true/false) |
IRIS_DASHBOARD_PORT | Cổng bảng điều khiển (mặc định 6920) |
IRIS_API_KEY | Khóa API cho xác thực HTTP |
IRIS_ALLOWED_ORIGINS | Nguồn gốc CORS được phép, phân tách bằng dấu phẩy |
Cờ CLI được ưu tiên hơn biến môi trường khi cả hai đều được đặt.
Bảo Mật
Khi sử dụng truyền tải HTTP, Iris bao gồm:
- Xác thực khóa API với so sánh an toàn thời gian
- CORS bị giới hạn về localhost theo mặc định
- Giới hạn tốc độ (100 yêu cầu/phút API, 20 yêu cầu/phút MCP)
- Tiêu đề bảo mật Helmet
- Xác thực đầu vào Zod trên tất cả các tuyến
- Regex an toàn ReDoS cho các quy tắc đánh giá tùy chỉnh
- Giới hạn thân yêu cầu 1MB
# Production deployment
iris-mcp --transport http --port 3000 --api-key "$(openssl rand -hex 32)" --dashboard
Khắc phục sự cố
Iris không khởi động / ERR_MODULE_NOT_FOUND
Bạn có thể có phiên bản cũ được lưu trong bộ nhớ đệm. Xóa bộ nhớ đệm npx và thử lại:
npx --yes @iris-eval/mcp-server@latest
Hoặc cài đặt toàn cục để tránh hoàn toàn vấn đề bộ nhớ đệm:
npm install -g @iris-eval/mcp-server@latest
Công cụ không hiển thị trong Claude Code
Các công cụ MCP chỉ tải khi bắt đầu phiên. Sau khi thêm iris-eval, khởi động lại phiên với /clear hoặc khởi chạy lại terminal.
Kiểm tra phiên bản
Xác minh phiên bản nào đang chạy:
npx @iris-eval/mcp-server --help
# Shows "Iris — MCP-Native Agent Eval Server vX.Y.Z"
Cập nhật
# If using npx (clears cache and fetches latest)
npx --yes @iris-eval/mcp-server@latest
# If installed globally
npm update -g @iris-eval/mcp-server
Phiên bản Node.js
Iris yêu cầu Node.js 20 trở lên. Node 18 đã hết hạn EOL vào tháng 4 năm 2025 và không được hỗ trợ.
node --version # Must be v20.x or v22.x+
Windows: cmd /c không cần thiết
/doctor của Claude Code có thể đề xuất bao bọc npx bằng cmd /c. Điều này không cần thiết và gây ra vấn đề phân tích đường dẫn. Sử dụng trực tiếp npx:
# Correct
claude mcp add --transport stdio iris-eval -- npx @iris-eval/mcp-server
# Wrong (causes /c to be parsed as a path)
claude mcp add --transport stdio iris-eval -- cmd /c "npx @iris-eval/mcp-server"
Nếu Iris hữu ích với bạn, hãy cân nhắc gắn sao cho repo — điều đó giúp người khác tìm thấy nó.
Được cấp phép MIT.