A

Skills Astronomer

airflow
astronomer
Truy vấn, quản lý và khắc phục sự cố DAG, lần chạy, tác vụ và cấu hình hệ thống Apache Airflow. Hỗ trợ hơn 30 lệnh bao gồm kiểm tra DAG, quản lý lần chạy, ghi nhật ký tác vụ, truy vấn cấu hình và truy cập trực tiếp REST API. Quản lý nhiều phiên bản Airflow với cấu hình liên tục; tự động phát hiện triển khai cục bộ và Astro. Kích hoạt chạy DAG đồng bộ (chờ hoàn thành) hoặc không đồng bộ, chẩn đoán lỗi, xóa lần chạy để thử lại, và truy cập nhật ký tác vụ với bộ lọc thử lại/ch
official
airflow-hitl
astronomer
Cổng phê duyệt của con người, đầu vào biểu mẫu và phân nhánh trong DAG Airflow sử dụng các toán tử có thể trì hoãn. Bốn loại toán tử: ApprovalOperator cho quyết định phê duyệt/từ chối, HITLOperator cho lựa chọn nhiều tùy chọn với biểu mẫu, HITLBranchOperator cho định tuyến tác vụ do con người điều khiển và HITLEntryOperator cho thu thập dữ liệu biểu mẫu. Tất cả các toán tử đều có thể trì hoãn, giải phóng slot worker trong khi chờ phản hồi của con người qua tab Required Actions của giao diện Airflow hoặc REST API. Hỗ trợ các tính năng tùy chọn bao gồm tùy chỉnh...
official
airflow-plugins
astronomer
Xây dựng plugin Airflow 3.1+ nhúng ứng dụng FastAPI, trang UI tùy chỉnh, thành phần React, middleware, macro và liên kết toán tử trực tiếp vào giao diện Airflow. Sử dụng…
official
analyzing-data
astronomer
Truy vấn kho dữ liệu của bạn để trả lời các câu hỏi kinh doanh với các mẫu đã lưu trong bộ nhớ đệm và ánh xạ khái niệm. Hỗ trợ tra cứu mẫu và lưu vào bộ nhớ đệm cho các loại câu hỏi lặp lại, với ghi nhận kết quả để cải thiện các truy vấn trong tương lai. Bao gồm bộ nhớ đệm ánh xạ khái niệm sang bảng và khám phá lược đồ bảng qua INFORMATION_SCHEMA hoặc tìm kiếm trong mã nguồn. Cung cấp các hàm kernel run_sql() và run_sql_pandas() trả về DataFrame Polars hoặc Pandas để phân tích. Các lệnh CLI để quản lý bộ nhớ đệm khái
official
annotating-task-lineage
astronomer
Chú thích các tác vụ Airflow với dòng dữ liệu (data lineage) bằng cách sử dụng inlets và outlets. Hỗ trợ các đối tượng Dataset của OpenLineage, Assets của Airflow và Datasets của Airflow để xác định đầu vào và đầu ra trên các cơ sở dữ liệu, kho dữ liệu và lưu trữ đám mây. Sử dụng như phương án dự phòng khi các toán tử thiếu bộ trích xuất OpenLineage tích hợp sẵn; tuân theo hệ thống ưu tiên bốn cấp, trong đó các bộ trích xuất tùy chỉnh và phương thức OpenLineage được ưu tiên. Bao gồm các trình trợ giúp đặt tên dataset cho Snowflake, BigQuery, S3 và PostgreSQL để đảm bảo tính nhất quán...
official
authoring-dags
astronomer
Quy trình làm việc có hướng dẫn để tạo DAG Apache Airflow với tích hợp xác thực và kiểm thử. Phương pháp sáu giai đoạn có cấu trúc: khám phá môi trường và các mẫu hiện có, lập kế hoạch cấu trúc DAG, triển khai theo các phương pháp tốt nhất, xác thực bằng lệnh CLI af, kiểm thử với sự đồng ý của người dùng, và lặp lại các bước sửa lỗi. Các lệnh CLI để khám phá (af config connections, af config providers, af dags list) và xác thực (af dags errors, af dags get, af dags explore) cung cấp phản hồi tức thì về DAG...
official
blueprint
astronomer
Xác định các mẫu nhóm tác vụ Airflow có thể tái sử dụng với xác thực Pydantic và soạn DAG từ YAML. Sử dụng khi tạo mẫu blueprint, soạn DAG từ…
official
checking-freshness
astronomer
Kiểm tra độ tươi mới của dữ liệu bằng cách đối chiếu dấu thời gian bảng và mẫu cập nhật với thang đo độ cũ. Xác định các cột dấu thời gian sử dụng các mẫu đặt tên ETL phổ biến (_loaded_at, _updated_at, created_at, v.v.) và truy vấn giá trị tối đa của chúng để xác định tuổi. Phân loại dữ liệu thành bốn trạng thái độ tươi mới: Tươi (< 4 giờ), Cũ (4–24 giờ), Rất cũ (> 24 giờ) hoặc Không xác định (không tìm thấy dấu thời gian). Cung cấp các mẫu SQL để kiểm tra thời gian cập nhật cuối cùng và xu hướng số lượng hàng trong những ngày gần đây để...
official
cosmos-dbt-core
astronomer
Chuyển đổi các dự án dbt Core thành DAGs hoặc TaskGroups của Airflow bằng Astronomer Cosmos. Hỗ trợ ba mẫu lắp ráp: DbtDag độc lập, DbtTaskGroup trong các DAG hiện có và các toán tử Cosmos riêng lẻ để kiểm soát chi tiết. Chọn từ tám chế độ thực thi (WATCHER, LOCAL, VIRTUALENV, KUBERNETES, AIRFLOW_ASYNC và các chế độ khác) dựa trên nhu cầu cách ly và hiệu suất. Cung cấp ba chiến lược phân tích cú pháp (dbt_manifest, dbt_ls, dbt_ls_file, tự động) để cân bằng giữa tốc độ và độ phức tạp của bộ chọn...
official
cosmos-dbt-fusion
astronomer
Cấu hình Astronomer Cosmos cho các dự án dbt Fusion trên Snowflake, Databricks, BigQuery hoặc Redshift với thực thi cục bộ. Yêu cầu Cosmos 1.11.0+, tệp nhị phân dbt Fusion được cài đặt riêng trong thời gian chạy Airflow và ExecutionMode.LOCAL với lệnh gọi quy trình con. Hỗ trợ ba chiến lược phân tích: dbt_manifest (nhanh nhất cho dự án lớn), dbt_ls (cho bộ chọn phức tạp) hoặc tự động (thiết lập đơn giản). Bao gồm thiết lập ProfileConfig cho kết nối kho dữ liệu, ProjectConfig cho đường dẫn dự án dbt và...
official
creating-openlineage-extractors
astronomer
Các extractor OpenLineage tùy chỉnh cho các toán tử Airflow không được hỗ trợ và các kịch bản lineage phức tạp. Hai cách tiếp cận: thêm các phương thức OpenLineage trực tiếp vào các toán tử bạn sở hữu (khuyến nghị), hoặc tạo các extractor tùy chỉnh cho các toán tử bên thứ ba mà bạn không thể sửa đổi. Extractor can thiệp vào quá trình thực thi toán tử tại ba điểm: trước khi thực thi để lấy lineage tĩnh, sau khi thành công để lấy đầu ra được xác định trong thời gian chạy, và tùy chọn sau khi thất bại để lấy lineage một phần. Đăng ký extractor thông qua airflow.cfg hoặc môi trường...
official
dag-factory
astronomer
Tác giả Apache Airflow DAGs một cách khai báo với cấu hình YAML dag-factory. Sử dụng khi tạo mẫu dag-factory, soạn DAGs từ YAML cho dag-factory,…
official
debugging-dags
astronomer
Phân tích nguyên nhân gốc rễ có hệ thống và khắc phục cho các DAG Airflow bị lỗi với quy trình điều tra có cấu trúc. Hướng dẫn qua quy trình chẩn đoán bốn bước: xác định lỗi, trích xuất chi tiết lỗi, thu thập thông tin ngữ cảnh và đưa ra các bước khắc phục khả thi. Phân loại lỗi thành bốn loại (dữ liệu, mã, cơ sở hạ tầng, phụ thuộc) để tập trung điều tra và đề xuất các bản sửa lỗi phù hợp. Cung cấp các lệnh CLI sẵn sàng sử dụng để truy xuất nhật ký, so sánh lần chạy, xóa tác vụ và DAG...
official
delegating-to-otto
astronomer
Drives Astronomer's Otto agent (`astro otto`) as a delegated sub-agent for Airflow, dbt, and data-engineering work. Use when the user explicitly asks to "use…
official
deploying-airflow
astronomer
Triển khai Airflow DAGs và các dự án. Sử dụng khi người dùng muốn triển khai mã, đẩy DAGs, thiết lập CI/CD, triển khai lên môi trường sản xuất hoặc hỏi về các chiến lược triển khai…
official
discovering-data
astronomer
Khám phá và tìm hiểu dữ liệu cho một khái niệm hoặc lĩnh vực. Sử dụng khi người dùng hỏi dữ liệu nào tồn tại cho một chủ đề (ví dụ: "ARR", "khách hàng", "đơn hàng"), muốn tìm…
official
init
astronomer
Khởi tạo khám phá lược đồ kho dữ liệu. Tạo tệp .astro/warehouse.md với tất cả siêu dữ liệu bảng để tra cứu tức thì. Chạy một lần cho mỗi dự án, làm mới khi lược đồ…
official
initializing-warehouse
astronomer
Khởi tạo khám phá lược đồ kho dữ liệu. Tạo tệp .astro/warehouse.md với tất cả siêu dữ liệu bảng để tra cứu tức thì. Chạy một lần cho mỗi dự án, làm mới khi lược đồ…
official
managing-astro-local-env
astronomer
Quản lý môi trường phát triển Airflow cục bộ bằng các lệnh Astro CLI. Khởi động, dừng, khởi động lại và tắt các container Airflow cục bộ; thông tin đăng nhập mặc định là admin/admin với webserver tại http://localhost:8080 Xem nhật ký cho tất cả các thành phần hoặc các dịch vụ cụ thể (scheduler, webserver) với tùy chọn theo dõi thời gian thực Truy cập shell container và chạy các lệnh Airflow CLI trực tiếp qua astro dev bash và astro dev run Khắc phục các sự cố phổ biến bao gồm xung đột cổng, lỗi khởi động, lỗi gói, và...
official
migrating-ai-sdk-to-common-ai
astronomer
Di chuyển các dự án Airflow từ airflow-ai-sdk sang apache-airflow-providers-common-ai 0.1.0+. Sử dụng kỹ năng này khi người dùng muốn thay thế airflow-ai-sdk bằng…
official
migrating-airflow-2-to-3
astronomer
Phát hiện tự động và di chuyển mã để nâng cấp DAGs Apache Airflow 2.x lên Airflow 3.x. Cung cấp các quy tắc sửa lỗi tự động dựa trên Ruff (AIR30/AIR301/AIR302/AIR31/AIR311/AIR312) để phát hiện và giải quyết các thay đổi phá vỡ trong import, toán tử, hook và biến ngữ cảnh. Bao gồm các thay đổi kiến trúc quan trọng: worker không còn truy cập trực tiếp vào cơ sở dữ liệu metadata; sử dụng ứng dụng khách Python Airflow hoặc REST API thay vì truy vấn ORM session. Bao gồm danh sách kiểm tra di chuyển thủ công cho các vấn đề Ruff không thể tự động sửa: cron...
official
profiling-tables
astronomer
Phân tích thống kê và chất lượng toàn diện các bảng cơ sở dữ liệu với đầu ra cấu trúc profiling. Tạo thống kê cấp cột phù hợp với kiểu dữ liệu: min/max/percentiles cho cột số, độ dài cho chuỗi, phạm vi ngày cho timestamp. Thực hiện phân tích cardinality để xác định cột phân loại so với cột cardinality cao và phát hiện phân phối lệch. Đánh giá chất lượng dữ liệu trên năm khía cạnh: tính đầy đủ (tỷ lệ NULL), tính duy nhất (trùng lặp), tính tươi mới (timestamp cập nhật),...
official
setting-up-astro-project
astronomer
Khởi tạo và cấu hình các dự án Astro/Airflow với dependencies, kết nối và thiết lập môi trường. Tạo cấu trúc dự án hoàn chỉnh bằng lệnh astro dev init, bao gồm các thư mục cho DAG, plugin, kiểm thử và tệp cấu hình. Quản lý dependencies Python và hệ điều hành qua requirements.txt và packages.txt, hỗ trợ Dockerfile tùy chỉnh cho các thiết lập phức tạp. Cấu hình kết nối, biến và pool một cách khai báo trong airflow_settings.yaml, với các lệnh xuất/nhập cho môi trường...
official
testing-dags
astronomer
Các chu trình kiểm tra-gỡ lỗi-sửa lỗi lặp đi lặp lại cho Airflow DAG với chẩn đoán lỗi toàn diện. Bắt đầu bằng af runs trigger-wait <dag_id> để chạy một DAG và chờ hoàn tất; không cần kiểm tra trước khi chạy. Khi gặp lỗi, sử dụng af runs diagnose để có bản tóm tắt lỗi toàn diện và af tasks logs để kiểm tra chi tiết lỗi từ các tác vụ cụ thể. Hỗ trợ cấu hình tùy chỉnh, thời gian chờ và số lần thử lại; xử lý các tình huống thành công, thất bại và hết thời gian chờ với diễn giải phản hồi rõ ràng. Có sẵn tính năng xác th
official
tracing-downstream-lineage
astronomer
Truy xuất dòng dữ liệu xuôi dòng để đánh giá tác động của thay đổi trước khi sửa đổi bảng hoặc DAG. Xác định người tiêu dùng trực tiếp của bảng hoặc DAG mục tiêu thông qua tìm kiếm mã nguồn, phụ thuộc view và kết nối công cụ BI. Xây dựng cây phụ thuộc đầy đủ ánh xạ tất cả tác động xuôi dòng, từ bảng đến dashboard đến mô hình ML. Phân loại phụ thuộc theo mức độ quan trọng (quan trọng, cao, trung bình, thấp) để ưu tiên giao tiếp với các bên liên quan và kiểm thử. Tạo báo cáo tác động với đánh giá rủi ro, các thành phần bị
official
tracing-upstream-lineage
astronomer
Truy xuất nguồn gốc dữ liệu thượng nguồn để xác định các nguồn, DAG và phụ thuộc cung cấp cho một bảng hoặc cột. Hỗ trợ truy xuất ba loại mục tiêu: bảng, cột và DAG; sử dụng mã nguồn DAG Airflow và kiểm tra tác vụ để tìm các pipeline sản xuất. Xử lý các nguồn SQL (mệnh đề FROM), hệ thống bên ngoài (S3, Postgres, Salesforce, HTTP API) và nguồn dựa trên tệp; truy xuất đệ quy các chuỗi thượng nguồn. Bao gồm truy xuất cấp cột thông qua ánh xạ trực tiếp, biến đổi và tổng hợp trong mã DAG...
official
warehouse-init
astronomer
Khởi tạo khám phá lược đồ kho dữ liệu. Tạo tệp .astro/warehouse.md chứa siêu dữ liệu tất cả bảng để tra cứu tức thì. Chạy một lần cho mỗi dự án, làm mới khi lược đồ…
official