A

Astronomer技能

airflow
astronomer
查詢、管理及疑難排解 Apache Airflow 的 DAG、執行、任務與系統設定。支援 30 多種指令,涵蓋 DAG 檢查、執行管理、任務日誌、設定查詢及直接 REST API 存取。可管理多個 Airflow 實例並保留設定;自動探索本機與 Astro 部署。同步(等待完成)或非同步觸發 DAG 執行、診斷失敗、清除執行以重試,並透過重試/映射索引篩選存取任務日誌。輸出...
official
airflow-hitl
astronomer
使用可延遲運算子,在 Airflow DAG 中實現人工審批關卡、表單輸入與分支流程。包含四種運算子類型:ApprovalOperator 用於核准/拒絕決策、HITLOperator 用於多選項表單選擇、HITLBranchOperator 用於人工驅動的任務路由,以及 HITLEntryOperator 用於表單資料收集。所有運算子皆為可延遲,在等待人工回應時釋放工作槽位,可透過 Airflow UI 的「必要操作」標籤或 REST API 進行回應。支援選用功能,包括自訂...
official
airflow-plugins
astronomer
構建 Airflow 3.1+ 插件,將 FastAPI 應用、自訂 UI 頁面、React 元件、中介軟體、巨集和運算子連結直接嵌入 Airflow UI。使用…
official
analyzing-data
astronomer
查詢您的資料倉儲,利用快取的模式與概念映射來回答商業問題。支援針對重複問題類型的模式查詢與快取,並記錄結果以改善未來查詢。包含概念到表格的映射快取,以及透過INFORMATION_SCHEMA或程式碼庫grep進行的表格結構探索。提供run_sql()與run_sql_pandas()核心函式,回傳Polars或Pandas DataFrame供分析使用。CLI指令可管理概念、模式與表格快取,以及...
official
annotating-task-lineage
astronomer
使用 inlets 和 outlets 為 Airflow 任務標註資料血緣。支援 OpenLineage Dataset 物件、Airflow Assets 與 Airflow Datasets,用於定義跨資料庫、資料倉儲及雲端儲存的輸入與輸出。當運算子缺乏內建 OpenLineage 提取器時,可作為備用方案;遵循四層優先級系統,其中自訂提取器與 OpenLineage 方法具有優先權。包含針對 Snowflake、BigQuery、S3 及 PostgreSQL 的資料集命名輔助工具,以確保一致性...
official
authoring-dags
astronomer
建立Apache Airflow DAG的引導式工作流程,包含驗證與測試整合。結構化六階段方法:探索環境與現有模式、規劃DAG結構、遵循最佳實踐進行實作、使用af CLI指令驗證、經使用者同意後測試,以及根據修正反覆迭代。用於探索的CLI指令(af config connections、af config providers、af dags list)與驗證指令(af dags errors、af dags get、af dags explore)可提供DAG的即時回饋。
official
blueprint
astronomer
使用 Pydantic 驗證定義可重複使用的 Airflow 任務組模板,並從 YAML 組合 DAG。適用於建立 blueprint 模板、從 YAML 組合 DAG 等場景。
official
checking-freshness
astronomer
透過檢查表格時間戳記及更新模式,並比對過時程度量表,驗證資料的新鮮度。利用常見的ETL命名模式(如 _loaded_at、_updated_at、created_at 等)識別時間戳記欄位,並查詢其最大值以判斷資料年齡。將資料分類為四種新鮮度狀態:新鮮(少於4小時)、過時(4–24小時)、非常過時(超過24小時)或未知(未找到時間戳記)。提供SQL範本,用於檢查最近幾天的上次更新時間與資料列數量趨勢。
official
cosmos-dbt-core
astronomer
使用 Astronomer Cosmos 將 dbt Core 專案轉換為 Airflow DAG 或 TaskGroup。支援三種組裝模式:獨立的 DbtDag、現有 DAG 中的 DbtTaskGroup,以及用於精細控制的獨立 Cosmos 運算子。根據隔離與效能需求,可從八種執行模式(WATCHER、LOCAL、VIRTUALENV、KUBERNETES、AIRFLOW_ASYNC 等)中選擇。提供三種解析策略(dbt_manifest、dbt_ls、dbt_ls_file、自動),以平衡速度與選擇器複雜度...
official
cosmos-dbt-fusion
astronomer
在 Snowflake、Databricks、BigQuery 或 Redshift 上,透過本機執行配置 Astronomer Cosmos 以用於 dbt Fusion 專案。需要 Cosmos 1.11.0 以上版本、在 Airflow 執行環境中另行安裝 dbt Fusion 二進位檔,以及使用子程序呼叫的 ExecutionMode.LOCAL。支援三種解析策略:dbt_manifest(大型專案最快)、dbt_ls(適用於複雜選擇器)或 automatic(簡易設定)。涵蓋用於倉庫連線的 ProfileConfig 設定、用於 dbt 專案路徑的 ProjectConfig,以及...
official
creating-openlineage-extractors
astronomer
為不支援的Airflow運算子及複雜血緣場景設計的自訂OpenLineage提取器。提供兩種方法:直接在你擁有的運算子中加入OpenLineage方法(建議做法),或為無法修改的第三方運算子建立自訂提取器。提取器在三個時間點攔截運算子執行:執行前取得靜態血緣、成功後取得執行階段決定的輸出、以及選擇性地在失敗後取得部分血緣。可透過airflow.cfg或環境變數註冊提取器...
official
dag-factory
astronomer
使用 dag-factory YAML 配置以声明方式创作 Apache Airflow DAG。在创建 dag-factory 模板、从 YAML 组合 DAG 以供 dag-factory 使用时使用…
official
debugging-dags
astronomer
針對失敗的 Airflow DAG 進行系統性根本原因分析與修復,並提供結構化的調查流程。引導完成四個階段的診斷步驟:識別失敗、提取錯誤細節、收集背景資訊,以及提供可行的修復步驟。將失敗分為四種類型(資料、程式碼、基礎設施、相依性),以聚焦調查並建議適當的修正方式。提供可直接使用的 CLI 指令,用於日誌擷取、執行比較、任務清除與 DAG...
official
delegating-to-otto
astronomer
驅動 Astronomer 的 Otto 代理
official
deploying-airflow
astronomer
部署 Airflow DAG 和專案。當使用者想要部署程式碼、推送 DAG、設定 CI/CD、部署到生產環境,或詢問部署策略時使用…
official
discovering-data
astronomer
探索某個概念或領域的資料。當使用者詢問某個主題(例如「ARR」、「客戶」、「訂單」)有哪些資料存在,或想要尋找…時使用。
official
init
astronomer
初始化倉儲結構探索。生成 .astro/warehouse.md,包含所有表格元數據以供即時查詢。每個專案執行一次,當結構變更時重新整理…
official
initializing-warehouse
astronomer
初始化倉儲結構探索。生成包含所有表格元數據的 .astro/warehouse.md 以支援即時查詢。每個專案執行一次,並在結構變更時重新整理。
official
managing-astro-local-env
astronomer
使用 Astro CLI 指令管理本機 Airflow 開發環境。啟動、停止、重新啟動及終止本機 Airflow 容器;預設憑證為 admin/admin,網頁伺服器位於 http://localhost:8080。檢視所有元件或特定服務(排程器、網頁伺服器)的日誌,並支援即時追蹤選項。透過 astro dev bash 和 astro dev run 存取容器 Shell 並直接執行 Airflow CLI 指令。排解常見問題,包括連接埠衝突、啟動失敗、套件錯誤及...
official
migrating-ai-sdk-to-common-ai
astronomer
將 Airflow 專案從 airflow-ai-sdk 遷移至 apache-airflow-providers-common-ai 0.1.0 以上版本。當使用者想要將 airflow-ai-sdk 替換為…時,使用此技能。
official
migrating-airflow-2-to-3
astronomer
自動偵測與程式碼遷移,用於將 Apache Airflow 2.x 的 DAG 升級至 Airflow 3.x。提供基於 Ruff 的自動修復規則(AIR30/AIR301/AIR302/AIR31/AIR311/AIR312),以偵測並解決匯入、運算子、掛鉤及上下文變數中的重大變更。涵蓋關鍵架構轉變:工作者不再直接存取中繼資料資料庫;請改用 Airflow Python 用戶端或 REST API 取代 ORM 查詢。包含 Ruff 無法自動修復問題的手動遷移檢查清單:cron...
official
profiling-tables
astronomer
對資料庫表格進行全面的統計與品質分析,並產出結構化的剖析結果。針對資料型別生成欄位層級統計:數值欄位的最小值/最大值/百分位數、字串的長度指標、時間戳記的日期範圍。執行基數分析以識別類別型與高基數欄位,並偵測偏態分佈。從五個面向評估資料品質:完整性(NULL 比率)、唯一性(重複值)、新鮮度(更新時間戳記)、...
official
setting-up-astro-project
astronomer
初始化並配置 Astro/Airflow 專案,包含相依性、連線及環境設定。透過 astro dev init 建立完整的專案結構,包括 DAGs、plugins、tests 及設定檔目錄。透過 requirements.txt 和 packages.txt 管理 Python 及作業系統層級的相依性,並支援自訂 Dockerfile 以處理複雜設定。在 airflow_settings.yaml 中以宣告式方式配置連線、變數及資源池,並提供匯出/匯入指令以管理環境...
official
testing-dags
astronomer
針對Airflow DAG的反覆測試-除錯-修復循環,提供全面的失敗診斷。從af runs trigger-wait <dag_id>開始執行DAG並等待完成,無需預先檢查。失敗時,使用af runs diagnose獲取完整的失敗摘要,並透過af tasks logs檢查特定任務的錯誤細節。支援自訂配置、超時設定與重試機制;能處理成功、失敗及超時情境,並提供清晰的回應解讀。快速驗證功能亦已就緒...
official
tracing-downstream-lineage
astronomer
追蹤下游資料血緣,在修改資料表或DAG前評估變更影響。透過原始碼搜尋、檢視相依性及BI工具連線,識別目標資料表或DAG的直接消費者。建立完整的相依性樹狀圖,繪製從資料表到儀表板再到機器學習模型的所有下游影響。依關鍵性(關鍵、高、中、低)分類相依性,以優先處理利害關係人溝通與測試。產出包含風險評估、受影響範圍的影響報告。
official
tracing-upstream-lineage
astronomer
追蹤上游資料血緣,以識別提供表格或欄位的來源、DAG 及相依性。支援三種目標類型:表格、欄位與 DAG;透過 Airflow DAG 原始碼與任務檢查來找出產生管線。處理 SQL 來源(FROM 子句)、外部系統(S3、Postgres、Salesforce、HTTP API)及檔案型來源;遞迴追蹤上游鏈。包含透過 DAG 程式碼中的直接對應、轉換與聚合進行欄位層級的血緣追蹤...
official
warehouse-init
astronomer
初始化倉儲結構探索。生成包含所有表格元數據的 .astro/warehouse.md 以支援即時查詢。每個專案執行一次,並在結構變更時重新整理…
official