A
Astronomer技能
airflow
astronomer
查询、管理和排查Apache Airflow的DAG、运行记录、任务及系统配置。支持30多种命令,涵盖DAG检查、运行管理、任务日志、配置查询及直接REST API访问。通过持久化配置管理多个Airflow实例;自动发现本地和Astro部署。同步(等待完成)或异步触发DAG运行,诊断故障,清除运行记录以重试,并通过重试/映射索引过滤访问任务日志。输出...
official
airflow-hitl
astronomer
在Airflow DAG中使用可延迟操作符实现人工审批关卡、表单输入和分支。四种操作符类型:用于批准/拒绝决策的ApprovalOperator、带表单的多选项选择HITLOperator、人工驱动的任务路由HITLBranchOperator,以及表单数据收集HITLEntryOperator。所有操作符均为可延迟设计,在通过Airflow UI的"必需操作"标签页或REST API等待人工响应时释放工作槽位。支持包括自定义在内的可选功能...
official
airflow-plugins
astronomer
构建嵌入FastAPI应用、自定义UI页面、React组件、中间件、宏和操作符链接的Airflow 3.1+插件,直接集成到Airflow UI中。使用…
official
analyzing-data
astronomer
查询数据仓库,利用缓存的模式和概念映射来回答业务问题。支持对重复问题类型进行模式查找和缓存,并通过记录结果来改进后续查询。包含概念到表的映射缓存,以及通过INFORMATION_SCHEMA或代码库grep进行表结构发现。提供run_sql()和run_sql_pandas()内核函数,返回Polars或Pandas DataFrame用于分析。提供CLI命令用于管理概念、模式和表缓存,以及...
official
annotating-task-lineage
astronomer
使用入口和出口为Airflow任务标注数据血缘。支持使用OpenLineage Dataset对象、Airflow Assets和Airflow Datasets定义跨数据库、数据仓库及云存储的输入输出。当运算符缺少内置OpenLineage提取器时作为备用方案;遵循四级优先级系统,其中自定义提取器和OpenLineage方法优先。包含针对Snowflake、BigQuery、S3和PostgreSQL的数据集命名辅助工具,以确保一致性...
official
authoring-dags
astronomer
创建Apache Airflow DAG的引导式工作流,集成验证与测试。采用六阶段结构化方法:发现环境与现有模式、规划DAG结构、遵循最佳实践实现、通过af CLI命令验证、经用户同意测试、迭代修复。用于发现(af config connections、af config providers、af dags list)和验证(af dags errors、af dags get、af dags explore)的CLI命令可提供DAG的即时反馈...
official
blueprint
astronomer
使用Pydantic验证定义可复用的Airflow任务组模板,并从YAML组合DAG。适用于创建blueprint模板、从YAML组合DAG等场景。
official
checking-freshness
astronomer
通过检查表时间戳和更新模式与陈旧度标尺对比,验证数据新鲜度。使用常见ETL命名模式(如_loaded_at、_updated_at、created_at等)识别时间戳列,并查询其最大值以确定数据时效。将数据分为四种新鲜度状态:新鲜(<4小时)、陈旧(4–24小时)、非常陈旧(>24小时)或未知(未找到时间戳)。提供SQL模板,用于检查最近几天的最后更新时间及行数变化趋势。
official
cosmos-dbt-core
astronomer
使用Astronomer Cosmos将dbt Core项目转换为Airflow DAG或TaskGroup。支持三种组装模式:独立的DbtDag、现有DAG中的DbtTaskGroup,以及用于精细控制的独立Cosmos运算符。根据隔离和性能需求,从八种执行模式(WATCHER、LOCAL、VIRTUALENV、KUBERNETES、AIRFLOW_ASYNC等)中选择。提供三种解析策略(dbt_manifest、dbt_ls、dbt_ls_file、自动),以平衡速度和选择器复杂度...
official
cosmos-dbt-fusion
astronomer
在Snowflake、Databricks、BigQuery或Redshift上为dbt Fusion项目配置Astronomer Cosmos,并支持本地执行。需要Cosmos 1.11.0及以上版本、在Airflow运行时中单独安装dbt Fusion二进制文件,以及使用子进程调用的ExecutionMode.LOCAL模式。支持三种解析策略:dbt_manifest(适用于大型项目,速度最快)、dbt_ls(适用于复杂选择器)或automatic(适用于简单设置)。涵盖用于仓库连接的ProfileConfig配置、用于dbt项目路径的ProjectConfig配置,以及...
official
creating-openlineage-extractors
astronomer
针对不受支持的Airflow运算符及复杂血缘场景的自定义OpenLineage提取器。提供两种方案:建议在自有运算符中直接添加OpenLineage方法,或为无法修改的第三方运算符创建自定义提取器。提取器在三个执行节点进行拦截:执行前获取静态血缘、成功后获取运行时输出、可选在失败后获取部分血缘。通过airflow.cfg或环境变量注册提取器...
official
dag-factory
astronomer
使用dag-factory YAML配置以声明方式创作Apache Airflow DAG。适用于创建dag-factory模板、从YAML组合DAG以用于dag-factory等场景。
official
debugging-dags
astronomer
针对失败的Airflow DAG进行系统性根因分析与修复,提供结构化调查工作流。引导完成四步诊断流程:识别故障、提取错误详情、收集上下文信息、提供可操作的修复步骤。将故障分为四类(数据、代码、基础设施、依赖),以聚焦调查并建议适当的修复方案。提供即用型CLI命令,用于日志检索、运行对比、任务清除及DAG...
official
delegating-to-otto
astronomer
Drives Astronomer's Otto agent (`astro otto`) as a delegated sub-agent for Airflow, dbt, and data-engineering work. Use when the user explicitly asks to "use…
official
deploying-airflow
astronomer
部署Airflow DAG和项目。当用户想要部署代码、推送DAG、设置CI/CD、部署到生产环境,或询问部署策略时使用…
official
discovering-data
astronomer
发现并探索某个概念或领域的数据。当用户询问某个主题(例如“ARR”、“客户”、“订单”)存在哪些数据,或想要查找……时使用。
official
init
astronomer
初始化仓库模式发现。生成包含所有表元数据的.astro/warehouse.md,用于即时查询。每个项目运行一次,在模式变更时刷新…
official
initializing-warehouse
astronomer
初始化仓库模式发现。生成包含所有表元数据的 .astro/warehouse.md 文件,用于即时查询。每个项目运行一次,在模式变更时刷新…
official
managing-astro-local-env
astronomer
使用Astro CLI命令管理本地Airflow开发环境。启动、停止、重启和终止本地Airflow容器;默认凭据为admin/admin,Web服务器位于http://localhost:8080。查看所有组件或特定服务(调度器、Web服务器)的日志,支持实时跟踪选项。通过astro dev bash和astro dev run直接访问容器Shell并运行Airflow CLI命令。排查常见问题,包括端口冲突、启动失败、包错误等。
official
migrating-ai-sdk-to-common-ai
astronomer
将Airflow项目从airflow-ai-sdk迁移到apache-airflow-providers-common-ai 0.1.0+版本。当用户想要将airflow-ai-sdk替换为…时,使用此技能。
official
migrating-airflow-2-to-3
astronomer
针对Apache Airflow 2.x DAG升级至Airflow 3.x的自动化检测与代码迁移工具。提供基于Ruff的自动修复规则(AIR30/AIR301/AIR302/AIR31/AIR311/AIR312),用于检测并解决导入、运算符、钩子及上下文变量中的破坏性变更。涵盖关键架构迁移:工作节点不再直接访问元数据库;需改用Airflow Python客户端或REST API替代ORM会话查询。包含针对Ruff无法自动修复问题的手动迁移清单:cron...
official
profiling-tables
astronomer
对数据库表进行全面的统计与质量分析,生成结构化的剖析结果。根据数据类型定制列级统计:数值列的最小值/最大值/百分位数、字符串的长度指标、时间戳的日期范围。执行基数分析以识别分类列与高基数列,并检测偏态分布。从五个维度评估数据质量:完整性(NULL率)、唯一性(重复值)、时效性(更新时间戳)……
official
setting-up-astro-project
astronomer
使用依赖项、连接和环境设置初始化并配置Astro/Airflow项目。通过astro dev init搭建完整的项目结构,包括DAGs、插件、测试和配置文件的目录。通过requirements.txt和packages.txt管理Python和操作系统级依赖项,支持自定义Dockerfile以应对复杂配置。在airflow_settings.yaml中以声明方式配置连接、变量和连接池,并提供用于环境导出/导入的命令...
official
testing-dags
astronomer
针对Airflow DAG的迭代式测试-调试-修复循环,提供全面的故障诊断。首先使用af runs trigger-wait <dag_id>运行DAG并等待完成,无需预检。失败时,使用af runs diagnose获取全面的故障摘要,并通过af tasks logs查看特定任务的错误详情。支持自定义配置、超时和重试次数;处理成功、失败和超时场景,并给出清晰的响应解读。提供快速验证功能...
official
tracing-downstream-lineage
astronomer
追踪下游数据血缘,在修改表或DAG前评估变更影响。通过源代码搜索、视图依赖和BI工具连接识别目标表或DAG的直接消费者,构建完整的依赖树,映射从表到仪表盘再到机器学习模型的所有下游影响。按关键性(关键、高、中、低)对依赖进行分类,以优先安排利益相关者沟通和测试。生成包含风险评估、受影响...的影响报告。
official
tracing-upstream-lineage
astronomer
追踪上游数据血缘,识别为表或列提供数据的来源、DAG及依赖关系。支持追踪三种目标类型:表、列和DAG;通过Airflow DAG源代码和任务检查来查找生产管道。处理SQL来源(FROM子句)、外部系统(S3、Postgres、Salesforce、HTTP API)和基于文件的来源;递归追踪上游链。包含通过DAG代码中的直接映射、转换和聚合实现的列级追踪...
official
warehouse-init
astronomer
初始化仓库模式发现。生成包含所有表元数据的.astro/warehouse.md,用于即时查询。每个项目运行一次,当模式变更时刷新…
official