chdb-datastore

DataStore é um substituto lazy do pandas, com suporte do ClickHouse. Seu código pandas existente funciona sem alterações — mas as operações são compiladas em SQL otimizado e executadas apenas quando os resultados são necessários (ex.: print(), len(), iteração).

npx skills add https://github.com/clickhouse/agent-skills --skill chdb-datastore

chdb DataStore — It's Just Faster Pandas

The Key Insight

# Change this:
import pandas as pd
# To this:
import chdb.datastore as pd
# Everything else stays the same.

DataStore is a lazy, ClickHouse-backed pandas replacement. Your existing pandas code works unchanged — but operations compile to optimized SQL and execute only when results are needed (e.g., print(), len(), iteration).

pip install chdb

Decision Tree: Pick the Right Approach

1. "I have a file/database and want to analyze it with pandas"
   → DataStore.from_file() / from_mysql() / from_s3() etc.
   → See references/connectors.md

2. "I need to join data from different sources"
   → Create DataStores from each source, use .join()
   → See examples/examples.md #3-5

3. "My pandas code is too slow"
   → import chdb.datastore as pd — change one line, keep the rest

4. "I need raw SQL queries"
   → Use the chdb-sql skill instead

Connect to Any Data Source — One Pattern

from datastore import DataStore

# Local file (auto-detects .parquet, .csv, .json, .arrow, .orc, .avro, .tsv, .xml)
ds = DataStore.from_file("sales.parquet")

# Database
ds = DataStore.from_mysql(host="db:3306", database="shop", table="orders", user="root", password="pass")

# Cloud storage
ds = DataStore.from_s3("s3://bucket/data.parquet", nosign=True)

# URI shorthand — auto-detects source type
ds = DataStore.uri("mysql://root:pass@db:3306/shop/orders")

All 16+ sources and URI schemes → connectors.md

After Connecting — Full Pandas API

result = ds[ds["age"] > 25]                                          # filter
result = ds[["name", "city"]]                                        # select columns
result = ds.sort_values("revenue", ascending=False)                  # sort
result = ds.groupby("dept")["salary"].mean()                         # groupby
result = ds.assign(margin=lambda x: x["profit"] / x["revenue"])     # computed column
ds["name"].str.upper()                                               # string accessor
ds["date"].dt.year                                                   # datetime accessor
result = ds1.join(ds2, on="id")                                      # join
result = ds.head(10)                                                 # preview
print(ds.to_sql())                                                   # see generated SQL

209 DataFrame methods supported. Full API → api-reference.md

Cross-Source Join — The Killer Feature

from datastore import DataStore

customers = DataStore.from_mysql(host="db:3306", database="crm", table="customers", user="root", password="pass")
orders = DataStore.from_file("orders.parquet")

result = (orders
    .join(customers, left_on="customer_id", right_on="id")
    .groupby("country")
    .agg({"amount": "sum", "rating": "mean"})
    .sort_values("sum", ascending=False))
print(result)

More join examples → examples.md

Writing Data

source = DataStore.from_mysql(host="db:3306", database="shop", table="orders", user="root", password="pass")
target = DataStore("file", path="summary.parquet", format="Parquet")

target.insert_into("category", "total", "count").select_from(
    source.groupby("category").select("category", "sum(amount) AS total", "count() AS count")
).execute()

Troubleshooting

ProblemFix
ImportError: No module named 'chdb'pip install chdb
ImportError: cannot import 'DataStore'Use from datastore import DataStore or from chdb.datastore import DataStore
Database connection timeoutInclude port in host: host="db:3306" not host="db"
Join returns empty resultCheck key types match (both int or both string); use .to_sql() to inspect
Unexpected resultsCall ds.to_sql() to see the generated SQL and debug
Environment checkRun python scripts/verify_install.py (from skill directory)

References

Note: This skill teaches how to use chdb DataStore. For raw SQL queries, use the chdb-sql skill. For contributing to chdb source code, see CLAUDE.md in the project root.

Mais skills de clickhouse

chdb-sql
clickhouse
Execute ClickHouse SQL diretamente em Python — sem necessidade de servidor. Consulte arquivos locais, bancos de dados remotos e armazenamento em nuvem com todo o poder do SQL do ClickHouse.
official
clickhouse-architecture-advisor
clickhouse
DEVE SER USADO ao projetar arquiteturas ClickHouse, ao selecionar entre padrões de ingestão ou modelagem, ou ao traduzir melhores práticas em sistemas específicos de carga de trabalho…
official
clickhouse-best-practices
clickhouse
28 regras de melhores práticas do ClickHouse organizadas por design de esquema, otimização de consultas e estratégia de ingestão de dados. Abrange três áreas críticas: seleção de chave primária e tipo de dados (decisões de design imutáveis), otimização de JOIN e consultas, e agrupamento de inserções com prevenção de mutações. Inclui 28 regras priorizadas por impacto, com regras de design de esquema e otimização de consultas marcadas como CRÍTICAS devido ao armazenamento colunar e mecanismos de índice esparso do ClickHouse. Fornece procedimentos de revisão estruturados para...
official
clickhousectl-cloud-deploy
clickhouse
Use quando um usuário deseja implantar o ClickHouse na nuvem, ir para produção, usar o ClickHouse Cloud, hospedar um serviço gerenciado do ClickHouse ou migrar de um ambiente local…
official
clickhousectl-local-dev
clickhouse
Use quando um usuário deseja construir uma aplicação com ClickHouse, configurar um ambiente de desenvolvimento local do ClickHouse, instalar o ClickHouse, criar um servidor local,…
official
setup
clickhouse
Orienta os usuários na configuração da conexão do servidor ClickHouse MCP incluído neste plugin. Use quando o usuário instalar o plugin pela primeira vez ou tiver problemas…
official
clickhouse-js-node-coding
clickhouse
Referência: https://clickhouse.com/docs/integrations/javascript
official
clickhouse-js-node-troubleshooting
clickhouse
Referência: https://clickhouse.com/docs/integrations/javascript
official