chdb-datastore

DataStore est un remplacement paresseux de pandas basé sur ClickHouse. Votre code pandas existant fonctionne sans modification — mais les opérations sont compilées en SQL optimisé et exécutées uniquement lorsque les résultats sont nécessaires (par exemple, print(), len(), itération).

npx skills add https://github.com/clickhouse/agent-skills --skill chdb-datastore

chdb DataStore — It's Just Faster Pandas

The Key Insight

# Change this:
import pandas as pd
# To this:
import chdb.datastore as pd
# Everything else stays the same.

DataStore is a lazy, ClickHouse-backed pandas replacement. Your existing pandas code works unchanged — but operations compile to optimized SQL and execute only when results are needed (e.g., print(), len(), iteration).

pip install chdb

Decision Tree: Pick the Right Approach

1. "I have a file/database and want to analyze it with pandas"
   → DataStore.from_file() / from_mysql() / from_s3() etc.
   → See references/connectors.md

2. "I need to join data from different sources"
   → Create DataStores from each source, use .join()
   → See examples/examples.md #3-5

3. "My pandas code is too slow"
   → import chdb.datastore as pd — change one line, keep the rest

4. "I need raw SQL queries"
   → Use the chdb-sql skill instead

Connect to Any Data Source — One Pattern

from datastore import DataStore

# Local file (auto-detects .parquet, .csv, .json, .arrow, .orc, .avro, .tsv, .xml)
ds = DataStore.from_file("sales.parquet")

# Database
ds = DataStore.from_mysql(host="db:3306", database="shop", table="orders", user="root", password="pass")

# Cloud storage
ds = DataStore.from_s3("s3://bucket/data.parquet", nosign=True)

# URI shorthand — auto-detects source type
ds = DataStore.uri("mysql://root:pass@db:3306/shop/orders")

All 16+ sources and URI schemes → connectors.md

After Connecting — Full Pandas API

result = ds[ds["age"] > 25]                                          # filter
result = ds[["name", "city"]]                                        # select columns
result = ds.sort_values("revenue", ascending=False)                  # sort
result = ds.groupby("dept")["salary"].mean()                         # groupby
result = ds.assign(margin=lambda x: x["profit"] / x["revenue"])     # computed column
ds["name"].str.upper()                                               # string accessor
ds["date"].dt.year                                                   # datetime accessor
result = ds1.join(ds2, on="id")                                      # join
result = ds.head(10)                                                 # preview
print(ds.to_sql())                                                   # see generated SQL

209 DataFrame methods supported. Full API → api-reference.md

Cross-Source Join — The Killer Feature

from datastore import DataStore

customers = DataStore.from_mysql(host="db:3306", database="crm", table="customers", user="root", password="pass")
orders = DataStore.from_file("orders.parquet")

result = (orders
    .join(customers, left_on="customer_id", right_on="id")
    .groupby("country")
    .agg({"amount": "sum", "rating": "mean"})
    .sort_values("sum", ascending=False))
print(result)

More join examples → examples.md

Writing Data

source = DataStore.from_mysql(host="db:3306", database="shop", table="orders", user="root", password="pass")
target = DataStore("file", path="summary.parquet", format="Parquet")

target.insert_into("category", "total", "count").select_from(
    source.groupby("category").select("category", "sum(amount) AS total", "count() AS count")
).execute()

Troubleshooting

ProblemFix
ImportError: No module named 'chdb'pip install chdb
ImportError: cannot import 'DataStore'Use from datastore import DataStore or from chdb.datastore import DataStore
Database connection timeoutInclude port in host: host="db:3306" not host="db"
Join returns empty resultCheck key types match (both int or both string); use .to_sql() to inspect
Unexpected resultsCall ds.to_sql() to see the generated SQL and debug
Environment checkRun python scripts/verify_install.py (from skill directory)

References

Note: This skill teaches how to use chdb DataStore. For raw SQL queries, use the chdb-sql skill. For contributing to chdb source code, see CLAUDE.md in the project root.

Plus de skills de clickhouse

chdb-sql
clickhouse
Exécutez ClickHouse SQL directement en Python — aucun serveur nécessaire. Interrogez des fichiers locaux, des bases de données distantes et du stockage cloud avec toute la puissance de ClickHouse SQL.
official
clickhouse-architecture-advisor
clickhouse
À UTILISER ABSOLUMENT lors de la conception d'architectures ClickHouse, du choix entre des modèles d'ingestion ou de modélisation, ou de la traduction des meilleures pratiques en systèmes spécifiques à une charge de travail…
official
clickhouse-best-practices
clickhouse
28 règles de bonnes pratiques ClickHouse organisées par conception de schéma, optimisation des requêtes et stratégie d'ingestion de données. Couvre trois domaines critiques : sélection de la clé primaire et des types de données (décisions de conception immuables), optimisation des JOIN et des requêtes, et regroupement des insertions avec évitement des mutations. Inclut 28 règles priorisées par impact, avec des règles de conception de schéma et d'optimisation des requêtes marquées CRITIQUES en raison du stockage columnar et des mécanismes d'index clairsemés de ClickHouse. Fournit des procédures de révision structurées pour...
official
clickhousectl-cloud-deploy
clickhouse
Utiliser lorsque l'utilisateur souhaite déployer ClickHouse dans le cloud, passer en production, utiliser ClickHouse Cloud, héberger un service ClickHouse géré, ou migrer depuis un environnement local…
official
clickhousectl-local-dev
clickhouse
Utiliser lorsque l'utilisateur souhaite créer une application avec ClickHouse, configurer un environnement de développement local ClickHouse, installer ClickHouse, créer un serveur local,…
official
setup
clickhouse
Guide les utilisateurs dans la configuration de la connexion au serveur ClickHouse MCP fourni avec ce plugin. À utiliser lors de la première installation du plugin ou en cas de problème…
official
clickhouse-js-node-coding
clickhouse
Référence : https://clickhouse.com/docs/integrations/javascript
official
clickhouse-js-node-troubleshooting
clickhouse
Référence : https://clickhouse.com/docs/integrations/javascript
official