Référence DataFusion + DeltaLake

VérifiéSûr

Fournit une carte de référence complète pour les API DataFusion et DeltaLake, avec des règles strictes pour ne jamais deviner les interfaces. Utile pour naviguer dans les fichiers de référence locaux et appliquer des patterns existants dans ce dépôt.

Spar Skills Guide Bot
Data & IAIntermédiaire
8002/06/2026
Claude CodeCursorWindsurf
#datafusion#deltalake#query-engine#storage-layer#reference

Recommandé pour

Notre avis

Cette compétence fournit une carte de référence structurée et des règles opérationnelles pour utiliser DataFusion et DeltaLake dans un dépôt, permettant une utilisation précise des API via des sondes locales et des consultations documentaires.

Points forts

  • Réduit les conjectures sur les API en fournissant des références locales
  • Tire parti des modèles de code existants dans le dépôt
  • Couvre de nombreux aspects (Rust, Python, SQL, planification, intégration)
  • Encourage l'exploration méthodique de l'environnement

Limites

  • Nécessite que les fichiers de référence soient présents dans le dépôt
  • Peut ne pas couvrir tous les cas limites ou API nouvelles
  • Dépend de la version locale de DataFusion/DeltaLake
Quand l'utiliser

Lors du développement ou du débogage de code utilisant DataFusion et DeltaLake dans un dépôt contenant ces fichiers de référence.

Quand l'éviter

Lorsque le dépôt ne dispose pas des fichiers de référence ou que vous explorez des API complètement nouvelles non documentées.

Analyse de sécurité

Sûr
Score qualité90/100

The skill only describes how to look up information in local references and probe the environment with safe Bash commands (e.g., version checks). No destructive actions, external network calls, or obfuscated payloads are instructed.

Aucun point d'attention détecté

Exemples

Look up Delta table registration
Open the DeltaLake integration reference and find how to register a Delta table from a given path using DataFusion's catalog.
Find UDF patterns
Search the repo for existing Rust UDF implementations, then open the Rust UDF reference to check the current contracts for Scalar UDFs.
Probe environment and check planning
Run a local probe to get the DataFusion version, then open the planning deep dive to understand how predicate pushdown works with DeltaLake scan providers.

name: dfdl_ref description: DataFusion + DeltaLake operations manual for this repo. DataFusion is the core query engine; DeltaLake provides the storage layer and integrates tightly via scan providers, schema bridging, and predicate pushdown. Use lookup + local probes; do not guess APIs. allowed-tools: Read, Grep, Glob, Bash

Operating rule: never guess DataFusion/DeltaLake/PyArrow/UDF APIs

When uncertain:

  1. Probe local environment (versions + available methods).
  2. Search the repo for how we already use it.
  3. Open the relevant reference file below (only the section you need).
  4. Implement using existing local patterns unless the plan says otherwise.

Reference map (open these files as needed)

  • Core DataFusion Python surfaces (IO, catalog, SQL, DataFrame API): reference/datafusion.md
  • "Best-in-class deployment gaps" (caching, stats, observability, planning knobs): reference/datafusion_addendum.md
  • Planning deep dive (logical/physical plan pipeline, introspection, optimization rules): reference/datafusion_planning.md
  • Rust UDF contracts (Scalar/UDAF/UDWF/Async/named args): reference/datafusion_rust_UDFs.md
  • Schema management + schema pitfalls: reference/datafusion_schema.md
  • DeltaLake ↔ DataFusion integration details: reference/deltalake_datafusion_integration.md
  • Advanced Rust integration (PyO3 packaging, wheels, CI, native module distribution): reference/datafusion_deltalake_advanced_rust_integration.md
  • DataFusionMixins trait (Delta snapshot schema + predicate parsing helpers): reference/deltalake_datafusionmixins.md
  • Plan combination (composing DataFusion plans via joins/unions/CTEs, Delta integration, parameterized queries, plan serialization): reference/datafusion_plan_combination.md
  • Rust LogicalPlan programmatic construction (LogicalPlanBuilder, Expr, schema/DFSchema, plan rewriting via TreeNode, extensibility, serialization): reference/Datafusion_logicplan_rust.md
  • DataFusion tracing (Rust community extension: execution spans, metrics capture, partial-result previews, rule-phase instrumentation, OpenTelemetry export): reference/datafusion-tracing.md
  • DeltaLake core (format/protocol, client APIs, 3-layer model): reference/deltalake.md
Skills similaires