Notre avis

Ce skill fournit des modèles de validation de données avec des fonctions personnalisées, la gestion de l'évolution de schéma et des assertions de test pour les pipelines de données.

Points forts

Offre une approche modulaire avec des validateurs réutilisables et une pipeline configurable.
Intègre des assertions de test pour faciliter l'assurance qualité dans les tests unitaires.
Support des frameworks Pydantic, Pandera et Great Expectations selon le cas d'usage.
Permet de vérifier l'intégrité référentielle, les doublons et les plages de dates.

Limites

Nécessite une connaissance de base de pandas pour configurer les pipelines.
Les exemples sont centrés sur des DataFrames, moins adaptés aux flux en streaming.
La documentation ne couvre pas la gestion des erreurs en production (logging, alertes).

Quand l'utiliser

Utilisez ce skill lorsque vous devez implémenter des règles métier de validation sur des DataFrames dans un pipeline ETL ou des tests de qualité de données.

Quand l'éviter

Évitez ce skill si vous travaillez avec des données en streaming temps réel nécessitant une validation à la volée sans pandas.

Exemples

Validate duplicates in a DataFrame

I have a DataFrame 'df' with column 'id'. Use the validate_no_duplicates function to check for duplicate rows and print the failed rows.

Build a validation pipeline

Create a DataValidator that checks for no duplicates on 'id' and ensures 'created_at' is within 2020-01-01 to 2025-12-31. Apply it to df and print failed checks.

Test assertion for null values

In a pytest test, assert that columns 'id' and 'email' have no null values using assert_no_nulls.

name: data-validation description: Data validation patterns and pipeline helpers. Custom validation functions, schema evolution, and test assertions. allowed-tools: Read Write Edit Bash

Data Validation

Audience: Data engineers building validation pipelines.

Goal: Provide validation patterns for custom business rules.

Framework-specific skills:

pydantic-validation - Record-level validation with Pydantic
pandera-validation - DataFrame schema validation
great-expectations - Pipeline expectations and monitoring

Scripts

Execute validation functions from scripts/validators.py:

from scripts.validators import (
    ValidationResult,
    DataValidator,
    validate_no_duplicates,
    validate_referential_integrity,
    validate_date_range,
    validate_value_in_set,
    run_validation_pipeline,
    validate_with_schema_version,
    assert_schema_match,
    assert_no_nulls,
    assert_unique,
    assert_values_in_set
)

Framework Selection

| Use Case | Framework | |----------|-----------| | API request/response | Pydantic | | Record-by-record ETL | Pydantic | | DataFrame validation | Pandera | | Type hints for DataFrames | Pandera | | Pipeline monitoring | Great Expectations | | Data warehouse checks | Great Expectations | | Custom business rules | Custom functions (this skill) |

Usage Examples

Basic Validation

from scripts.validators import validate_no_duplicates, validate_referential_integrity

# Check duplicates
result = validate_no_duplicates(df, cols=['id'])
if not result.passed:
    print(f"Error: {result.message}")
    print(result.failed_rows)

# Check referential integrity
result = validate_referential_integrity(df, 'user_id', users_df, 'id')

Validation Pipeline

from scripts.validators import DataValidator, validate_no_duplicates, validate_date_range

validator = DataValidator()
validator.add_check(lambda df: validate_no_duplicates(df, ['id']))
validator.add_check(lambda df: validate_date_range(df, 'created_at', '2020-01-01', '2025-12-31'))

results = validator.validate(df)
if not results['passed']:
    for check in results['checks']:
        if not check['passed']:
            print(f"Failed: {check['message']}")

Config-Driven Pipeline

from scripts.validators import run_validation_pipeline

config = {
    'unique_columns': ['id'],
    'date_ranges': {
        'created_at': ('2020-01-01', '2025-12-31'),
        'updated_at': ('2020-01-01', '2025-12-31')
    }
}

clean_df, results = run_validation_pipeline(df, config)

Test Assertions

from scripts.validators import assert_schema_match, assert_no_nulls, assert_unique

# In pytest
def test_data_quality():
    assert_schema_match(df, {'id': 'int64', 'email': 'object'})
    assert_no_nulls(df, ['id', 'email'])
    assert_unique(df, ['id'])

Dependencies

pandas

Validation de données

Recommandé pour