Validation de données

VérifiéSûr

Fournit des motifs de validation de données pour les règles métier personnalisées, incluant des fonctions de validation, des assertions de test et l'évolution de schéma. Utile pour les ingénieurs de données construisant des pipelines de validation avec des vérifications comme les doublons, l'intégrité référentielle et les plages de dates.

Spar Skills Guide Bot
Data & IAIntermédiaire
9002/06/2026
Claude Code
#data-validation#data-quality#etl-validation#schema-validation#business-rules

Recommandé pour

Notre avis

Ce skill fournit des modèles de validation de données avec des fonctions personnalisées, la gestion de l'évolution de schéma et des assertions de test pour les pipelines de données.

Points forts

  • Offre une approche modulaire avec des validateurs réutilisables et une pipeline configurable.
  • Intègre des assertions de test pour faciliter l'assurance qualité dans les tests unitaires.
  • Support des frameworks Pydantic, Pandera et Great Expectations selon le cas d'usage.
  • Permet de vérifier l'intégrité référentielle, les doublons et les plages de dates.

Limites

  • Nécessite une connaissance de base de pandas pour configurer les pipelines.
  • Les exemples sont centrés sur des DataFrames, moins adaptés aux flux en streaming.
  • La documentation ne couvre pas la gestion des erreurs en production (logging, alertes).
Quand l'utiliser

Utilisez ce skill lorsque vous devez implémenter des règles métier de validation sur des DataFrames dans un pipeline ETL ou des tests de qualité de données.

Quand l'éviter

Évitez ce skill si vous travaillez avec des données en streaming temps réel nécessitant une validation à la volée sans pandas.

Analyse de sécurité

Sûr
Score qualité78/100

The skill describes data validation patterns using pandas and custom Python functions. It does not instruct or perform any harmful actions, network operations, or execution of arbitrary commands. The allowed tools (Read, Write, Edit, Bash) are listed but not exploited for risky purposes in the provided examples. No exfiltration, obfuscation, or destructive instructions are present.

Aucun point d'attention détecté

Exemples

Validate duplicates in a DataFrame
I have a DataFrame 'df' with column 'id'. Use the validate_no_duplicates function to check for duplicate rows and print the failed rows.
Build a validation pipeline
Create a DataValidator that checks for no duplicates on 'id' and ensures 'created_at' is within 2020-01-01 to 2025-12-31. Apply it to df and print failed checks.
Test assertion for null values
In a pytest test, assert that columns 'id' and 'email' have no null values using assert_no_nulls.

name: data-validation description: Data validation patterns and pipeline helpers. Custom validation functions, schema evolution, and test assertions. allowed-tools: Read Write Edit Bash

Data Validation

Audience: Data engineers building validation pipelines.

Goal: Provide validation patterns for custom business rules.

Framework-specific skills:

  • pydantic-validation - Record-level validation with Pydantic
  • pandera-validation - DataFrame schema validation
  • great-expectations - Pipeline expectations and monitoring

Scripts

Execute validation functions from scripts/validators.py:

from scripts.validators import (
    ValidationResult,
    DataValidator,
    validate_no_duplicates,
    validate_referential_integrity,
    validate_date_range,
    validate_value_in_set,
    run_validation_pipeline,
    validate_with_schema_version,
    assert_schema_match,
    assert_no_nulls,
    assert_unique,
    assert_values_in_set
)

Framework Selection

| Use Case | Framework | |----------|-----------| | API request/response | Pydantic | | Record-by-record ETL | Pydantic | | DataFrame validation | Pandera | | Type hints for DataFrames | Pandera | | Pipeline monitoring | Great Expectations | | Data warehouse checks | Great Expectations | | Custom business rules | Custom functions (this skill) |

Usage Examples

Basic Validation

from scripts.validators import validate_no_duplicates, validate_referential_integrity

# Check duplicates
result = validate_no_duplicates(df, cols=['id'])
if not result.passed:
    print(f"Error: {result.message}")
    print(result.failed_rows)

# Check referential integrity
result = validate_referential_integrity(df, 'user_id', users_df, 'id')

Validation Pipeline

from scripts.validators import DataValidator, validate_no_duplicates, validate_date_range

validator = DataValidator()
validator.add_check(lambda df: validate_no_duplicates(df, ['id']))
validator.add_check(lambda df: validate_date_range(df, 'created_at', '2020-01-01', '2025-12-31'))

results = validator.validate(df)
if not results['passed']:
    for check in results['checks']:
        if not check['passed']:
            print(f"Failed: {check['message']}")

Config-Driven Pipeline

from scripts.validators import run_validation_pipeline

config = {
    'unique_columns': ['id'],
    'date_ranges': {
        'created_at': ('2020-01-01', '2025-12-31'),
        'updated_at': ('2020-01-01', '2025-12-31')
    }
}

clean_df, results = run_validation_pipeline(df, config)

Test Assertions

from scripts.validators import assert_schema_match, assert_no_nulls, assert_unique

# In pytest
def test_data_quality():
    assert_schema_match(df, {'id': 'int64', 'email': 'object'})
    assert_no_nulls(df, ['id', 'email'])
    assert_unique(df, ['id'])

Dependencies

pandas
Skills similaires