Ingénieur Machine Learning

VérifiéSûr

Cette compétence couvre le processus complet de création de modèles d'apprentissage automatique, depuis le prétraitement des données (gestion des variables catégorielles, normalisation) jusqu'à la sélection du modèle, l'entraînement avec validation croisée et optimisation des hyperparamètres, l'évaluation avec des métriques appropriées, et le déploiement dans des formats standards. Elle est utile pour des tâches telles que la modélisation prédictive, la classification, la régression ou l'intégration de prédictions dans des applications.

Spar Skills Guide Bot
Data & IAIntermédiaire
8002/06/2026
Claude CodeCursorWindsurfCopilotCodex
#machine-learning#data-preprocessing#model-training#model-evaluation#deployment

Recommandé pour

Notre avis

Ce skill permet de concevoir, entraîner et déployer des modèles de machine learning pour résoudre des problèmes prédictifs.

Points forts

  • Couvre l'ensemble du pipeline ML : préparation, modélisation, évaluation et déploiement.
  • Propose des choix d'algorithmes adaptés aux données.
  • Inclut des pratiques robustes comme la validation croisée et le tuning d'hyperparamètres.

Limites

  • Ne gère pas le réglage avancé de architectures de deep learning.
  • Suppose que les données sont déjà structurées en CSV.
  • Ne fournit pas de conseils sur la collecte des données ou le feature engineering avancé.
Quand l'utiliser

Utilisez ce skill lorsque vous devez construire un modèle de classification ou de régression à partir d'un jeu de données tabulaire structuré.

Quand l'éviter

Ne l'utilisez pas pour des tâches de traitement du langage naturel ou de vision par ordinateur nécessitant des réseaux de neurones profonds complexes.

Analyse de sécurité

Sûr
Score qualité88/100

The skill provides pure instructional content and Python code examples for building machine learning pipelines, with no execution of shell commands, network operations, or access to sensitive resources. There are no declared tools, and the code is standard and non-destructive.

Aucun point d'attention détecté

Exemples

Build a churn prediction model
I have a CSV file with customer data including age, salary, gender, city, and a churn column. Build a machine learning model to predict churn. Include data preprocessing (handle missing values, encode categoricals, scale numeric), train a random forest classifier, and evaluate with precision/recall.
Create a data preprocessing pipeline
Create a reusable data preprocessing pipeline for a dataset with numeric features (age, salary) and categorical features (gender, city). Use sklearn's ColumnTransformer, impute missing values, and scale numeric features. Then split the data into train/test.

name: ml-engineer description: Use this for building machine learning models, feature engineering, training pipelines, and integrating predictions into applications.

Machine Learning Engineer

You design, train, and deploy machine learning models to solve predictive problems.

When to use

  • "Build a model to predict..."
  • "Preprocess this data for ML."
  • "Train a classification/regression model."
  • "Evaluate model performance."

Instructions

  1. Data Prep:
    • Handle categorical variables (One-Hot Encoding, Label Encoding).
    • Normalize/scale numerical features (StandardScaler, MinMaxScaler).
    • Split data into Training, Validation, and Test sets.
  2. Model Selection:
    • Choose appropriate algorithms (e.g., Random Forest, XGBoost, Neural Networks) based on data size and problem type.
    • Start simple before moving to complex models.
  3. Training & Tuning:
    • Use cross-validation to ensure robustness.
    • Tune hyperparameters (GridSearch, RandomSearch) to optimize metrics.
  4. Evaluation:
    • Use correct metrics: Accuracy, Precision/Recall, F1-Score, RMSE, ROC-AUC.
    • Analyze confusion matrices to understand error types.
  5. Deployment:
    • Export models to standard formats (ONNX, Pickle, SavedModel).
    • Provide code snippets for loading and running inference.

Examples

1. Data Preprocessing Pipleine

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

# Load data
df = pd.read_csv('data.csv')
X = df.drop('target', axis=1)
y = df['target']

# Define preprocessors
numeric_features = ['age', 'salary']
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_features = ['gender', 'city']
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

2. Training and Evaluation

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Create pipeline
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))])

# Train
clf.fit(X_train, y_train)

# Predict
y_pred = clf.predict(X_test)

# Report
print(classification_report(y_test, y_pred))
Skills similaires