Assistant de Migration vers MinT

VérifiéSûr

Aide à migrer du code d'entraînement de LLM depuis des frameworks comme verl, TRL ou OpenRLHF vers MinT. Il fait correspondre les concepts du framework source à leurs équivalents MinT, fournit des exemples de code avant/après et souligne les différences clés comme la gestion de l'entraînement distribué et les fonctions de perte. Utile pour les développeurs adoptant MinT pour l'apprentissage par renforcement ou le fine-tuning.

Spar Skills Guide Bot
DeveloppementIntermédiaire
7002/06/2026
Claude Code
#llm-training#mint#migration#code-conversion#training-frameworks

Recommandé pour

Notre avis

Ce skill aide à migrer du code d'entraînement de LLM depuis des frameworks comme verl, TRL ou OpenRLHF vers MinT.

Points forts

  • Fournit des correspondances conceptuelles détaillées entre les frameworks sources et MinT
  • Inclut des exemples de code avant/après pour les motifs de migration courants
  • Met en garde contre les pièges fréquents comme l'alignement des tokens et les taux d'apprentissage LoRA

Limites

  • Nécessite que l'utilisateur connaisse déjà bien le framework source
  • Ne couvre pas tous les frameworks possibles (ex. DeepSpeed, NeMo)
Quand l'utiliser

Utilisez ce skill lorsque vous devez adapter un pipeline d'entraînement de LLM existant vers l'infrastructure MinT.

Quand l'éviter

Ne l'utilisez pas si vous partez de zéro sans code préexistant à migrer.

Analyse de sécurité

Sûr
Score qualité88/100

The skill provides pure guidance for code migration, with no executable tools, network requests, or destructive operations. It does not instruct the AI to run shell commands, alter system files, or exfiltrate data. The Python snippets are illustrative and not harmful.

Aucun point d'attention détecté

Exemples

Migrer de TRL vers MinT
Je veux migrer mon script d'entraînement TRL PPO vers MinT. Mon code utilise PPOTrainer, AutoModelForCausalLM et un dataset HuggingFace. Peux-tu me montrer la correspondance et un exemple de code avant/après ?
Adapter du code verl
J'ai un pipeline verl avec RolloutWorker et PPOTrainer. Comment le transformer pour utiliser SamplingClient et TrainingClient de MinT ? Donne un exemple concret.
Configurer une perte personnalisée
Dans mon code actuel j'utilise une perte DPO personnalisée. Comment faire la même chose avec forward_backward_custom() dans MinT ?

description: Help migrate LLM training code from verl, TRL, or similar frameworks to MinT argument-hint: [framework_name or migration_question]

MinT Migration Assistant

Help users migrate their LLM training code to MinT from verl, TRL, OpenRLHF, or similar frameworks.

Instructions

When invoked:

  1. Identify the source framework (verl, TRL, OpenRLHF, custom PyTorch)
  2. Map concepts from source framework to MinT equivalents
  3. Provide before/after code examples for the specific migration pattern
  4. Highlight key differences (distributed training, checkpointing, loss functions)
  5. Warn about common pitfalls (token alignment, learning rate scaling, async patterns)

Reference

Read mint_api_reference.txt in this directory for complete MinT API documentation.

Concept Mapping

verl to MinT

| verl | MinT | |------|------| | RolloutWorker | SamplingClient | | ActorRolloutRefWorker | TrainingClient + SamplingClient | | RewardManager | User-defined reward function | | PPOTrainer | forward_backward(loss_fn="ppo") + optim_step() | | DataProto | types.Datum | | vllm backend | MinT handles inference internally | | fsdp/megatron sharding | MinT handles distributed training internally |

TRL to MinT

| TRL | MinT | |-----|------| | SFTTrainer | forward_backward(loss_fn="cross_entropy") loop | | PPOTrainer | forward_backward(loss_fn="ppo") loop | | DPOTrainer | forward_backward_custom() with DPO loss | | AutoModelForCausalLM | service_client.create_lora_training_client() | | HuggingFace dataset | Convert to list[types.Datum] |

Key Differences

  1. Distributed training: MinT handles sharding server-side. No FSDP/Megatron config needed.

  2. Model loading: Specify model by name, not local path.

    training_client = service_client.create_lora_training_client(base_model="Qwen/Qwen3-8B")
    
  3. Inference: Built-in SamplingClient instead of vLLM workers.

    sampling_client = training_client.save_weights_and_get_sampling_client(name="...")
    
  4. Checkpointing: Named checkpoints with save_state() / save_weights_for_sampler().

  5. Loss functions: String selector for built-in losses.

    • "cross_entropy" - SFT
    • "importance_sampling" - Basic policy gradient
    • "ppo" - Clipped policy gradient
    • "cispo" - Clipped importance sampling
    • "dro" - Direct reward optimization

Common Pitfalls

  1. Async pattern: Always call .result() on futures.

    training_client.forward_backward(data, loss_fn).result()
    training_client.optim_step(params).result()
    
  2. Token alignment: Next-token prediction format.

    input_tokens = all_tokens[:-1]
    target_tokens = all_tokens[1:]
    weights = weights[1:]  # Aligned with targets
    
  3. LoRA learning rate: 20-100x higher than full fine-tuning.

  4. Gradient accumulation: Multiple forward_backward calls before single optim_step.

Skills similaires