Spécialiste en Observabilité

VérifiéSûr

Utilisez cette compétence pour configurer la surveillance, la journalisation, le traçage distribué et les alertes pour les applications et l'infrastructure. Elle aide à mettre en place une journalisation structurée en JSON, à suivre les signaux d'or (latence, trafic, erreurs, saturation) avec des métriques de style Prometheus, et à implémenter un traçage distribué via OpenTelemetry. Idéale pour déboguer des problèmes de production, créer des tableaux de bord et définir des alertes pertinentes.

Spar Skills Guide Bot
DevOpsIntermédiaire
4002/06/2026
Claude CodeCursorWindsurfCopilotCodex
#observability#monitoring#logging#distributed-tracing#alerting

Recommandé pour

Notre avis

Ce skill permet de configurer la surveillance, la journalisation structurée, le traçage distribué et les alertes pour les applications et infrastructures.

Points forts

  • Couvre les trois piliers de l'observabilité (logs, métriques, traces)
  • Fournit des exemples de code concrets en Python
  • Inclut la configuration des Golden Signals pour la fiabilité

Limites

  • Les exemples sont limités à Python, pas d'autres langages
  • Ne couvre pas l'intégration avec des fournisseurs de cloud spécifiques
  • Suppose une connaissance de base des concepts d'observabilité
Quand l'utiliser

Idéal pour démarrer l'observabilité dans une nouvelle application ou améliorer la stack existante.

Quand l'éviter

À éviter si vous avez déjà une solution d'observabilité complète et que vous cherchez un réglage fin avancé.

Analyse de sécurité

Sûr
Score qualité85/100

The skill provides guidance on observability patterns and includes Python code snippets for logging, metrics, and tracing. It does not instruct harmful actions like executing shell commands or exfiltrating data. No tools are declared, so the AI agent cannot run code.

Aucun point d'attention détecté

Exemples

Structured JSON Logging
Set up structured JSON logging for my Python service.
Prometheus Metrics
Add Prometheus metrics to track HTTP requests and latency.
OpenTelemetry Distributed Tracing
Implement OpenTelemetry distributed tracing for my microservices.

name: observability-specialist description: Use this for setting up monitoring, logging, distributed tracing, and alerting for applications and infrastructure.

Observability Specialist

You ensure systems are observable, debuggable, and reliable through metrics, logs, and traces.

When to use

  • "Set up monitoring for this app."
  • "Create an alert for high latency."
  • "Debug this production issue using logs."
  • "Implement distributed tracing."

Instructions

  1. Structured Logging:
    • Use JSON format for logs.
    • Include essential fields: timestamp, level, service, trace_id, message.
    • Log at appropriate levels (ERROR for faults, INFO for state changes, DEBUG for details).
  2. Metrics:
    • Track the "Golden Signals": Latency, Traffic, Errors, and Saturation.
    • Use Prometheus-style metrics (Counters, Gauges, Histograms).
  3. Tracing:
    • Implement OpenTelemetry or similar for distributed tracing.
    • Ensure trace context propagates across service boundaries.
  4. Dashboards & Alerts:
    • Create dashboards to visualize system health.
    • Define alerts on meaningful symptoms (user error rate) rather than just internal causes (CPU high).

Examples

1. Structured Logging with JSON

import logging
import json
from datetime import datetime

class JSONFormatter(logging.Formatter):
    def format(self, record):
        log_data = {
            "timestamp": datetime.utcnow().isoformat(),
            "level": record.levelname,
            "service": "my-service",
            "message": record.getMessage(),
            "trace_id": getattr(record, 'trace_id', None)
        }
        return json.dumps(log_data)

logger = logging.getLogger(__name__)
handler = logging.StreamHandler()
handler.setFormatter(JSONFormatter())
logger.addHandler(handler)
logger.setLevel(logging.INFO)

# Usage
logger.info("User logged in", extra={"trace_id": "abc123"})

2. Prometheus Metrics

from prometheus_client import Counter, Histogram, Gauge, start_http_server
import time

# Define metrics
request_count = Counter('http_requests_total', 'Total HTTP requests', ['method', 'endpoint', 'status'])
request_latency = Histogram('http_request_duration_seconds', 'HTTP request latency')
active_users = Gauge('active_users', 'Number of active users')

# Track metrics
@request_latency.time()
def handle_request(method, endpoint):
    # Your logic here
    time.sleep(0.1)
    request_count.labels(method=method, endpoint=endpoint, status='200').inc()

# Start metrics server
start_http_server(8000)

3. OpenTelemetry Distributed Tracing

from opentelemetry import trace
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor, ConsoleSpanExporter

# Setup
trace.set_tracer_provider(TracerProvider())
tracer = trace.get_tracer(__name__)
trace.get_tracer_provider().add_span_processor(
    BatchSpanProcessor(ConsoleSpanExporter())
)

# Usage
with tracer.start_as_current_span("process_order") as span:
    span.set_attribute("order.id", "12345")
    # Your business logic
    with tracer.start_as_current_span("validate_payment"):
        # Payment validation logic
        pass
Skills similaires