Scraper Documentation Snowflake

VérifiéSûr

Extrait des sections de docs.snowflake.com en fichiers Markdown avec mise en cache SQLite (expiration de 7 jours). Configurable via des options en ligne de commande pour le chemin de base, la profondeur d'exploration et le répertoire de sortie. Utile pour obtenir des copies locales de la documentation Snowflake pour une consultation hors ligne ou un traitement automatisé.

Spar Skills Guide Bot
DocumentationIntermédiaire
20002/06/2026
Claude Code
#snowflake#documentation-scraper#web-scraping#markdown-conversion

Recommandé pour

Notre avis

Un outil pour extraire la documentation Snowflake en fichiers Markdown avec mise en cache et profondeur de crawl configurable.

Points forts

  • Installation simple grâce à l'auto-installation des dépendances
  • Cache SQLite limitant les requêtes répétées et accélérant les mises à jour
  • Configuration flexible du chemin de base et de la profondeur de crawl
  • Sortie structurée en Markdown avec métadonnées (frontmatter)

Limites

  • Fonctionne uniquement sur docs.snowflake.com
  • Peut télécharger un grand nombre de pages si la profondeur est élevée
  • La durée de vie du cache est fixée à 7 jours sans option de personnalisation
Quand l'utiliser

Lorsque vous avez besoin de copies locales de sections de la documentation Snowflake pour une consultation hors ligne ou pour alimenter un LLM.

Quand l'éviter

Pour extraire des données d'autres sites web ou pour obtenir des mises à jour en temps réel.

Analyse de sécurité

Sûr
Score qualité85/100

The skill is a documentation scraper that accesses a trusted domain (docs.snowflake.com) and writes to a local directory. It does not execute downloaded content, expose secrets, or perform destructive actions. The first-time setup uses a Python script that installs a tool via standard package managers, which is a common pattern and not inherently risky.

Aucun point d'attention détecté

Exemples

Scrape entire migration guide
Scrape the Snowflake documentation migration guide with default settings and save it to ./migration-docs
Scrape SQL reference with depth 2
Use doc-scraper to scrape the Snowflake SQL reference section at /en/sql-reference/ with spider depth 2, output to ./sql-docs
Dry-run preview
Run a dry run of doc-scraper for the base path /en/sql-reference/ to see which URLs will be scraped without writing files.

name: doc-scraper description: Generic web scraper for extracting and organizing Snowflake documentation with intelligent caching and configurable spider depth. Scrapes any section of docs.snowflake.com controlled by --base-path.

Snowflake Documentation Scraper

Scrapes docs.snowflake.com sections to Markdown with SQLite caching (7-day expiration).

Usage

First time setup (auto-installs uv and doc-scraper):

python3 .claude/skills/doc-scraper/scripts/doc_scraper.py

Subsequent runs:

doc-scraper --output-dir=./snowflake-docs
doc-scraper --output-dir=./snowflake-docs --base-path="/en/sql-reference/"
doc-scraper --output-dir=./snowflake-docs --spider-depth=2

Command Options

| Option | Default | Description | | ---------------- | ----------------- | ------------------------------------- | | --output-dir | Required | Output directory for scraped docs | | --base-path | /en/migrations/ | URL section to scrape | | --spider-depth | 1 | Link depth: 0=seeds, 1=+links, 2=+2nd | | --limit | None | Cap URLs (for testing) | | --dry-run | - | Preview without writing |

Output

output-dir/
├── SKILL.md              # Auto-generated index
├── scraper_config.yaml   # Editable config (auto-created)
├── .cache/               # SQLite cache (auto-managed)
└── en/migrations/*.md    # Scraped pages with frontmatter

Configuration

Auto-created at {output-dir}/scraper_config.yaml:

rate_limiting:
  max_concurrent_threads: 4
spider:
  max_pages: 1000
  allowed_paths: ["/en/"]
scraped_pages:
  expiration_days: 7

Troubleshooting

| Issue | Solution | | ---------------- | ------------------------------------- | | Too many pages | Lower --spider-depth or edit config | | Missing pages | Increase --spider-depth | | Cache corruption | Delete {output-dir}/.cache/ (rare) |

Skills similaires