Notre avis
Cette compétence indexe des documents de référence (PDF, Word, etc.) dans un corpus RAG pour permettre des recherches contextuelles.
Points forts
- Extraction automatique de texte à partir de multiples formats
- Intégration transparente avec le RAG pour la génération augmentée
- Recherche sémantique avec scores de pertinence
- Gestion structurée des documents par catégories
Limites
- Limité à un dossier de références spécifique (.agentic_sdlc/references)
- Nécessite une configuration RAG préalable
- La qualité de l'extraction PDF peut varier selon le formatage
Utilisez cette compétence lorsque vous devez ajouter ou interroger des documents de référence externes dans un corpus RAG.
Ne l'utilisez pas pour des documents qui ne nécessitent pas d'indexation ou lorsque le volume de documents est très faible.
Analyse de sécurité
PrudenceThe skill employs Bash for legitimate document processing tasks like extracting text from PDFs and Word files. It does not involve network access, exfiltration, or system modification. The risk is low, but the use of Bash warrants caution.
- •Uses Bash to execute external commands (pdftotext, Python scripts) for document extraction, which could be misused if provided malicious file paths, but the skill itself does not contain destructive or obfuscated code.
Exemples
/ref-add .agentic_sdlc/references/legal/lei-13775-2018.pdf/ref-search "prazo de aceite duplicata"/ref-listname: reference-indexer description: | Indexa documentos de referencia para uso no RAG. Extrai texto de PDFs, processa e adiciona ao corpus. Use quando: adicionar documento, buscar referencia, listar docs. allowed-tools:
- Read
- Write
- Bash
- Glob user-invocable: true
Reference Indexer Skill
Proposito
Esta skill gerencia documentos de referencia externa, indexando-os para uso no RAG.
Comandos
/ref-add {path}
Adiciona documento ao indice de referencias:
/ref-add .agentic_sdlc/references/legal/lei-13775-2018.pdf
Acoes:
- Valida o arquivo
- Extrai texto (se PDF/Word)
- Cria resumo automatico
- Adiciona ao corpus RAG
- Atualiza indice
/ref-search {query}
Busca nos documentos de referencia:
/ref-search "prazo de aceite duplicata"
Retorna:
- Documentos relevantes
- Trechos com contexto
- Score de relevancia
/ref-list
Lista todos os documentos indexados:
/ref-list
Mostra:
- Documentos por categoria
- Status de indexacao
- Data de adicao
/ref-remove {path}
Remove documento do indice:
/ref-remove .agentic_sdlc/references/legal/documento-antigo.pdf
Formatos Suportados
| Formato | Extensao | Metodo de Extracao | |---------|----------|-------------------| | PDF | .pdf | pdftotext / PyPDF2 | | Word | .docx | python-docx | | Markdown | .md | Direto | | Texto | .txt | Direto | | HTML | .html | BeautifulSoup |
Estrutura de Referencias
.agentic_sdlc/references/
├── legal/ # Leis, regulamentos, normas
├── technical/ # RFCs, especificacoes tecnicas
├── business/ # Regras de negocio, manuais
├── internal/ # Documentos internos
└── _index.yml # Indice de documentos
Indice de Documentos
Arquivo _index.yml:
index:
version: 1
updated_at: "2026-01-12T..."
documents:
- id: "ref-001"
path: "legal/lei-13775-2018.pdf"
title: "Lei 13.775/2018 - Duplicatas Eletrônicas"
category: legal
added_at: "2026-01-12T..."
indexed: true
summary: "Lei que regulamenta as duplicatas escriturais..."
keywords:
- duplicata
- escritural
- eletronica
page_count: 5
- id: "ref-002"
path: "technical/icp-brasil.pdf"
title: "Padrões ICP-Brasil"
category: technical
added_at: "2026-01-12T..."
indexed: true
Extracao de Texto
# Usando pdftotext (poppler-utils)
pdftotext -layout input.pdf output.txt
# Usando Python
python3 << 'EOF'
import PyPDF2
with open('input.pdf', 'rb') as f:
reader = PyPDF2.PdfReader(f)
text = ''
for page in reader.pages:
text += page.extract_text() + '\n'
print(text)
EOF
Word (docx)
from docx import Document
doc = Document('input.docx')
text = '\n'.join([p.text for p in doc.paragraphs])
print(text)
Integracao com RAG
Documentos indexados sao adicionados ao corpus RAG:
corpus_entry:
id: "ref-001"
source: "references/legal/lei-13775-2018.pdf"
type: "reference"
category: "legal"
content: "{texto extraido}"
embeddings: [...] # Gerado pelo RAG
metadata:
title: "Lei 13.775/2018"
page: 1
section: "Art. 1"
Workflow de Indexacao
indexing_workflow:
1_validate:
- Verificar formato suportado
- Verificar tamanho (max 50MB)
- Verificar permissoes
2_extract:
- Extrair texto do documento
- Limpar formatacao
- Dividir em chunks
3_analyze:
- Gerar resumo automatico
- Extrair keywords
- Classificar categoria
4_index:
- Adicionar ao corpus RAG
- Gerar embeddings
- Atualizar indice
5_verify:
- Testar busca
- Verificar qualidade
Configuracao
No settings.json:
{
"memory": {
"rag_corpus": ".agentic_sdlc/corpus",
"max_document_size_mb": 50,
"chunk_size": 1000,
"chunk_overlap": 200
}
}
Boas Praticas
- Nomeie arquivos descritivamente:
lei-13775-2018-duplicatas.pdf - Organize por categoria: legal, technical, business
- Mantenha versoes: Nao sobrescreva, versione
- Documente a fonte: Adicione de onde veio
- Resuma docs longos: Crie resumos para PDFs grandes
Troubleshooting
PDF nao extrai texto
Alguns PDFs sao imagens escaneadas. Use OCR:
ocrmypdf input.pdf output.pdf
pdftotext output.pdf -
Documento muito grande
Divida em partes menores ou aumente max_document_size_mb.
Encoding incorreto
Force UTF-8 na extracao:
pdftotext -enc UTF-8 input.pdf output.txt
Ingénierie de Prompts
Data & IA
Bonnes pratiques et templates de prompt engineering pour maximiser les résultats IA.
Visualisation de Données
Data & IA
Génère des visualisations de données et graphiques adaptés à vos données.
Architecture RAG
Data & IA
Guide de configuration d'architectures RAG (Retrieval-Augmented Generation).