Cuando una empresa evalúa adoptar IA generativa, la pregunta más frecuente es: "¿cómo hago que el modelo conozca mis documentos, procedimientos y clientes, sin que esa información termine en OpenAI o Google?". La respuesta estándar de la industria en 2025 se llama RAG: Retrieval-Augmented Generation.
RAG no es un producto, es un patrón de arquitectura. En esta guía explicamos qué es, por qué es el enfoque más seguro, cómo se construye y qué herramientas usar en proyectos para empresas chilenas y latinoamericanas.
Índice
¿Qué es RAG y por qué importa?
Los modelos de lenguaje (GPT-4, Claude, Gemini, Llama) tienen dos limitaciones críticas para uso empresarial:
- No conocen tu empresa. Fueron entrenados con datos públicos hasta cierta fecha.
- Alucinan. Cuando no saben, inventan respuestas plausibles pero falsas.
RAG soluciona ambos problemas: antes de responder, el sistema recupera fragmentos relevantes de tu base documental y los inyecta como contexto en el prompt. El modelo ya no tiene que adivinar: responde basado en tus documentos.
Arquitectura de un sistema RAG
Un pipeline RAG típico tiene dos fases: ingesta (offline) y consulta (online).
Fase 1: Ingesta
- Conectores: extraer contenido desde SharePoint, Google Drive, Confluence, Notion, bases de datos, PDFs locales.
- Chunking: dividir cada documento en fragmentos de 200-500 tokens.
- Embeddings: convertir cada chunk en un vector numérico usando modelos como
text-embedding-3-large(OpenAI) ovoyage-3. - Almacenamiento: guardar vectores + texto + metadatos en una base vectorial.
Fase 2: Consulta
- El usuario hace una pregunta.
- La pregunta se convierte en vector.
- Se buscan los top-k chunks más similares (similaridad coseno).
- Se construye un prompt con la pregunta + chunks recuperados.
- El LLM genera una respuesta citando las fuentes.
Bases de datos vectoriales
| Opción | Tipo | Mejor para |
|---|---|---|
| pgvector (PostgreSQL) | Self-hosted | Equipos con Postgres, hasta 5M vectores |
| Pinecone | SaaS | Producción a gran escala, low-latency |
| Weaviate | Open-source / cloud | Self-host + filtros complejos |
| Qdrant | Open-source / cloud | On-premise con performance |
| Azure AI Search | Managed Azure | Stack Microsoft 365 |
| Vertex AI Vector Search | Managed GCP | Stack Google |
Para la mayoría de PYMEs chilenas, pgvector sobre PostgreSQL es la opción más pragmática: ya tienes la base, agregas una extensión, y manejas hasta varios millones de chunks sin drama.
Seguridad y privacidad
RAG correctamente implementado es más seguro que exponer documentos crudos al LLM. Claves:
- Data residency: tus documentos y embeddings nunca salen de tu infraestructura. Solo viajan fragmentos específicos al LLM.
- Contratos empresariales: usa Azure OpenAI, AWS Bedrock, Vertex AI o APIs empresariales que no entrenan con tus datos.
- Permisos heredados: filtra resultados por ACL del usuario. Si un colaborador no tiene acceso al documento original, el sistema no debe retornarlo.
- Logging y auditoría: registra qué se consultó, qué se retornó y quién lo hizo para cumplir con Ley 19.628.
- Clasificación de datos: excluye documentos altamente sensibles (remuneraciones, finiquitos) o aplica redacción automática.
Casos de uso típicos
- Asistente interno de RRHH: responde sobre políticas, beneficios, vacaciones basándose en manuales oficiales.
- Knowledge base de soporte: agentes consultan la base técnica y reciben respuestas con links a los runbooks.
- Asistente legal: busca cláusulas en contratos históricos, jurisprudencia interna y plantillas.
- Asistente comercial: respuestas sobre productos, precios, casos de éxito, competencia.
- Onboarding de nuevos empleados: responde dudas sobre procesos, herramientas y cultura.
Errores comunes
- Chunks mal dimensionados: demasiado grandes pierden relevancia; muy pequeños pierden contexto. Parte con 300 tokens + 50 de overlap.
- Solo búsqueda vectorial: combina con búsqueda por keywords (BM25) para casos donde importan términos exactos (RUTs, códigos de producto).
- No re-ranking: usa un modelo re-ranker (Cohere Rerank, Voyage rerank) para ordenar los top-20 y enviar los top-5 al LLM.
- Ignorar evaluación: mide precisión con un set de preguntas/respuestas de referencia. Ver frameworks como RAGAS.
- No citar fuentes: muestra siempre de qué documento viene cada afirmación, para generar confianza y auditabilidad.
Costos y tiempos
Un proyecto de RAG empresarial típico en Chile:
- Piloto (4-6 semanas): CLP 6.000.000 - 12.000.000, hasta 10.000 documentos, 1 caso de uso.
- Costos recurrentes: USD 100-500/mes de API de embeddings + LLM + vector DB managed (si aplica).
- Escalamiento: producción multiárea parte desde CLP 20.000.000 con integraciones completas.
¿Necesitas implementar RAG en tu empresa?
Te ayudamos con arquitectura, selección de stack, ingesta segura y medición de resultados.
Conversar con UpTechPreguntas frecuentes
¿Qué es RAG en palabras simples?
Un sistema que busca información relevante en TUS documentos antes de pedirle al modelo de IA que responda, para evitar alucinaciones y mantener la data privada.
¿Cuánto cuesta implementar RAG?
Un piloto con ~10.000 documentos cuesta entre USD 5.000 y USD 15.000 de implementación + USD 100-500/mes recurrentes.
¿RAG es más seguro que usar ChatGPT directamente?
Sí, bien implementado: los datos viven en tu nube, contratos empresariales impiden entrenamiento con ellos, y solo los fragmentos necesarios viajan al LLM.
¿Qué pasa con los permisos de acceso?
Debes implementar filtrado de permisos en la consulta. Si un usuario no puede ver el documento original, el sistema no debe retornar sus fragmentos.
¿RAG reemplaza el fine-tuning?
Son complementarios. RAG aporta conocimiento actualizado y específico; el fine-tuning ajusta el estilo y el formato de respuesta. Para la mayoría de casos empresariales, RAG solo es suficiente.
Construimos soluciones RAG sobre tu base documental con control de acceso y auditoría.
Conversemos: evaluamos sin costo cómo aplicarlo en tu empresa.