Skip to content

Arquitectura de Data Engineering - Solvento

Bienvenido a la documentación centralizada de la arquitectura de data engineering de Solvento en Google Cloud Platform (GCP).

Visión General

Esta documentación proporciona una vista completa y actualizada de todos los componentes, flujos de datos y relaciones dentro del área de data engineering de Solvento. El objetivo es mantener un registro centralizado y amigable para visualizar la arquitectura completa.

Estructura de la Documentación

La documentación está organizada en las siguientes secciones principales:

Consumo de Datos

Documentación de todos los elementos que consumen o ingieren datos en el sistema: - BigQuery: Datasets, tablas y vistas - Pub/Sub: Topics y subscriptions - Cloud Storage: Buckets y archivos - Dataflow: Pipelines de procesamiento - Cloud Functions: Funciones serverless - Cloud Run: Servicios containerizados - APIs Externas: Integraciones con servicios externos - Webhooks: Endpoints para recepción de eventos (Syntage, Toku) - Datastream: Replicación de LoanPro (MySQL) — ventanas de 15 min - Airbyte: Replicación de Backend Solvento (PostgreSQL) y HubSpot

Procesamiento

Transformaciones, ETL y procesamiento de datos: - dbt: Transformaciones y consistencia de datos en BigQuery - Cloud Run: Procesos de consistencia (invoices, items)

Almacenamiento

Data lakes, warehouses y almacenamiento persistente

Visualización

Herramientas de Business Intelligence y observabilidad operativa: - Luzmo: Dashboards y visualizaciones - Metabase Cloud: Analíticas internas y dashboards embebidos (solvento.metabaseapp.com) - Cloud Monitoring (Data Processes): Estado de procesos de ingesta en solvento-data-prod (Pub/Sub, Dataflow, logs, latencias, tablas)

Proyectos

Proyectos completos del área de data engineering: - Terminal: Proyecto completo de análisis y visualización de datos de terminales de carga, que consume del DWH y expone datos a través de una aplicación web (Lovable)

Diagramas

Visualizaciones de arquitectura y flujos de datos usando diagramas Mermaid

Proyectos GCP

La arquitectura utiliza tres proyectos principales de GCP, cada uno con un propósito específico:

  • solvento-data-prod: Proyecto de datos raw (sin procesar)
  • solvento-adv-analytics-prod: Proyecto de datos depurados y transformados (ETL desde data-prod)
  • solvento-risk-analytics-prod: Proyecto de datos de riesgo (puede leer de data-prod o adv-analytics-prod)

Filosofía: Todo ingresa primero a solvento-data-prod como raw data. Los procesos ETL transforman y escriben a solvento-adv-analytics-prod para consumo depurado. solvento-risk-analytics-prod puede leer de ambos según necesidad.

Ver documentación completa de proyectos GCP →

Cómo Usar Esta Documentación

  1. Navegación: Usa el menú lateral para explorar las diferentes secciones
  2. Búsqueda: Utiliza la barra de búsqueda para encontrar componentes específicos
  3. Diagramas: Revisa los diagramas en la sección correspondiente para entender los flujos
  4. Actualización: Esta documentación se actualiza incrementalmente según evoluciona la arquitectura

Estado Actual

  • Consumo: Documentación completa de elementos de consumo (estructura base lista)
  • Procesamiento: Estructura base creada, contenido en desarrollo
  • Almacenamiento: Estructura base creada, contenido en desarrollo

Guía Rápida

Para Documentar Nuevos Recursos

Cada página de componente incluye secciones marcadas con "Por agregar" donde puedes documentar recursos específicos. Consulta la plantilla de recursos para ver ejemplos de formato.

Para Visualizar la Documentación

  1. Instala las dependencias: pip install -r requirements.txt
  2. Sirve localmente: mkdocs serve
  3. Abre en el navegador: http://127.0.0.1:8000

Última actualización: En desarrollo