Glosario de Términos
Glosario de términos técnicos y conceptos utilizados en la documentación de arquitectura de Solvento.
A
Airbyte
Plataforma open-source de integración de datos (ELT) que permite extraer datos de múltiples fuentes y cargarlos en destinos como BigQuery. En Solvento, se utiliza para ingestar datos del Backend de Solvento (PostgreSQL) y HubSpot (CRM) hacia solvento-data-prod.
API (Application Programming Interface)
Interfaz que permite la comunicación entre diferentes sistemas o servicios.
Autoscaling
Capacidad de un sistema para escalar automáticamente recursos según la demanda.
B
Batch Processing
Procesamiento de datos por lotes, típicamente ejecutado en horarios programados.
BigQuery
Data warehouse serverless de Google Cloud Platform para análisis de datos a gran escala.
C
CDC (Change Data Capture)
Técnica para identificar y capturar cambios en bases de datos (inserciones, actualizaciones, eliminaciones) para sincronización incremental. En Solvento: Datastream captura cambios de LoanPro (MySQL) vía binlog con flush cada 15 minutos, y Airbyte replica el Backend de Solvento (PostgreSQL) mediante CDC incremental.
Cloud Functions
Servicio serverless de Google Cloud que ejecuta funciones en respuesta a eventos.
Cloud Run
Servicio serverless de Google Cloud que ejecuta containers en respuesta a requests HTTP.
Cloud Storage
Servicio de almacenamiento de objetos de Google Cloud Platform.
Clustering
Técnica de organización de datos en BigQuery para optimizar consultas relacionadas.
D
Dataflow
Servicio de Google Cloud para procesamiento de datos stream y batch usando Apache Beam.
Datastream
Servicio de replicación y Change Data Capture (CDC) serverless de Google Cloud. Captura cambios del binlog de MySQL y los materializa en BigQuery en ventanas configurables. En Solvento, se utiliza para replicar datos de LoanPro (MySQL) hacia solvento-data-prod en ventanas de 15 minutos.
Data Lake
Repositorio centralizado que almacena datos en su formato raw y procesado.
Data Warehouse (DWH)
Sistema de almacenamiento estructurado optimizado para análisis y consultas. En Solvento, solvento-adv-analytics-prod actúa como el Data Warehouse principal con datos depurados y transformados.
Dataset
Contenedor lógico en BigQuery que agrupa tablas y vistas relacionadas.
E
ETL (Extract, Transform, Load)
Proceso de extraer datos de fuentes, transformarlos y cargarlos en un destino.
Event-Driven
Arquitectura donde los componentes reaccionan a eventos en lugar de polling.
F
Fan-Out Pattern
Patrón donde un evento se distribuye a múltiples consumidores.
G
GCP (Google Cloud Platform)
Plataforma de servicios en la nube de Google.
I
IAM (Identity and Access Management)
Sistema de gestión de identidades y accesos en Google Cloud.
Ingestion
Proceso de introducir datos al sistema desde fuentes externas.
M
Matia (Baja)
Herramienta de ingesta de datos anteriormente utilizada en Solvento, actualmente dada de baja. Sus fuentes fueron migradas: LoanPro a Datastream (CDC ventanas de 15 min), Backend Solvento y HubSpot a Airbyte, y webhooks de Toku a la arquitectura estándar (Cloud Run → Pub/Sub → Dataflow).
Medallion Architecture
Arquitectura de datos que organiza los datos en capas: Bronze (raw), Silver (cleansed), y Gold (curated/aggregated). Utilizada en proyectos dbt para organizar transformaciones.
Mermaid
Lenguaje de diagramación para crear diagramas en texto.
O
Observabilidad de ingesta
Conjunto de señales (métricas y logs) para ver el estado operativo de los procesos de ingesta en solvento-data-prod. En Solvento se centraliza en el dashboard Data Processes de Cloud Monitoring. Ver Observabilidad de ingesta.
P
Particionamiento
División de tablas en BigQuery por rangos de valores para optimizar consultas.
Pub/Sub
Servicio de mensajería asíncrona de Google Cloud Platform.
R
Raw Data
Datos en su formato original, sin procesar ni transformar.
Retention Policy
Política que define cuánto tiempo se mantienen los datos antes de eliminarlos o archivarlos.
S
Shinkansen
Plataforma de payouts integrada con Solvento. La ingesta hacia BigQuery (dataset solvento-data-prod.shinkansen) combina webhooks NRT, carga programada desde Treasury y, según despliegue, histórico por CSV; una vista unifica payouts y órdenes con distinta frescura de campos. Ver Shinkansen.
Serverless
Modelo de computación donde el proveedor gestiona la infraestructura automáticamente.
Staging Area
Área temporal donde se almacenan datos antes del procesamiento final.
Streaming
Procesamiento de datos en tiempo real a medida que llegan.
Subscription
Recurso en Pub/Sub que permite a los consumidores recibir mensajes de un topic.
T
Topic
Canal de mensajería en Pub/Sub donde los publishers envían mensajes.
Transformation
Proceso de modificar o enriquecer datos durante el procesamiento.
U
UPSERT
Operación que combina INSERT y UPDATE: inserta un registro si no existe, o lo actualiza si ya existe. Utilizado en pipelines ETL para manejar actualizaciones de datos históricos basándose en una clave única (ej: uuid).
V
View
Consulta predefinida en BigQuery que actúa como una tabla virtual.
W
Watermark
Mecanismo para rastrear el último punto procesado en una carga incremental de datos. Típicamente almacena un timestamp (etl_dts) que indica hasta qué punto se han procesado los datos, permitiendo reanudar el procesamiento desde ese punto.
Webhook
Endpoint HTTP que recibe eventos y notificaciones de sistemas externos.
Este glosario se actualiza continuamente. Si encuentras términos que necesitan definición, agrega una issue o contribuye directamente.