S3 → Glue → GCP
Flujo de ingesta de datos desde Amazon S3 hacia Google Cloud Platform utilizando AWS Glue como intermediario.
Descripción
Este flujo permite traer datos almacenados en Amazon S3 hacia GCP. AWS Glue actúa como servicio de ETL que lee datos de S3 y los escribe en GCP (Cloud Storage o BigQuery).
Flujo de Datos
graph TB
subgraph aws["Amazon Web Services"]
S3[S3 Bucket<br/>Datos Fuente]
Glue[AWS Glue<br/>ETL Job]
end
subgraph gcp["Google Cloud Platform"]
Storage[Cloud Storage<br/>Bucket]
BigQuery[BigQuery]
end
S3 -->|"Lee datos"| Glue
Glue -->|"Escribe datos procesados"| Storage
Glue -->|"Escribe datos procesados"| BigQuery
Componentes
Amazon S3
Bucket de S3 que contiene los datos fuente que se desean migrar o sincronizar a GCP.
- Bucket: Especificar nombre del bucket S3
- Estructura: Estructura de archivos en el bucket
- Formato de datos: Formato de los archivos (CSV, JSON, Parquet, etc.)
- Frecuencia de actualización: Con qué frecuencia se actualizan los datos en S3
AWS Glue
Servicio de ETL de AWS que procesa los datos de S3 y los escribe en GCP.
- Glue Job: Nombre y descripción del job de Glue
- Frecuencia: Frecuencia de ejecución del job
- Transformaciones: Transformaciones aplicadas a los datos
- Credenciales GCP: Cómo Glue se autentica con GCP (service account, etc.)
Destino en GCP
Los datos procesados por Glue se escriben en GCP. Puede ser:
- Cloud Storage: Archivos procesados almacenados en buckets
- BigQuery: Datos estructurados escritos directamente a tablas
Configuración
Autenticación
AWS Glue necesita credenciales para escribir en GCP:
- Service Account: Service account de GCP con permisos de escritura
- Credenciales: Cómo se almacenan y utilizan las credenciales en Glue
Transformaciones
Transformaciones aplicadas durante el proceso:
- Limpieza de datos: Validación y limpieza
- Formato: Conversión de formatos si es necesario
- Particionamiento: Si los datos se particionan al escribir
Recursos
S3 Bucket
- Nombre: Nombre del bucket S3
- Región: Región de AWS donde está el bucket
- Estructura de archivos:
AWS Glue Job
- Job Name: Nombre del job de Glue
- Script: Script de ETL utilizado
- Schedule: Frecuencia de ejecución (cron expression)
- Resources: Recursos asignados al job
Destino GCP
Cloud Storage (si aplica)
- Bucket: Nombre del bucket en GCP
- Path: Ruta donde se escriben los archivos
- Formato: Formato de los archivos escritos
BigQuery (si aplica)
- Proyecto:
solvento-adv-analytics-prod - Dataset: Dataset destino
- Tabla: Tabla destino
- Write Disposition: APPEND, WRITE_TRUNCATE, etc.
Monitoreo y Métricas
- Ejecuciones: Número de ejecuciones del job de Glue
- Success Rate: Tasa de éxito de las ejecuciones
- Data Volume: Volumen de datos transferidos
- Latency: Tiempo de procesamiento y transferencia
- Errors: Errores y fallos en el proceso