Skip to content

S3 → Glue → GCP

Flujo de ingesta de datos desde Amazon S3 hacia Google Cloud Platform utilizando AWS Glue como intermediario.

Descripción

Este flujo permite traer datos almacenados en Amazon S3 hacia GCP. AWS Glue actúa como servicio de ETL que lee datos de S3 y los escribe en GCP (Cloud Storage o BigQuery).

Flujo de Datos

graph TB
    subgraph aws["Amazon Web Services"]
        S3[S3 Bucket<br/>Datos Fuente]
        Glue[AWS Glue<br/>ETL Job]
    end

    subgraph gcp["Google Cloud Platform"]
        Storage[Cloud Storage<br/>Bucket]
        BigQuery[BigQuery]
    end

    S3 -->|"Lee datos"| Glue
    Glue -->|"Escribe datos procesados"| Storage
    Glue -->|"Escribe datos procesados"| BigQuery

Componentes

Amazon S3

Bucket de S3 que contiene los datos fuente que se desean migrar o sincronizar a GCP.

  • Bucket: Especificar nombre del bucket S3
  • Estructura: Estructura de archivos en el bucket
  • Formato de datos: Formato de los archivos (CSV, JSON, Parquet, etc.)
  • Frecuencia de actualización: Con qué frecuencia se actualizan los datos en S3

AWS Glue

Servicio de ETL de AWS que procesa los datos de S3 y los escribe en GCP.

  • Glue Job: Nombre y descripción del job de Glue
  • Frecuencia: Frecuencia de ejecución del job
  • Transformaciones: Transformaciones aplicadas a los datos
  • Credenciales GCP: Cómo Glue se autentica con GCP (service account, etc.)

Destino en GCP

Los datos procesados por Glue se escriben en GCP. Puede ser:

  • Cloud Storage: Archivos procesados almacenados en buckets
  • BigQuery: Datos estructurados escritos directamente a tablas

Configuración

Autenticación

AWS Glue necesita credenciales para escribir en GCP:

  • Service Account: Service account de GCP con permisos de escritura
  • Credenciales: Cómo se almacenan y utilizan las credenciales en Glue

Transformaciones

Transformaciones aplicadas durante el proceso:

  • Limpieza de datos: Validación y limpieza
  • Formato: Conversión de formatos si es necesario
  • Particionamiento: Si los datos se particionan al escribir

Recursos

S3 Bucket

  • Nombre: Nombre del bucket S3
  • Región: Región de AWS donde está el bucket
  • Estructura de archivos:
    bucket/
    ├── path/to/data/
    │   ├── file1.csv
    │   └── file2.json
    

AWS Glue Job

  • Job Name: Nombre del job de Glue
  • Script: Script de ETL utilizado
  • Schedule: Frecuencia de ejecución (cron expression)
  • Resources: Recursos asignados al job

Destino GCP

Cloud Storage (si aplica)

  • Bucket: Nombre del bucket en GCP
  • Path: Ruta donde se escriben los archivos
  • Formato: Formato de los archivos escritos

BigQuery (si aplica)

  • Proyecto: solvento-adv-analytics-prod
  • Dataset: Dataset destino
  • Tabla: Tabla destino
  • Write Disposition: APPEND, WRITE_TRUNCATE, etc.

Monitoreo y Métricas

  • Ejecuciones: Número de ejecuciones del job de Glue
  • Success Rate: Tasa de éxito de las ejecuciones
  • Data Volume: Volumen de datos transferidos
  • Latency: Tiempo de procesamiento y transferencia
  • Errors: Errores y fallos en el proceso

Referencias