
Hoy en día, las organizaciones recopilan volúmenes de datos a una velocidad récord. Entre las medidas de sensores y el comportamiento de los consumidores, la necesidad de herramientas capaces de almacenar y analizar grandes cantidades de datos de manera eficiente nunca ha sido tan importante. Google Cloud ofrece soluciones adecuadas, especialmente con Google BigQuery.
Las buenas herramientas de análisis de datos facilitan enormemente la toma de decisiones basada en datos. Google BigQuery es una de estas poderosas herramientas, y este artículo te explica cómo utilizarla paso a paso.
¿Qué es Google BigQuery?
BigQuery es un almacén de datos completamente gestionado y sin servidor ofrecido por Google Cloud Platform (GCP). Permite analizar terabytes de datos en cuestión de segundos.
BigQuery se basa en Dremel, un sistema distribuido desarrollado por Google para consultar rápidamente conjuntos de datos muy grandes. Dremel divide la ejecución de las consultas en “slots” para distribuir equitativamente los recursos entre varios usuarios. Este sistema utiliza Jupiter (la red interna de Google) para acceder al almacenamiento, que a su vez se basa en Colossus, un sistema de archivos distribuido que asegura la replicación y recuperación de datos.
Los datos se almacenan en un formato columnar, lo que permite una alta compresión y una velocidad de análisis elevada. BigQuery también puede consultar datos de otros servicios como BigTable, Cloud Storage, Cloud SQL, Google Analytics o Google Drive.
BigQuery es ideal para análisis de grandes volúmenes de datos, especialmente cuando los conjuntos de datos son principalmente de solo lectura. No es una herramienta adecuada para bases de datos transaccionales clásicas (OLTP) ni para pequeñas bases de datos.
Finalmente, BigQuery funciona sin necesidad de gestionar la infraestructura: solo pagas según el espacio de almacenamiento utilizado y el volumen de consultas realizadas. Sin embargo, es importante señalar que los datos deben estar alojados en Google Cloud, lo que puede limitar tu flexibilidad arquitectónica.
Guía práctica: Cómo utilizar Google BigQuery
BigQuery es accesible desde la interfaz web de Google Cloud Platform, o a través de API, SDK o CLI.
Incluso sin tener tus propios datos, puedes comenzar con datasets públicos ofrecidos por Google Cloud. Un ejemplo interesante es el conjunto de datos sobre COVID-19, de acceso libre.
Aquí te explicamos cómo proceder:
Paso 1: Descargar el dataset en tu computadora
Descarga una versión actualizada del dataset en formato CSV en tu máquina local.
Paso 2: Importar y almacenar el dataset en Google BigQuery
- Inicia sesión en GCP y ve a la consola BigQuery (sección Big Data).
- Haz clic en CREAR DATASET para crear un nuevo dataset. Asigna un identificador único y elige una región de almacenamiento.
- Una vez creado el dataset, haz clic en CREAR TABLA:
- Fuente: Subir
- Formato del archivo: CSV
- Selecciona tu archivo local.
- Nombra tu tabla (por ejemplo:
worldwide_cases). - Activa la opción Detección Automática para detectar automáticamente el esquema.

Paso 3: Consultar los datos almacenados en BigQuery
Una vez creada la tabla, puedes lanzar tus primeras consultas SQL:
- Para mostrar 1000 filas: sqlCopierModifier
SELECT * FROM `nombre_del_proyecto.nombre_del_dataset.worldwide_cases` LIMIT 1000 - Para obtener el número total de casos y muertes por país: sqlCopierModifier
SELECT countriesAndTerritories, SUM(cases) AS N_Cases, SUM(deaths) AS N_Deaths, COUNT(*) AS N_Rows FROM `nombre_del_proyecto.nombre_del_dataset.worldwide_cases` GROUP BY countriesAndTerritories LIMIT 1000

Paso 4: Agregar el dataset a Google Cloud Storage
También puedes almacenar tus archivos en Google Cloud Storage (GCS):
- Crea un bucket GCS.
- Sube tu archivo CSV a este bucket.
(Puedes consultar la documentación de Google para crear un bucket si es necesario.)

Paso 5: Usar BigQuery con un dataset en Google Cloud Storage
- En BigQuery, crea una nueva tabla:
- Fuente: Google Cloud Storage
- Indica la ruta del archivo en GCS.
- Formato: CSV
- Asigna un nuevo nombre (por ejemplo
worldwide_cases_in_bucket).
- Podrás consultar esta nueva tabla de la misma manera que antes.


Conclusión
BigQuery es una solución extremadamente poderosa para explorar y analizar rápidamente grandes cantidades de datos. Permite pasar de cero a un análisis avanzado en muy poco tiempo.
Sin embargo, a pesar de sus ventajas, BigQuery no es perfecto: es menos adecuado para datos que cambian con frecuencia y requiere utilizar el almacenamiento de Google Cloud. Para una mayor flexibilidad, se recomienda mantener tus datos en bruto en otro lugar.
Para almacenar eficazmente grandes volúmenes de datos mientras mantienes la libertad de elección del cloud, Cloud Volumes ONTAP de NetApp es una excelente alternativa. Disponible en AWS, Azure y Google Cloud, esta solución permite optimizar costos, mejorar la eficiencia del almacenamiento, clonar fácilmente los datasets, realizar tiering automático y asegurar la protección de los datos.



