
Aujourd’hui, les organisations collectent des volumes de données à une vitesse record. Entre les mesures de capteurs et le comportement des consommateurs, le besoin d’outils capables de stocker et d’analyser de grandes quantités de données efficacement n’a jamais été aussi important. Google Cloud propose des solutions adaptées, notamment avec Google BigQuery.
Les bons outils d’analyse des données facilitent grandement la prise de décisions basée sur les données. Google BigQuery est l’un de ces outils puissants, et cet article vous explique comment l’utiliser pas à pas.
Qu’est-ce que Google BigQuery ?
BigQuery est un entrepôt de données entièrement géré et sans serveur proposé par Google Cloud Platform (GCP). Il permet d’analyser des téraoctets de données en quelques secondes.
BigQuery repose sur Dremel, un système distribué développé par Google pour interroger rapidement de très grands ensembles de données. Dremel divise l’exécution des requêtes en « slots » pour répartir équitablement les ressources entre plusieurs utilisateurs. Ce système utilise Jupiter (le réseau interne de Google) pour accéder au stockage, lui-même basé sur Colossus, un système de fichiers distribué qui assure la réplication et la récupération des données.
Les données sont stockées sous un format colonnaire, permettant une forte compression et une vitesse d’analyse élevée. BigQuery peut également interroger des données provenant d’autres services comme BigTable, Cloud Storage, Cloud SQL, Google Analytics ou encore Google Drive.
BigQuery est idéal pour les analyses de très grands volumes de données, notamment lorsque les jeux de données sont essentiellement en lecture seule. Ce n’est pas un outil adapté aux bases de données transactionnelles classiques (OLTP) ni aux petites bases de données.
Enfin, BigQuery fonctionne sans nécessiter la gestion de l’infrastructure : vous payez uniquement selon l’espace de stockage utilisé et le volume des requêtes effectuées. À noter cependant que les données doivent être hébergées sur Google Cloud, ce qui peut limiter votre flexibilité architecturale.
Guide pratique : Comment utiliser Google BigQuery
BigQuery est accessible depuis l’interface web de Google Cloud Platform, ou via API, SDK ou CLI.
Même sans disposer de vos propres données, vous pouvez commencer avec des datasets publics proposés par Google Cloud. Un exemple intéressant est le jeu de données sur la COVID-19, libre d’accès.
Voici comment procéder :
Étape 1 : Télécharger le dataset sur votre ordinateur
Téléchargez une version à jour du dataset au format CSV sur votre machine locale.
Étape 2 : Importer et stocker le dataset dans Google BigQuery
- Connectez-vous à GCP et allez dans la console BigQuery (section Big Data).
- Cliquez sur CREATE DATASET pour créer un nouveau dataset. Donnez-lui un identifiant unique et choisissez une région de stockage.
- Une fois le dataset créé, cliquez sur CREATE TABLE :
- Source : Upload
- Format du fichier : CSV
- Sélectionnez votre fichier local.
- Nommez votre table (par exemple :
worldwide_cases
). - Activez l’option Auto Detect pour détecter automatiquement le schéma.

Étape 3 : Interroger les données stockées dans BigQuery
Une fois la table créée, vous pouvez lancer vos premières requêtes SQL :
- Pour afficher 1000 lignes : sqlCopierModifier
SELECT * FROM `nom_du_projet.nom_du_dataset.worldwide_cases` LIMIT 1000
- Pour obtenir le nombre total de cas et de décès par pays : sqlCopierModifier
SELECT countriesAndTerritories, SUM(cases) AS N_Cases, SUM(deaths) AS N_Deaths, COUNT(*) AS N_Rows FROM `nom_du_projet.nom_du_dataset.worldwide_cases` GROUP BY countriesAndTerritories LIMIT 1000

Étape 4 : Ajouter le dataset à Google Cloud Storage
Vous pouvez également stocker vos fichiers dans Google Cloud Storage (GCS) :
- Créez un bucket GCS.
- Téléversez votre fichier CSV dans ce bucket.
(Tu peux consulter la documentation de Google pour créer un bucket si besoin.)

Étape 5 : Utiliser BigQuery avec un dataset dans Google Cloud Storage
- Dans BigQuery, créez une nouvelle table :
- Source : Google Cloud Storage
- Indiquez le chemin du fichier dans GCS.
- Format : CSV
- Donnez-lui un nouveau nom (par exemple
worldwide_cases_in_bucket
).
- Vous pourrez interroger cette nouvelle table de la même manière que précédemment.


Conclusion
BigQuery est une solution extrêmement puissante pour explorer et analyser rapidement de grandes quantités de données. Elle permet de passer de zéro à une analyse avancée en très peu de temps.
Cependant, malgré ses avantages, BigQuery n’est pas parfait : il est moins adapté aux données qui changent fréquemment et impose d’utiliser le stockage Google Cloud. Pour une plus grande flexibilité, il est recommandé de conserver vos données brutes ailleurs.
Pour stocker efficacement de gros volumes de données tout en gardant la liberté de choix du cloud, Cloud Volumes ONTAP de NetApp est une excellente alternative. Disponible sur AWS, Azure et Google Cloud, cette solution permet d’optimiser les coûts, d’améliorer l’efficacité du stockage, de cloner facilement les datasets, de faire du tiering automatique, et d’assurer la protection des données.