Orchestrer un pipeline de données avec BigQuery et Cloud Storage

INTERMEDIATE
90 minutes
5 tâches

Dans cet atelier, vous apprendrez à orchestrer un pipeline de données en utilisant des services Google Cloud tels que BigQuery et Cloud Storage. Vous concevrez un pipeline qui lit les données à partir des fichiers CSV stockés dans le Cloud Storage, les transforme en utilisant BigQuery SQL, et charge les résultats dans une table BigQuery. Cette expérience pratique vous préparera à automatiser, planifier et surveiller les tâches de traitement des données dans GCP.

Scénario

Votre entreprise, Data Insights Inc., traite quotidiennement des millions de lignes de données de transactions. L'entreprise doit analyser les données de ventes quotidiennes par région pour ajuster efficacement ses efforts de marketing. Vous allez mettre en place un pipeline de données qui intègre les données de transaction dans BigQuery pour le traitement analytique.

Objectifs d'Apprentissage

  • Concevoir un pipeline de données simple à l'aide de BigQuery et Cloud Storage.
  • Charger et transformer des données CSV dans BigQuery.
  • Automatiser et planifier les tâches de traitement des données avec l'orchestration de pipeline de données.
  • Surveiller le pipeline de données à l'aide de Cloud Logging et Cloud Monitoring.

tâches (5)

tâche 1: Créer un bucket Cloud Storage pour le stockage des données

10 min

tâche 2: Télécharger les fichiers de données CSV dans le bucket Cloud Storage

15 min

tâche 3: Charger les données CSV dans BigQuery et créer une table

20 min

tâche 4: Planifier une requête quotidienne pour analyser les transactions

25 min

tâche 5: Surveiller le pipeline avec Cloud Monitoring et Logging

20 min

Prérequis

  • Compréhension de base des concepts de Google Cloud Storage.
  • Familiarité avec l'écriture de requêtes SQL dans BigQuery.

Compétences Testées

Concevoir et mettre en œuvre des pipelines de données simples avec BigQuery et Cloud Storage.Planifier et automatiser les tâches de traitement de données à l'aide des requêtes programmées BigQuery.Surveiller le pipeline de données à l'aide de Cloud Logging et Monitoring.
    Orchestrer un pipeline de données avec BigQuery et Cloud Storage - Hands-On Lab - CertiPass