Data Engineering on Google Cloud

Data Engineering on Google Cloud

Översikt

Denna fyradagars instruktörsledda kurs ger deltagarna en praktisk introduktion till att designa och bygga databehandlingssystem på Google Cloud Platform. Genom en kombination av presentationer, demonstrationer och praktiska övningar får deltagarna lära sig hur man utformar databehandlingssystem, bygger end-to-end datapipelines, analyserar data och utför maskininlärning. Kursen omfattar strukturerad, ostrukturerad och strömmande data.

 

Partnerkurs
Observera att detta är en partnerkurs och att den därför inte omfattas av Informators startgaranti.

Denna kurs lär deltagarna följande färdigheter: Designa och bygga databehandlingssystem på Google Cloud Platform Utnyttja ostrukturerade data med hjälp av Spark och ML API:er på Cloud Dataproc Bearbeta batch- och strömmande data genom att implementera automatisk skalning av datapipelines på Cloud Dataflow Få affärsinsikter från extremt stora datamängder med hjälp av Google BigQuery Träna, utvärdera och förutsäga med hjälp av maskininlärningsmodeller med TensorFlow och Cloud ML Möjliggöra omedelbara insikter från strömmande data

Den här kursen vänder sig till erfarna utvecklare som ansvarar för att hantera big data-transformationer, inklusive Extrahera, ladda, transformera, rengöra och validera data Utforma pipelines och arkitekturer för databehandling Skapa och underhålla maskininlärning och statistiska modeller Fråga dataset, visualisera frågeresultat och skapa rapporter

För att få ut mesta möjliga av denna kurs bör deltagarna ha: Genomfört: Google Cloud Fundamentals: Core Infrastructure (GCPFCI) -kurs ELLER ha motsvarande erfarenhet. Grundläggande kunskaper i ett vanligt frågespråk som SQL Erfarenhet av datamodellering, extrahera, transformera, ladda aktiviteter Utveckla applikationer med hjälp av ett vanligt programmeringsspråk som Python Kännedom om grundläggande statistik

Denna kurs levereras med QA

Modul 1: Introduktion till datateknik

  • Utforska rollen som dataingenjör.
  • Analysera utmaningar inom datateknik.
  • Introduktion till BigQuery.
  • Datasjöar och datalager.
  • Demo: Federerade frågor med BigQuery.
  • Transaktionsdatabaser kontra datalager.
  • Demo av webbplats: Hitta PII i ditt dataset med DLP API.
  • Samarbeta effektivt med andra datateam.
  • Hantera dataåtkomst och styrning.
  • Bygg produktionsfärdiga pipelines.
  • Granska GCP:s kundfallstudie.
  • Laboration: Analysera data med BigQuery.

Modul 2: Bygga upp en datasjö

  • Introduktion till datasjöar.
  • Datalagring och ETL-alternativ på GCP.
  • Bygga en datasjö med hjälp av molnlagring.
  • Valfri demo: Optimera kostnader med Google Cloud Storage-klasser och Cloud Functions.
  • Säkra molnlagring.
  • Lagring av alla sorters datatyper.
  • Video demonstration: Kör federerade frågor på Parquet- och ORC-filer i BigQuery.
  • Cloud SQL som en relational Data Lake.
  • Laboration: Läsa in taxidata i Cloud SQL.

Modul 3: Bygga upp ett datalager

  • Det moderna datalagret.
  • Introduktion till BigQuery.
  • Demo: Sök efter TB+ data på några sekunder.
  • Komma igång.
  • Laddar data.
  • Videodemo: Fråga Cloud SQL från BigQuery.
  • Laboration: Läsa in data i BigQuery.
  • Utforska scheman.
  • Demo: Utforska BigQuery Public Datasets med SQL med hjälp av INFORMATION_SCHEMA.
  • Schemadesign.
  • Nested och Repeated Fields.
  • Demo: Nästade och upprepade fält i BigQuery.
  • Laboration: Arbeta med JSON- och Array-data i BigQuery.
  • Optimering med partitionering och klustring.
  • Demo: Partitionerade och klustrade tabeller i BigQuery.
  • Förhandsgranskning: Omvandling av batch- och strömmande data.

Modul 4: Introduktion till att bygga pipelines för batchdata

  • EL, ELT, ETL.
  • Överväganden om kvalitet.
  • Hur man utför operationer i BigQuery.
  • Demo: ELT för att förbättra datakvaliteten i BigQuery.
  • Brister och tillkortakommanden.
  • ETL för att lösa problem med datakvalitet.

Modul 5: Exekvera Spark på Cloud Dataproc

  • Hadoops ekosystem.
  • Kör Hadoop på Cloud Dataproc.
  • GCS istället för HDFS.
  • Optimering av Dataproc.
  • Laboration: Körning av Apache Spark-jobb på Cloud Dataproc.

Modul 6: Serverlös databehandling med Cloud Dataflow

  • Dataflöde i molnet.
  • Varför kunderna värdesätter Dataflow.
  • Dataflödespipelines.
  • Laboration: En enkel dataflödespipeline (Python/Java).
  • Laboration: MapReduce i dataflöde (Python/Java).
  • Labb: Sidoinmatningar (Python/Java).
  • Dataflödesmallar.
  • Dataflödes-SQL.

Modul 7: Hantera datapipelines med Cloud Data Fusion och Cloud Composer

  • Bygga pipelines för batchdata visuellt med molnbaserad datafusion.
  • Komponenter.
  • Översikt över användargränssnitt.
  • Bygga upp en pipeline.
  • Utforska data med hjälp av Wrangler.
  • Laboration: Bygga och exekvera en pipeline-graf i Cloud Data Fusion.
  • Orchestrera arbete mellan GCP-tjänster med Cloud Composer.
  • Apache Airflow-miljö.
  • DAGs och operatorer.
  • Schemaläggning av arbetsflöden.
  • Valfri lång demo: Händelseutlöst laddning av data med Cloud Composer, Cloud Functions, Cloud Storage och BigQuery.
  • Övervakning och loggning.
  • Laboration: En introduktion till Cloud Composer.

Modul 8: Introduktion till behandling av strömmande data

  • Bearbetning av strömmande data.

Modul 9: Serverlös meddelandehantering med Cloud Pub/Sub

  • Cloud Pub/Sub.
  • Lab: Publicera strömmande data i Pub/Sub.

Modul 10: Streamingfunktioner för dataflöde i molnet

  • Streamingfunktioner för dataflöde i molnet.
  • Laboration: Pipelines för strömmande data.

Modul 11: Streamingfunktioner för BigQuery och Bigtable med hög kapacitet

  • BigQuery Streaming-funktioner.
  • Labb: Streaming Analytics och Dashboards.
  • Cloud Bigtable.
  • Lab: Strömmande datapipelines till Bigtable.

Modul 12: Avancerad BigQuery-funktionalitet och prestanda

  • Analytiska fönsterfunktioner.
  • Använda With-klausuler.
  • GIS-funktioner.
  • Demo: Kartläggning av snabbast växande postnummer med BigQuery GeoViz.
  • Överväganden om prestanda.
  • Laboration: Optimera dina BigQuery-frågor för prestanda.
  • Valfri laboration: Skapa datumpartitionerade tabeller i BigQuery.

Modul 13: Introduktion till analys och AI

  • Vad är AI?
  • Från ad hoc-dataanalys till datadrivna beslut.
  • Alternativ för ML-modeller på GCP.

Modul 14: Förbyggda API:er för ML-modeller för ostrukturerade data

  • Ostrukturerad data är svårt.
  • ML API:er för att berika data.
  • Laboration: Använda API:et för naturligt språk för att klassificera ostrukturerad text.

Modul 15: Analys av stora datamängder med Cloud AI Platform Notebooks

  • Vad är en anteckningsbok?
  • BigQuery-magi och kopplingar till Pandas.
  • Labb: BigQuery i Jupyter Labb på AI-plattform.

Modul 16: ML-pipelines för produktion med Kubeflow

  • Sätt att göra ML på GCP.
  • Kubeflow.
  • AI Hub.
  • Labb: Körning av AI-modeller på Kubeflow.

Modul 17: Skapa anpassade modeller med SQL i BigQuery ML

  • BigQuery ML för snabb modelluppbyggnad.
  • Demo: Träna en modell med BigQuery ML för att förutsäga taxiresor i NYC.
  • Modeller som stöds.
  • Labbalternativ 1: Förutse cykelresans längd med en regressionsmodell i BQML.
  • Labalternativ 2: Filmrekommendationer i BigQuery ML.

Modul 18: Uppbyggnad av anpassade modeller med Cloud AutoMLW

  • Varför Auto ML?
  • Auto ML Vision.
  • Auto ML NLP.
  • Auto ML-tabeller.

Kursöversikt

3 735 £

4 dagar

Distans

Fortsättning

Engelska

Startgaranti gäller om kursen har datum, om inget annat framgår.

Hittar du inget (passande) datum? Skicka in en intresseanmälan så gör vi vad vi kan för att planera ett tillfälle som passar. 

För samtliga utbildningar gäller våra
Allmänna Villkor.

Fö­re­tags­an­pas­sad kurs

Kursen kan anpassas från flera perspektiv:
  • Innehåll och fokusområde
  • Omfattning
  • Upplägg

I samspel med kursledaren ser vi till att kursen uppfyller era önskemåll

Skicka intresseanmälan för utbildningen