MOC 20773: Analyzing Big Data with Microsoft R kursus

Det lærer du

Dette kursus i R er rettet mod dig, der ønsker at lære at lave analyser af store mængder data med Microsoft R Server og anvende dette i Big Data miljøer som fx Hadoop, Spark eller Microsoft SQL Server database.

Efter kurset vil du være i stand til at:
  • anvende Microsoft R server og Microsoft R klientværktøjet
  • anvende R klientværktøjet med Big Data fra forskellige typer af datakilder
  • visualisere data med grafer og plotninger
  • omforme og bearbejde Big Data og forberede dette til analyse
  • oprette processer, der kan afvikles parallelt
  • anvende regressionsmodeller baseret på Big Data
  • oprette modeller baseret på decision trees
  • teste modeller
  • anvende R på Microsoft SQL Server

Det får du

Før kurset
  • Mulighed for at tale med en instruktør, der kan hjælpe dig med at finde det helt rigtige kursus.
På kurset
  • Undervisning af Danmarks mest erfarne instruktørteam i hyggelige og fuldt opdaterede kursuslokaler i centrum af København.
  • Et kursus bestående af en vekslen mellem teori og praktiske øvelser. Vi ved, hvor vigtigt det er, at du får tid til at arbejde med opgaverne i praksis, og derfor har vi altid fokus på hands-on i undervisningen.
  • Adgang til Microsofts digitale kursusmateriale (DMOC) samt Microsoft Labs Online.*
  • Fuld forplejning, som inkluderer morgenmad, friskbrygget kaffe, te, frugt, sodavand, frokost på en italiensk restaurant på Gråbrødretorv, kage, slik, og naturligvis Wi-Fi til dine devices.
  • Et kursuscertifikat med bevis på dine nye kvalifikationer.
Efter kurset
  • Adgang til vores gratis hotline, som betyder, at du op til et år efter kurset kan ringe eller skrive til os, hvis du har spørgsmål til de emner, der er blevet gennemgået på kurset.
  • Vores unikke tilfredshedsgaranti, som er din tryghed for at få fuldt udbytte af dit kursus.
  • Kurset bliver afholdt på dansk, men vi benytter Microsofts digitale materiale (DMOC), som er på engelsk. På kurset bliver der stillet en Surface tablet til rådighed, som kan anvendes til læsning af materialet. Du vil efterfølgende have adgang til materialet både online og lokalt. I tilfælde af at Microsoft laver en ny version af kursusmaterialet, vil du automatisk få adgang til det. Derudover vil du have adgang til øvelser via Microsoft Online Labs i 180 dage i alt, og du kan derfor fortsætte eller starte forfra på en øvelse hjemmefra, under eller efter kurset, alt efter behov.
  • Få det optimale ud af kurset

    Dette R kursus indgår som en del af vores samlede udbud af Business Intelligence kurser og er lavet til dig, der til daglig skal arbejde med avancerede analyser baseret på store mængder af data og ønsker at være i stand til at opnå en dybere indsigt i sammenhængene i virksomhedens data.

    Kurset er på et teknisk højt niveau og forudsætter erfaring med R og pakker. Desuden forventes kendskab til statistik og dataanalyser generelt.

    Kursusindhold

    Module 1: Microsoft R Server and R Client

    Explain how Microsoft R Server and Microsoft R Client work.

    Lessons

    • What is Microsoft R server
    • Using Microsoft R client
    • The ScaleR functions

    Lab : Exploring Microsoft R Server and Microsoft R Client

    • Using R client in VSTR and RStudio
    • Exploring ScaleR functions
    • Connecting to a remote server

    After completing this module, students will be able to:

    • Explain the purpose of R server.
    • Connect to R server from R client
    • Explain the purpose of the ScaleR functions.

    Module 2: Exploring Big Data

    At the end of this module the student will be able to use R Client with R Server to explore big data held in different data stores.

    Lessons

    • Understanding ScaleR data sources
    • Reading data into an XDF object
    • Summarizing data in an XDF object

    Lab : Exploring Big Data

    • Reading a local CSV file into an XDF file
    • Transforming data on input
    • Reading data from SQL Server into an XDF file
    • Generating summaries over the XDF data

    After completing this module, students will be able to:

    • Explain ScaleR data sources
    • Describe how to import XDF data
    • Describe how to summarize data held in XCF format

    Module 3: Visualizing Big Data

    Explain how to visualize data by using graphs and plots.

    Lessons

    • Visualizing In-memory data
    • Visualizing big data

    Lab : Visualizing data

    • Using ggplot to create a faceted plot with overlays
    • Using rxlinePlot and rxHistogram

    After completing this module, students will be able to:

    • Use ggplot2 to visualize in-memory data
    • Use rxLinePlot and rxHistogram to visualize big data

    Module 4: Processing Big Data

    Explain how to transform and clean big data sets.

    Lessons

    • Transforming Big Data
    • Managing datasets

    Lab : Processing big data

    • Transforming big data
    • Sorting and merging big data
    • Connecting to a remote server

    After completing this module, students will be able to:

    • Transform big data using rxDataStep
    • Perform sort and merge operations over big data sets

    Module 5: Parallelizing Analysis Operations

    Explain how to implement options for splitting analysis jobs into parallel tasks.

    Lessons

    • Using the RxLocalParallel compute context with rxExec
    • Using the revoPemaR package

    Lab : Using rxExec and RevoPemaR to parallelize operations

    • Using rxExec to maximize resource use
    • Creating and using a PEMA class

    After completing this module, students will be able to:

    • Use the rxLocalParallel compute context with rxExec
    • Use the RevoPemaR package to write customized scalable and distributable analytics.

    Module 6: Creating and Evaluating Regression Models

    Explain how to build and evaluate regression models generated from big data

    Lessons

    • Clustering Big Data
    • Generating regression models and making predictions

    Lab : Creating a linear regression model

    • Creating a cluster
    • Creating a regression model
    • Generate data for making predictions
    • Use the models to make predictions and compare the results

    After completing this module, students will be able to:

    • Cluster big data to reduce the size of a dataset.
    • Create linear and logit regression models and use them to make predictions.

    Module 7: Creating and Evaluating Partitioning Models

    Explain how to create and score partitioning models generated from big data.

    Lessons

    • Creating partitioning models based on decision trees.
    • Test partitioning models by making and comparing predictions

    Lab : Creating and evaluating partitioning models

    • Splitting the dataset
    • Building models
    • Running predictions and testing the results
    • Comparing results

    After completing this module, students will be able to:

    • Create partitioning models using the rxDTree, rxDForest, and rxBTree algorithms.
    • Test partitioning models by making and comparing predictions.

    Module 8: Processing Big Data in SQL Server and Hadoop

    Explain how to transform and clean big data sets.

    Lessons

    • Using R in SQL Server
    • Using Hadoop Map/Reduce
    • Using Hadoop Spark

    Lab : Processing big data in SQL Server and Hadoop

    • Creating a model and predicting outcomes in SQL Server
    • Performing an analysis and plotting the results using Hadoop Map/Reduce
    • Integrating a sparklyr script into a ScaleR workflow

    After completing this module, students will be able to:

    • Use R in the SQL Server and Hadoop environments.
    • Use ScaleR functions with Hadoop on a Map/Reduce cluster to analyze big data.

    Kontaktoplysninger

    Adresse
    Amagertorv 21
    1160 København K