Video2Brain L’essentiel d’Apache Spark
?
Thématiques : IT – Informatique décisionnelle
Editeur : Video2brain
Langue : Francais
Duree : 3h11
Nombre de videos : 38 vidéos + fichiers sources
Taille : 552 Mo
Logiciel : Apache Spark
Votre formateur : Rudi Bruchez
Date de parution : 16 mars 2017
Open Source
En français
Apache Spark est un système généraliste de traitement de données Big Data populaire et incontournable. Si vous êtes développeur ou data scientist, suivez cette formation de Rudi Bruchez pour apprendre à utiliser Spark et à manipuler les transformations ainsi que les actions des abstractions de données. Il s’agit notamment des RDD, des DataFrames et des Datasets. À la fin de cette formation, vous serez solidement armé pour analyser vos données et commencer votre développement Big Data avec Spark.
Comprendre le Big Data
Dans ce chapitre, vous partirez à la découverte d’Apache Spark et vous verrez comment en tirer parti pour vos besoins de Big Data.
Découvrir cette formation 01:22
Tirer parti des fichiers d’exercice 01:19
S’initier au Big Data 06:35
Traiter les données du Big Data 03:51
Aborder l’histoire du Big Data 04:04
Distribuer les données et le traitement 02:36
Appréhender les types de traitement 04:32
Comprendre MapReduce 03:46
Définir les couches du traitement distribué 05:06
Découvrir Apache Spark
Avec votre formateur, découvrez Apache Spark et son architecture. Vous aborderez également son abstraction de données de base, le RDD (Resilient Distributed Dataset, containers de données distribuées).
Aborder l’architecture d’Apache Spark 07:52
Comprendre les RDD 07:15
Installer Docker 06:07
Démarrer les containers d’Apache Spark 03:02
Utiliser les invites interactives 05:15
Ouvrir un RDD en Scala 05:58
Appliquer des transformations au RDD 06:11
Découvrir les actions sur les RDD 05:37
Aborder les transformations simples 02:46
Utiliser les transformations avancées
Dans ce chapitre, vous étudierez quelques transformations avancées comme le map, le reduce, et le flatMap.
Créer une transformation MapReduce 06:01
Découvrir la transformation flatMap 05:26
Calculer des occurrences de mots 06:48
Tirer parti des variables globales 06:56
Interagir avec PySpark 06:03
Utiliser le DataFrame et le Dataset
Initiez-vous aux abstractions de données les plus récentes comme le DataFrame et le Dataset. Ensuite, vous apprendrez à les exploiter.
Appréhender les abstractions de données de Spark 2 06:01
Exploiter la SparkSession 03:09
Créer un DataFrame 04:57
Manipuler le DataFrame 07:22
Comprendre les formats de stockage 05:58
Construire un jeu de données 06:00
Importer un fichier Avro 04:25
Joindre des DataFrames 09:14
Sauvegarder au format Parquet 05:23
Aller plus loin avec Spark SQL
Dans ce chapitre, vous apprendrez à utiliser Spark SQL. Vous exécuterez également des programmes Spark non interactifs à l’aide de spark-submit.
Employer la syntaxe select 06:16
Utiliser un Dataset 03:03
Écrire une requête SQL 04:18
Exécuter un programme avec spark-submit 06:15
Choisir une distribution Spark 03:47
Conclure sur Apache Spark 01:11
Tailles des fichiers : 1 x 552 Mo
Taille totale : 552 Mo