Databricks e PySpark analisando dados
What you’ll learn
Visualização para explorar resultados de consultas de diferentes perspectivas
Construção de gráficos e Dashboards
Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros
Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades
Aprendizado processamento distribuído em SPARK
Entendo o que é Databricks File System (DBFS) seu sistema de arquivos
Entendo sobre Cluster
Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL
Executando scripts multilinguagens
Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards
Construindo na versão community
Trabalhando com a biblioteca dbutils Python
Integrando o Databricks ao Power BI
O que é PYSPARK
O que é SPARK
Instalando o SPARK em um ambiente Windows, configurando
Instalando o ANACONDA
Instalando a JDK
Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
Entendendo o conceito de NÓ, CLUSTER
Conhecendo os módulos e pacotes do PYSPARK
O que é SparkContext
Entendo o que é RDD (Resilient Distributed Dataset)
Trabalhando com Spark Dataframe
Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
Aprendendo o que é uma função Lambda
Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
Monitoramento de jobs com SPARK UI
O que é SparkSession
Leitura de arquivos externos
SPARK SQL
Leitura de dados em JSON
Requirements
É importante que você conheça um pouco de Python, R, Scala, SQL, não haverá treinamento destas linguagens neste curso
Importante conhecer execução de scripts em Python, R, Scala, SQL
Description
Trazemos para você o que há de mais completo e atual no uso de ferramentas da área de dados nas grandes corporações pelo mundo, o uso do Databricks e do PySpark.O Databricks é um ecossistema completo que reúne as principais linguagens da era Data Science em um mesmo notebook, isso mesmo, um dos poucos produtos que possui multilinguagem em um mesmo notebook. Você vai trabalhar com Linguagem R, Python, Scala e ainda utilizando comandos em SQL, umas das linguagens de manipulação de dados mais utilizadas no mundo. Além disso, você produzirá gráficos no ambiente do Databricks, que já vem preparado para isso, tudo junto.Depois mergulharemos com tudo no uso do PySpark. Para quem não conhece, é o uso do PYTHON na estrutura de processamento SPARK, que vem revolucionando o mercado pela sua rapidez na execução de suas rotinas de trabalho. Com PySpark vamos aprender conceitos diferentes, trabalhar dados estruturados, semi-estruturados e não-estruturados, você terá vários scripts para executar durante o seu aprendizado.Databricks e Pyspark são destaque na era BIg Data, pois utilizam os conceitos de processamento distribuído e podem ser acessados e utilizados na nuvem, que já é muito comum nas empresas.Você vai contar com apostila, exercícios resolvidos e desafios para correção, não é o máximo?Então venha e una-se ao nosso grupo.
Overview
Section 1: Databricks – unificando seus dados e análise
Lecture 1 Entendendo o Databricks, documentação e funções
Lecture 2 Passo a passo – criação de conta Databricks Community Edition
Lecture 3 INFORMAÇÕES IMPORTANTES – Leia antes de começar o curso
Lecture 4 Detalhando o funcionamento SPARK, CLUSTER
Lecture 5 Como criar sua conta Databricks na Databricks Community
Lecture 6 Criando e entendo o funcionamento do CLUSTER
Lecture 7 Carregando os primeiros dados no DBFS
Lecture 8 Alternativa sobre BUG – Carga dados vinhos no mundo
Lecture 9 Criando Notebook, carregando dados e entendo Workspace
Lecture 10 Entendendo todas as funcionalidades do ambiente do Notebook
Lecture 11 Trabalhando no Notebook com Python, Scala e SQL
Lecture 12 Unificando resultados e gráficos dentro do Databricks
Lecture 13 Trabalhando com arquivos JSON, unificando e gerando saídas em SQL
Lecture 14 Entendo arquivos Parquet, gerando e unificando arquivos Parquet, formatando SQL
Lecture 15 Particionando arquivos Parquet dentro do Databricks
Lecture 16 Construindo arquivos Parquet a partir de estrutura de arquivos CSV
Lecture 17 Comandos internos Databricks
Lecture 18 Construção de gráficos e dashboards
Lecture 19 Integrando Databricks e Power BI – Ferramenta de visualização e dados
Lecture 20 Entrega de exercício – aula final
Section 2: Pyspark – Construção de projetos de Dados no SPARK
Lecture 21 Introdução e entendimento PYSPARK e SPARK
Lecture 22 Baixa dos softwares: Apache SPARK, Anaconda e Java(JDK)
Lecture 23 Instalação dos softwares: Apache SPARK, Anaconda e Java(JDK)
Lecture 24 Configurando as variáveis de ambiente no Windows
Lecture 25 Executando os softwares: Apache SPARK e PYSPARK
Lecture 26 O que é SparkContext e RDD (Resilient Distributed Datasets)
Lecture 27 SCRIPT1 : Trabalhando com RDD – Parte01
Lecture 28 SCRIPT2 : Trabalhando com RDD – Text Miner – Parte02
Lecture 29 Monitorando os jobs – SPARK UI
Lecture 30 SCRIPT3 : Trabalhando com RDD – JOIN, LEFTOUTERJOIN, RIGHTOUTERJOIN – Parte03
Lecture 31 SCRIPT4 : Trabalhando com Dataframe – Parte01
Lecture 32 SCRIPT5 : Trabalhando com Dataframe – Parte02
Lecture 33 SCRIPT6 : Trabalhando com SPARK SQL
Lecture 34 SCRIPT7 : Trabalhando com arquivos JSON e SPARK SQL
Lecture 35 SCRIPT8 : Trabalhando com arquivos SPARK Streaming
Lecture 36 Aula FInal – Entrega de atividade
Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
Course Information:
Udemy | Português | 6h 13m | 3.12 GB
Created by: MSc Grimaldo Lopes | + 45.000 alunos de Oliveira
You Can See More Courses in the IT & Software >> Greetings from CourseDown.com