Classificacao de Audio com Python O Guia Completo

Deep Learning aplicado em áudios! Classificação de sons ambientais, emoções, comandos de voz e transcrição de áudio!
Classificacao de Audio com Python O Guia Completo
File Size :
4.73 GB
Total length :
12h 15m

Category

Instructor

Jones Granatyr

Language

Last update

Última atualização em 6/2022

Ratings

4.6/5

Classificacao de Audio com Python O Guia Completo

What you’ll learn

Entender os principais conceitos relacionados à processamento de áudio, como: taxa de amostragem, amplitude, ondas, frequência, decibel, dentre outros
Como utilizar a Transformada de Fourier e o Coeficiente Cepstral de Frequência Mel (MFCC) para extrair características de áudios
Visualizar o gráfico de onda e espectrogramas de arquivos de áudio
Treinar redes neurais convolucionais com o TensorFlow para classificar diversos tipos de áudios
Classificar 10 categorias de sons ambientais: ar condicionado, buzina, crianças, latido, perfuração, motor, tiro de arma, britadeira, sirene e música de rua
Utilizar a arquitetura YAMNet para classificar 521 eventos de aúdio
Treinar a arquitetura YAMNet utilizando transferência de aprendizagem para classificar o canto de 5 espécies de pássaros
Classificar 10 emoções pela fala: tristeza, surpresa, nojo, neutro, nervosismo, medo, felicidade e calmo
Treinar uma rede neural para classificar 8 comandos de voz
Transcrição de áudio utilizando a biblioteca SpeechRecognition
Transcrever áudios do WhatsApp

Classificacao de Audio com Python O Guia Completo

Requirements

Lógica de programação
Programação básica em Python
Conhecimentos sobre Machine Learning são desejáveis mas não obrigatórios

Description

A área de Processamento de Linguagem Natural – PLN (Natural Language Processing – NLP) é uma subárea da Inteligência Artificial que tem como objetivo tornar os computadores capazes de entender a linguagem humana, tanto escrita quanto falada. Alguns exemplo de aplicações práticas são: tradutores entre idiomas, tradução de texto para fala ou fala para texto, chatbots, sistemas automáticos de perguntas e respostas, sumarização de textos, geração automática de descrições para imagens, adição de legendas em vídeos, classificação de sentimentos em frases e áudios, dentre várias outras! Dentro desta área existe a classificação de áudio, que consiste em identificar sons específicos em áudios. Alguns exemplos são: identificação de sons do ambiente (carros, buzina, latidos, sirenes, etc), classificação de estilos musicais, transcrição de texto, reconhecimento de emoções pela fala e reconhecimento de comandos de voz, muito utilizado pelos assistentes virtuais.Atualmente, o setor comercial está cada vez mais necessitando de soluções de Processamento de Linguagem Natural voltadas ao áudio, ou seja, aprender essa área pode ser a chave para trazer soluções reais para necessidades presentes e futuras. Baseado nisso, este curso foi projetado para quem deseja crescer ou iniciar uma nova carreira na área de Processamento de Linguagem Natural, trabalhando especificamente com a classificação de arquivos de áudio! O curso está dividido em sete partes:Na parte 1 você aprenderá os conceitos teóricos sobre a área de áudio, como por exemplo: o que são sinais de áudio, sinal analógico e digital, amplitude, ondas, frequência, decibel, taxa de amostragem e principalmente, como representar o áudio para ser enviado para algoritmos de aprendizagem de máquinaNa parte 2 serão implementados na prática vários dos conceitos abordados na primeira parte! Alguns exemplos são: carregamento e execução de arquivos de áudio, separação harmônica-percursiva, sintetização de cliques, Transformada de Fourier, Coeficiente Cepstral de Frequência Mel e geração de gráfico de ondas e espectrogramas. Ao final deste módulo, você saberá como extrair dados dos áudios para envio para algoritmos de aprendizagem de máquina. Será utilizada a biblioteca LibrosaNa parte 3, vamos utilizar a base UrbanSound8K para classificar os seguintes sons ambientais: ar condicionado, buzina de carro, crianças brincando, latidos de cachorro, perfuração, motor em marcha lenta, tiros de arma, britadeira, sirene e música de rua. Faremos o treinamento de uma rede neural convolucional utilizando o TensorFlow, e ao final, vamos enviar um áudio e a rede neural será capaz de classificar qualquer uma dessas categoriasNa parte 4, vamos utilizar a arquitetura pré-treinada YAMNet para classificar 521 diferentes eventos de áudio! Logo após, utilizaremos transferência de aprendizagem para classificar o canto de 5 espécies diferentes de pássarosNa parte 5 utilizarmos a base de dados RAVDESS para classificar as seguintes emoções de áudios: tristeza, surpresa, nojo, neutro, medo, felicidade e calmoNa parte 6 você entenderá o básico sobre como funciona um assistente de voz! Por meio da base mini-speech-commands, vamos treinar uma rede neural para classificar 8 tipos diferentes de comandosPor fim, na parte 7 utilizaremos a biblioteca SpeechRecognition para realizar a transcrição de áudio, ou seja, você fala e o algoritmo faz a transcrição em formato textual!Todos os códigos serão implementados passo a passo, com detalhes e utilizando o Google Colab. Com isso, você não precisa se preocupar com instalações e configurações de softwares na sua própria máquina! São mais de 90 aulas e mais de 12 horas de vídeos passo a passo!

Overview

Section 1: Introdução

Lecture 1 Conteúdo do curso

Lecture 2 Mais sobre Inteligência Artificial

Lecture 3 Recursos para download

Lecture 4 Classificação de áudio

Lecture 5 O que são sinais de áudio

Lecture 6 Amostragem do sinal de áudio

Lecture 7 Tipos de sinais de áudio

Lecture 8 Extração de recursos de áudio

Section 2: Carregamento e processamento de áudio

Lecture 9 Introdução

Lecture 10 Importação das bibliotecas

Lecture 11 Carregamento de arquivo mono

Lecture 12 Carregamento de arquivo stereo

Lecture 13 Taxa de amostragem

Lecture 14 Tipos de reamostragem

Lecture 15 Separação harmônico-percussiva

Lecture 16 Detecção de início e sintetização de click

Lecture 17 Gráfico de onda (wave plot)

Lecture 18 Transformada de Fourier – intuição

Lecture 19 Transformada de Fourier com Librosa

Lecture 20 Visualização de espectrograma

Lecture 21 Coeficiente Cepstral de Frequência Mel (MFCC)

Lecture 22 MFCCs com Librosa

Lecture 23 Espectrograma em decibéis

Lecture 24 Normalização média cepstral

Section 3: Classificações de sons ambientais

Lecture 25 Introdução

Lecture 26 Importação das bibliotecas

Lecture 27 Base de dados UrbanSound8K 1

Lecture 28 Base de dados UrbanSound8K 2

Lecture 29 Base de dados UrbanSound8K 3

Lecture 30 Visualização dos dados

Lecture 31 Gráfico de ondas

Lecture 32 Espectrogramas de STFT

Lecture 33 Espectrogramas de MFCCs

Lecture 34 Extração de características MFCCs

Lecture 35 Preparação dos dados

Lecture 36 Estrutura da rede neural

Lecture 37 Treinamento da rede neural

Lecture 38 Avaliação da rede neural

Lecture 39 Testes com arquivos de áudio

Section 4: Classificação de sons com YAMNet

Lecture 40 Introdução

Lecture 41 Eventos de áudio 1

Lecture 42 Eventos de áudio 2

Lecture 43 Eventos de áudio 3

Lecture 44 Eventos de áudio 4

Lecture 45 Canto de pássaros 1

Lecture 46 Canto de pássaros 2

Lecture 47 Canto de pássaros 3

Lecture 48 Canto de pássaros 4

Lecture 49 Canto de pássaros 5

Lecture 50 Canto de pássaros 6

Lecture 51 Canto de pássaros 7

Lecture 52 Canto de pássaros 8

Section 5: Classificação de emoções pela fala

Lecture 53 Introdução

Lecture 54 Base de dados RAVDESS

Lecture 55 Tratamento da base de dados

Lecture 56 Visualização dos dados

Lecture 57 Gráfico de ondas e espectrogramas

Lecture 58 Extração de características MFCCs

Lecture 59 Construção e treinamento da rede neural

Lecture 60 Avaliação da rede neural

Lecture 61 Testes com arquivos de áudio

Section 6: Reconhecimento de comandos de voz

Lecture 62 Introdução

Lecture 63 Base mini speech commands 1

Lecture 64 Base mini speech commands 2

Lecture 65 Visualização dos dados

Lecture 66 Extração das características MFCCs

Lecture 67 Preparação dos dados

Lecture 68 Construção e treinamento da rede neural

Lecture 69 Avaliação da rede neural

Lecture 70 Testes com arquivos de áudio

Section 7: Transcrição de áudio

Lecture 71 Introdução

Lecture 72 Transcrição com speech recognition – bibliotecas

Lecture 73 Transcrição com speech recognition – primeiro teste

Lecture 74 Transcrição com speech recognition – remoção de ruído

Lecture 75 Transcrição com speech recognition – microfone

Lecture 76 Transcrição com speech recognition – WhatsApp

Section 8: ANEXO 1: Redes neurais artificiais

Lecture 77 Fundamentos biológicos

Lecture 78 Perceptron de uma camada

Lecture 79 Redes multicamada – função soma e ativação

Lecture 80 Redes multicamada – cálculo do erro

Lecture 81 Descida do gradiente

Lecture 82 Cálculo do parâmetro delta

Lecture 83 Ajuste dos pesos com backpropagation

Lecture 84 Bias, erro, descida do gradiente estocástica e mais parâmetros

Section 9: ANEXO 2: Redes neurais convolucionais

Lecture 85 Introdução a redes neurais convolucionais 1

Lecture 86 Introdução a redes neurais convolucionais 2

Lecture 87 Etapa 1 – operador de convolução (introdução)

Lecture 88 Etapa 1 – operador de convolução (cálculos)

Lecture 89 Etapa 2 – pooling

Lecture 90 Etapa 3 – flattening

Lecture 91 Etapa 4 – rede neural densa

Section 10: Considerações finais

Lecture 92 Considerações finais

Lecture 93 AULA BÔNUS

Pessoas interessadas em classificação de áudio e processamento de linguagem natural,Alunos de graduação e pós-graduação que estejam cursando disciplinas sobre Inteligência Artificial,Cientistas de Dados que tenham interesse em aumentar seu portfólio de projetos

Course Information:

Udemy | Português | 12h 15m | 4.73 GB
Created by: Jones Granatyr

You Can See More Courses in the Developer >> Greetings from CourseDown.com

New Courses

Scroll to Top