Classificacao de Audio com Python O Guia Completo
What you’ll learn
Entender os principais conceitos relacionados à processamento de áudio, como: taxa de amostragem, amplitude, ondas, frequência, decibel, dentre outros
Como utilizar a Transformada de Fourier e o Coeficiente Cepstral de Frequência Mel (MFCC) para extrair características de áudios
Visualizar o gráfico de onda e espectrogramas de arquivos de áudio
Treinar redes neurais convolucionais com o TensorFlow para classificar diversos tipos de áudios
Classificar 10 categorias de sons ambientais: ar condicionado, buzina, crianças, latido, perfuração, motor, tiro de arma, britadeira, sirene e música de rua
Utilizar a arquitetura YAMNet para classificar 521 eventos de aúdio
Treinar a arquitetura YAMNet utilizando transferência de aprendizagem para classificar o canto de 5 espécies de pássaros
Classificar 10 emoções pela fala: tristeza, surpresa, nojo, neutro, nervosismo, medo, felicidade e calmo
Treinar uma rede neural para classificar 8 comandos de voz
Transcrição de áudio utilizando a biblioteca SpeechRecognition
Transcrever áudios do WhatsApp
Requirements
Lógica de programação
Programação básica em Python
Conhecimentos sobre Machine Learning são desejáveis mas não obrigatórios
Description
A área de Processamento de Linguagem Natural – PLN (Natural Language Processing – NLP) é uma subárea da Inteligência Artificial que tem como objetivo tornar os computadores capazes de entender a linguagem humana, tanto escrita quanto falada. Alguns exemplo de aplicações práticas são: tradutores entre idiomas, tradução de texto para fala ou fala para texto, chatbots, sistemas automáticos de perguntas e respostas, sumarização de textos, geração automática de descrições para imagens, adição de legendas em vídeos, classificação de sentimentos em frases e áudios, dentre várias outras! Dentro desta área existe a classificação de áudio, que consiste em identificar sons específicos em áudios. Alguns exemplos são: identificação de sons do ambiente (carros, buzina, latidos, sirenes, etc), classificação de estilos musicais, transcrição de texto, reconhecimento de emoções pela fala e reconhecimento de comandos de voz, muito utilizado pelos assistentes virtuais.Atualmente, o setor comercial está cada vez mais necessitando de soluções de Processamento de Linguagem Natural voltadas ao áudio, ou seja, aprender essa área pode ser a chave para trazer soluções reais para necessidades presentes e futuras. Baseado nisso, este curso foi projetado para quem deseja crescer ou iniciar uma nova carreira na área de Processamento de Linguagem Natural, trabalhando especificamente com a classificação de arquivos de áudio! O curso está dividido em sete partes:Na parte 1 você aprenderá os conceitos teóricos sobre a área de áudio, como por exemplo: o que são sinais de áudio, sinal analógico e digital, amplitude, ondas, frequência, decibel, taxa de amostragem e principalmente, como representar o áudio para ser enviado para algoritmos de aprendizagem de máquinaNa parte 2 serão implementados na prática vários dos conceitos abordados na primeira parte! Alguns exemplos são: carregamento e execução de arquivos de áudio, separação harmônica-percursiva, sintetização de cliques, Transformada de Fourier, Coeficiente Cepstral de Frequência Mel e geração de gráfico de ondas e espectrogramas. Ao final deste módulo, você saberá como extrair dados dos áudios para envio para algoritmos de aprendizagem de máquina. Será utilizada a biblioteca LibrosaNa parte 3, vamos utilizar a base UrbanSound8K para classificar os seguintes sons ambientais: ar condicionado, buzina de carro, crianças brincando, latidos de cachorro, perfuração, motor em marcha lenta, tiros de arma, britadeira, sirene e música de rua. Faremos o treinamento de uma rede neural convolucional utilizando o TensorFlow, e ao final, vamos enviar um áudio e a rede neural será capaz de classificar qualquer uma dessas categoriasNa parte 4, vamos utilizar a arquitetura pré-treinada YAMNet para classificar 521 diferentes eventos de áudio! Logo após, utilizaremos transferência de aprendizagem para classificar o canto de 5 espécies diferentes de pássarosNa parte 5 utilizarmos a base de dados RAVDESS para classificar as seguintes emoções de áudios: tristeza, surpresa, nojo, neutro, medo, felicidade e calmoNa parte 6 você entenderá o básico sobre como funciona um assistente de voz! Por meio da base mini-speech-commands, vamos treinar uma rede neural para classificar 8 tipos diferentes de comandosPor fim, na parte 7 utilizaremos a biblioteca SpeechRecognition para realizar a transcrição de áudio, ou seja, você fala e o algoritmo faz a transcrição em formato textual!Todos os códigos serão implementados passo a passo, com detalhes e utilizando o Google Colab. Com isso, você não precisa se preocupar com instalações e configurações de softwares na sua própria máquina! São mais de 90 aulas e mais de 12 horas de vídeos passo a passo!
Overview
Section 1: Introdução
Lecture 1 Conteúdo do curso
Lecture 2 Mais sobre Inteligência Artificial
Lecture 3 Recursos para download
Lecture 4 Classificação de áudio
Lecture 5 O que são sinais de áudio
Lecture 6 Amostragem do sinal de áudio
Lecture 7 Tipos de sinais de áudio
Lecture 8 Extração de recursos de áudio
Section 2: Carregamento e processamento de áudio
Lecture 9 Introdução
Lecture 10 Importação das bibliotecas
Lecture 11 Carregamento de arquivo mono
Lecture 12 Carregamento de arquivo stereo
Lecture 13 Taxa de amostragem
Lecture 14 Tipos de reamostragem
Lecture 15 Separação harmônico-percussiva
Lecture 16 Detecção de início e sintetização de click
Lecture 17 Gráfico de onda (wave plot)
Lecture 18 Transformada de Fourier – intuição
Lecture 19 Transformada de Fourier com Librosa
Lecture 20 Visualização de espectrograma
Lecture 21 Coeficiente Cepstral de Frequência Mel (MFCC)
Lecture 22 MFCCs com Librosa
Lecture 23 Espectrograma em decibéis
Lecture 24 Normalização média cepstral
Section 3: Classificações de sons ambientais
Lecture 25 Introdução
Lecture 26 Importação das bibliotecas
Lecture 27 Base de dados UrbanSound8K 1
Lecture 28 Base de dados UrbanSound8K 2
Lecture 29 Base de dados UrbanSound8K 3
Lecture 30 Visualização dos dados
Lecture 31 Gráfico de ondas
Lecture 32 Espectrogramas de STFT
Lecture 33 Espectrogramas de MFCCs
Lecture 34 Extração de características MFCCs
Lecture 35 Preparação dos dados
Lecture 36 Estrutura da rede neural
Lecture 37 Treinamento da rede neural
Lecture 38 Avaliação da rede neural
Lecture 39 Testes com arquivos de áudio
Section 4: Classificação de sons com YAMNet
Lecture 40 Introdução
Lecture 41 Eventos de áudio 1
Lecture 42 Eventos de áudio 2
Lecture 43 Eventos de áudio 3
Lecture 44 Eventos de áudio 4
Lecture 45 Canto de pássaros 1
Lecture 46 Canto de pássaros 2
Lecture 47 Canto de pássaros 3
Lecture 48 Canto de pássaros 4
Lecture 49 Canto de pássaros 5
Lecture 50 Canto de pássaros 6
Lecture 51 Canto de pássaros 7
Lecture 52 Canto de pássaros 8
Section 5: Classificação de emoções pela fala
Lecture 53 Introdução
Lecture 54 Base de dados RAVDESS
Lecture 55 Tratamento da base de dados
Lecture 56 Visualização dos dados
Lecture 57 Gráfico de ondas e espectrogramas
Lecture 58 Extração de características MFCCs
Lecture 59 Construção e treinamento da rede neural
Lecture 60 Avaliação da rede neural
Lecture 61 Testes com arquivos de áudio
Section 6: Reconhecimento de comandos de voz
Lecture 62 Introdução
Lecture 63 Base mini speech commands 1
Lecture 64 Base mini speech commands 2
Lecture 65 Visualização dos dados
Lecture 66 Extração das características MFCCs
Lecture 67 Preparação dos dados
Lecture 68 Construção e treinamento da rede neural
Lecture 69 Avaliação da rede neural
Lecture 70 Testes com arquivos de áudio
Section 7: Transcrição de áudio
Lecture 71 Introdução
Lecture 72 Transcrição com speech recognition – bibliotecas
Lecture 73 Transcrição com speech recognition – primeiro teste
Lecture 74 Transcrição com speech recognition – remoção de ruído
Lecture 75 Transcrição com speech recognition – microfone
Lecture 76 Transcrição com speech recognition – WhatsApp
Section 8: ANEXO 1: Redes neurais artificiais
Lecture 77 Fundamentos biológicos
Lecture 78 Perceptron de uma camada
Lecture 79 Redes multicamada – função soma e ativação
Lecture 80 Redes multicamada – cálculo do erro
Lecture 81 Descida do gradiente
Lecture 82 Cálculo do parâmetro delta
Lecture 83 Ajuste dos pesos com backpropagation
Lecture 84 Bias, erro, descida do gradiente estocástica e mais parâmetros
Section 9: ANEXO 2: Redes neurais convolucionais
Lecture 85 Introdução a redes neurais convolucionais 1
Lecture 86 Introdução a redes neurais convolucionais 2
Lecture 87 Etapa 1 – operador de convolução (introdução)
Lecture 88 Etapa 1 – operador de convolução (cálculos)
Lecture 89 Etapa 2 – pooling
Lecture 90 Etapa 3 – flattening
Lecture 91 Etapa 4 – rede neural densa
Section 10: Considerações finais
Lecture 92 Considerações finais
Lecture 93 AULA BÔNUS
Pessoas interessadas em classificação de áudio e processamento de linguagem natural,Alunos de graduação e pós-graduação que estejam cursando disciplinas sobre Inteligência Artificial,Cientistas de Dados que tenham interesse em aumentar seu portfólio de projetos
Course Information:
Udemy | Português | 12h 15m | 4.73 GB
Created by: Jones Granatyr
You Can See More Courses in the Developer >> Greetings from CourseDown.com