A ideia deste curso é fornecer um primeiro contato com Data Science, explorando os conceitos básicos e aplicações em Python.
Ao fim das aulas, a ideia é que os participantes estejam familiariazados com o processo de tratar, analisar, construir visualizações e modelos de predição a partir de um determinado conjunto de dados.
Pensando nisso, durante as 4 aulas do curso, os seguintes temas serão abordados:
- Aula 1: Conceitos iniciais de Data Science e introdução ao Python e ao Pandas
- Aula 2: Limpeza e tratamento de dados
- Aula 3: Visualização de dados
- Aula 4: Construção de modelos de predição
O material para cada aula, incluindo os notebooks e datasets utilizados serão deixados nesse repositório.
Nessa aula, abordamos uma introdução a como usar o Python e o Pandas no contexto de análise de dados.
- Conceitos básicos de lógica de propagramação e como usá-los no Python
- Variáveis
- Loops
- Condicionais
- Funções
- Tipos de dados
- Estruturas de dados: listas e dicionários
- Instrodução ao uso de pandas
- Leitura e manipulação de uma base de dados
- Obtendo informações gerais sobre o dataset
- Entendendo as estruturas de dados do pandas
- Filtrando valores
- Substituindo valores
- Identificando dados nulos
Nessa aula, iremos aplicar os conceitos de Pandas estudados anteriormente para a limpeza de um conjunto de dados.
- O que é limpar os dados e porque essa etapa é importante
- Quais são as fontes de erros que podem causar "sujeira" em um conjunto de dados
- Exemplos práticos mais comuns e como lidar com eles
- Caso real de um notebook com algumas análises exploratórias
- Slides
- Notebook
- Fonte do dataset utilizado -- O dataset utilizado foi modificado para que pudéssemos realizar sua limpeza
Nessa aula, iremos aplicar entrar mais a fundo na parte de visualizar os nossos dados, abordando sua importância e as principais abordagens usadas para isso.
- O que é visualização de dados, onde é usada e qual sua importância
- O que é necessário em uma boa visualização
- Fundamentos de Matplotlib e como utilizar a biblioteca para fazer e personalizar visualizações (como subplots, títulos, legendas, etc)
- Um mergulho no Seaborn e suas principais funções, conhecendo e entendendo diferentes tipos de gráficos e quando aplicá-los
- Um exemplo de visualização geográfica com Plotly
Nessa aula, iremos aprender o que significa realizar predições a partir dos seus dados e como podemos entender, aplicar e avaliar diferentes modelos de aprendizado estatístico para isso.
- Predição: O que é?
- Aprendizado supervisionado e não supervisionado
- Regressão e classificação
- Bias-variance trade-off
- Underfitting e overfitting
- Divisão dos dados em treino e teste e fluxo de trabalho
- Conhecendo alguns modelos
- Naive Bayes
- Regressão Linear
- K-nearest neighbors (kNN)
- Avaliando os modelos de classificação
- Matriz de confusão: acurária, precision, recall
- F1-score, F-β score
- Avaliando modelos de regressão
- R²
- MSE, RMSE, MAE
- Interpretabilidade e explicabilidade de modelos
- Parte prática
- Uso da biblioteca Scikit Learn para um exemplo prático de predição