Skip to content

Curso de introdução a Data Science ministrado em parceiria com o Ocean Samsung

Notifications You must be signed in to change notification settings

turing-usp/curso-intro-ds

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Curso de Introdução a Data Science

A ideia deste curso é fornecer um primeiro contato com Data Science, explorando os conceitos básicos e aplicações em Python.

Ao fim das aulas, a ideia é que os participantes estejam familiariazados com o processo de tratar, analisar, construir visualizações e modelos de predição a partir de um determinado conjunto de dados.

Pensando nisso, durante as 4 aulas do curso, os seguintes temas serão abordados:

  • Aula 1: Conceitos iniciais de Data Science e introdução ao Python e ao Pandas
  • Aula 2: Limpeza e tratamento de dados
  • Aula 3: Visualização de dados
  • Aula 4: Construção de modelos de predição

O material para cada aula, incluindo os notebooks e datasets utilizados serão deixados nesse repositório.

Aula 1: Conceitos iniciais de Data Science e introdução ao Python e ao Pandas

Conteúdo 📚

Nessa aula, abordamos uma introdução a como usar o Python e o Pandas no contexto de análise de dados.

  • Conceitos básicos de lógica de propagramação e como usá-los no Python
    • Variáveis
    • Loops
    • Condicionais
    • Funções
    • Tipos de dados
    • Estruturas de dados: listas e dicionários
  • Instrodução ao uso de pandas
    • Leitura e manipulação de uma base de dados
    • Obtendo informações gerais sobre o dataset
    • Entendendo as estruturas de dados do pandas
    • Filtrando valores
    • Substituindo valores
    • Identificando dados nulos

Material da aula 📒

Aula 2: Limpeza e tratamento de dados

Nessa aula, iremos aplicar os conceitos de Pandas estudados anteriormente para a limpeza de um conjunto de dados.

Conteúdo 📚

  • O que é limpar os dados e porque essa etapa é importante
  • Quais são as fontes de erros que podem causar "sujeira" em um conjunto de dados
  • Exemplos práticos mais comuns e como lidar com eles
  • Caso real de um notebook com algumas análises exploratórias

Material da aula 📒

Aula 3: Visualização de dados

Nessa aula, iremos aplicar entrar mais a fundo na parte de visualizar os nossos dados, abordando sua importância e as principais abordagens usadas para isso.

Conteúdo 📚

  • O que é visualização de dados, onde é usada e qual sua importância
  • O que é necessário em uma boa visualização
  • Fundamentos de Matplotlib e como utilizar a biblioteca para fazer e personalizar visualizações (como subplots, títulos, legendas, etc)
  • Um mergulho no Seaborn e suas principais funções, conhecendo e entendendo diferentes tipos de gráficos e quando aplicá-los
  • Um exemplo de visualização geográfica com Plotly

Material da aula 📒

Aula 4: Introdução a predição

Nessa aula, iremos aprender o que significa realizar predições a partir dos seus dados e como podemos entender, aplicar e avaliar diferentes modelos de aprendizado estatístico para isso.

Conteúdo 📚

  • Predição: O que é?
    • Aprendizado supervisionado e não supervisionado
    • Regressão e classificação
  • Bias-variance trade-off
  • Underfitting e overfitting
  • Divisão dos dados em treino e teste e fluxo de trabalho
  • Conhecendo alguns modelos
    • Naive Bayes
    • Regressão Linear
    • K-nearest neighbors (kNN)
  • Avaliando os modelos de classificação
    • Matriz de confusão: acurária, precision, recall
    • F1-score, F-β score
  • Avaliando modelos de regressão
    • MSE, RMSE, MAE
  • Interpretabilidade e explicabilidade de modelos
  • Parte prática
    • Uso da biblioteca Scikit Learn para um exemplo prático de predição

Material da aula 📒

About

Curso de introdução a Data Science ministrado em parceiria com o Ocean Samsung

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published