Este repositório contém um projeto de Machine Learning que aplica um modelo de Regressão Logística para prever a sobrevivência de passageiros do Titanic com base em suas características. O projeto utiliza o Titanic Dataset, um conjunto de dados famoso para problemas de classificação binária.
O objetivo deste projeto é desenvolver um modelo preditivo que classifique se um passageiro sobreviveria ou não ao naufrágio do Titanic com base em atributos como idade, sexo, classe socioeconômica, número de familiares a bordo, entre outros. Esse problema de classificação binária é abordado usando a Regressão Logística como modelo principal.
-
Aquisição e Compreensão dos Dados:
- Carregamento e análise inicial do Titanic Dataset.
- Identificação de variáveis categóricas (ex.:
Sex
,Embarked
) e numéricas (ex.:Age
,Fare
). - Definição da variável-alvo (
Survived
) e das features que serão utilizadas para previsão.
-
Análise Exploratória de Dados (EDA):
- Análise das distribuições das variáveis numéricas e categóricas.
- Avaliação de relações entre as variáveis e a sobrevivência dos passageiros.
-
Pré-processamento de Dados:
- Tratamento de valores ausentes.
- Transformação de variáveis categóricas em variáveis dummy.
- Escalonamento das variáveis numéricas para garantir melhor desempenho e estabilidade do modelo de Regressão Logística.
-
Treinamento e Avaliação do Modelo:
- Divisão do conjunto de dados em treino e validação.
- Treinamento do modelo de Regressão Logística.
- Avaliação do modelo com métricas como acurácia, matriz de confusão, precisão e recall.
-
Análise de Desempenho e Ajustes:
- Ajustes no modelo com base na análise de erros.
- Considerações sobre o impacto de diferentes variáveis na sobrevivência.
simple_classification.ipynb
: Jupyter Notebook principal contendo todo o processo de análise, pré-processamento, treinamento e avaliação do modelo de Regressão Logística.README.md
: Descrição do projeto, objetivos e estrutura.
- Python: Linguagem de programação principal.
- Pandas: Manipulação e análise de dados.
- NumPy: Operações matemáticas e tratamento de arrays.
- Scikit-Learn: Treinamento e avaliação do modelo de Regressão Logística.
- Matplotlib e Seaborn: Visualização de dados para EDA.
-
Clone este repositório:
git clone https://github.com/seu_usuario/titanic_survival_classification.git
-
Instale os pacotes necessários:
pip install -r requirements.txt
-
Execute o Jupyter Notebook:
jupyter notebook simple_classification.ipynb
-
Siga as etapas do notebook para carregar os dados, pré-processar, treinar e avaliar o modelo.
O modelo de Regressão Logística treinado neste projeto apresentou uma acurácia de aproximadamente 80.36% no treinamento.