Questo repository contiene il progetto per l'esame di igegneria della conoscenza presso l'università di Bari falcoltà di informatica.
Il progetto rappresenta un studio analitico e sperimentale nell'applicazione di tecniche per gestire l'apprendimento in contesti di sbilanciamento delle classi. L'obiettivo non sono i risultati quanto prendere visione delle possibili tecniche che è possibile utilizzare in questi contesti piuttosto frequenti nella realtà e suprattutto presenti in problematiche di largo interesse per enti privati e pubblici di qualsiasi settore. Per questo motivo è stato scelto un data set con un task di largo interesse per qualsiasi azienda che debba gestire le proprie risorse umane, il task è quello di predire quali impiegati lasceranno il posto di lavoro e quali continueranno a lavorare con l'azienda. Dopo le dovute riflessione condotte da un analisi esplorativa dei dati che ho deciso di utilizzare e su tecniche di data cleanning dei dati e preprocessing si sono effettuati i seguenti esperimenti per trattare l'imbalance learning:
- Addestramento base di modelli supervisionati e base per le comparazioni
- Studio delle curve di apprendimento dei modelli
- Ottimizzazione dei modelli e dei loro parametri tramite internal cross validation
- Convalida incrociata sui modelli finali effettuata tramite miglior k per il fold
- Addestramento di modelli supervisionati dopo tecniche di undersampling
- Addestramento di modelli supervisionati dopo tecniche di oversampling
- Addestramento di modelli supervisionati dopo tecniche di con approccio misto
- Addestramento di metodi di ensemble basati su Bagging, Boosting e Stacking