Tiền xử lý dữ liệu là công đoạn hết sức quan trọng trong xây dựng mô hình học máy. Các bộ dữ liệu cần được xử lý, làm sạch, chuẩn hóa (gọi chung là tiền xử lý) để phù hợp với thuật toán hoặc tăng tính chính xác của thuật toán. Trong thực tế phần lớn thời gian của các nhà khoa học dữ liệu dành để thực hiện công đoạn tiền xử lý.
Dưới đây là tổng hợp một số phương pháp tiền xử lý cơ bản:
- Mã hóa biến số liên tục: với Pandas, với Scikit-Learn
- Mã hóa biến số phân loại: với Pandas, với Scikit-Learn