Spark-for-Machine-Learning-AI

This is the my lesson notes and exercises for a LinkedIn course, Spark-for-Machine-Learning-AI.

Created by Kevin Chao ([email protected])
https://www.linkedin.com/in/kevin-chao-com/
Latest updated on Feb 14, 2024
The LinkedIn course:
- Spark for Machine Learning & AI by Dan Sullivan:
- https://www.linkedin.com/learning/spark-for-machine-learning-ai/welcome

Introduction to Spark and MLlib
Data Preparation and Transformation
- Numeric:
  - MinMaxScaler
  - StandardScaler
  - Bucketizer
- Text:
  - Tokenizer
  - HashingTF
Clustering
- K-Mean
- Hierarchical clustering with Bisecting K-means
Classification
- Navie Bayes
- Multilayer perceptron
- Decision trees
Regression
- Linear regression
- Decision tree regression
- Gradient-boosted tree regression (requiredd significant time to build the model)
Recommendations
- Collaborative Filtering
  - In Spark: Using Alternating Least Squares method
- Content-Based Filtering
Tips for using Spark MLlib:
- (1) Processing:
  - Collect, reformat, and transform data
    - Load data into Spark DataFrames
    - Include headers, or column names, in text file
    - Use inferSchema=True
    - Use StringIndexer to map from string to numeric indexes
- (2) Model Building:
  - Apply machine learning algorithms to training data
    - Split data into trainging and test sets
    - Fit models using trainging data
    - Create predictions by applying a transform to the test data
- (3) Validation:
  - Assess the quality of models built in step 2
    - Use MLlib evaluators:
      - MulticlassClassificationEvaluator
      - RegressionEvaluator
    - Experimeny with multiple algorithms
    - Vary hyperparameters
- Other suggestions:
  - (1) MLlibs Docs:
    - Detailed API documentation and examples
  - (2) Kaggle:
    - Data sets and articles
  - (3) AWS Data Sets:
    - Big data and public data sets

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
Exercise_Files		Exercise_Files
1_1_read_data_overview.ipynb		1_1_read_data_overview.ipynb
1_2_MLlib.ipynb		1_2_MLlib.ipynb
2_1_normlize_numeric_data.ipynb		2_1_normlize_numeric_data.ipynb
2_2_standarrdize_numeric_data.ipynb		2_2_standarrdize_numeric_data.ipynb
2_3_bucketize_numeric_data.ipynb		2_3_bucketize_numeric_data.ipynb
2_4_tokenize_text_data_TF-IDF.ipynb		2_4_tokenize_text_data_TF-IDF.ipynb
3_1_K-mean_clustering.ipynb		3_1_K-mean_clustering.ipynb
4_1_Iris_data_preprocess.ipynb		4_1_Iris_data_preprocess.ipynb
4_2_Navie_Bayes.ipynb		4_2_Navie_Bayes.ipynb
4_3_multilayer_perceptron.ipynb		4_3_multilayer_perceptron.ipynb
4_4_decision_trees.ipynb		4_4_decision_trees.ipynb
5_1_linear_regression.ipynb		5_1_linear_regression.ipynb
5_2_decision_tree_regression.ipynb		5_2_decision_tree_regression.ipynb
5_3_Gradient-Boosted-Tree_regression.ipynb		5_3_Gradient-Boosted-Tree_regression.ipynb
Cheatsheet - Spark Reference.pdf		Cheatsheet - Spark Reference.pdf
LICENSE		LICENSE
README.md		README.md

Provide feedback