Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Train Machine Learning Model with SparkML (...and Python) | Hands-on tutorial

Автор: Data Science Garage

Загружено: 2022-12-06

Просмотров: 1373

Описание:

To build and train a Machine Learning (#ML) model with Spark is not hard. With this tutorial we will build a simple Binary Classification ML model with Spark. We will use Logistic Regression built-in Spark algorithm, and then evaluate it by getting performance metrics from the model.

There are some different from we do it in Scikit-Learn. Spark provides a built-in SparkML engine with rich #SparkML API which you can leverage to build your unique Machine Learning model.

In this tutorial we are using SparkUI v.3.2.1 with pyspark-shell.

The critical points you should pay your attention to is:
Datatypes (DTypes)
String Indexer and One-Hot-Encoding for categorical features.
Vector Assembler.

All these parts are explained and demonstrated in details in this tutorial. Also, you will learn what is SparkContext and SparkSession (differences between them). Therefore you will be able to check Data schema and handle data types in Spark DataFrame, selected features within your data. As required for ML modelling, you will also learn how to split your data into train and test sets.

Here you also learn how to setup ML stages with Spark and build a custom ML Pipeline to build your Machine Learning Model with Spark.

At the end, you will learn hot to get model performance metrics, such as Precision, Recall, or ROC curve values.

The tutorial is prepared with Jupyter Notebook, using Python programming language, so all the steps are executed with #pyspark .

The content of the video:
0:00 - Intro
0:32 - Start of Hands-on with Jupyter Notebook
0:46 - 1. Import main dependencies for Spark and Python
1:14 - Theory: Spark Session vs. Spark Context
3:10 - 1. Continuing importing dependencies
3:28 - 2. Load External CSV data to Spark (as Spark DataFrame)
5:40 - 3. Train and Test splits
6:39 - 4. Check Data Types
8:27 - 5. One-Hot-Encoding with Spark
10:07 - Theory: StringIndexer and One-Hot-Encoer
11:01 - 5. Continuing with StringIndexer hands-on
12:19 - 6. Vector Assembling
12:55 - Theory: Vector Assembling in Spark
13:53 - 6. Continuing with Vector Assembling
15:24 - 7. Make Spark ML Pipeline
18:31 - 8. Train ML Model with Spark
20:07 - 9. Get Model Performance Metrics

Spark API and SparkML API method used in the tutorial (incl. documentation):
Spark Datatypes (https://spark.apache.org/docs/latest/...)
PySpark SQL DataFrame Random Split (https://spark.apache.org/docs/3.1.3/a...)
StringIndexer (https://spark.apache.org/docs/latest/...)
OneHotEncoder (https://spark.apache.org/docs/3.1.1/a...)
VectorAssembler (https://spark.apache.org/docs/latest/...)
Spark DataFrame aggregation (https://spark.apache.org/docs/latest/...)
Count Distinct values from Spark DataFrame (https://spark.apache.org/docs/3.1.2/a...)
Group by to check feature distribution (https://spark.apache.org/docs/latest/...)
SparkML Pipelines (https://spark.apache.org/docs/latest/...)
Logistic Regression in Spark (https://spark.apache.org/docs/1.6.1/m...)

Link to the Github repo to hand-on everything on your side (data file is included there): https://github.com/vb100/spark_ml_tra...

Thank you for watching!

Please subscribe this channel - ‪@DataScienceGarage‬ to get more high-quality videos about #DataScience , #Python , #AI , #MachineLearning , #DeepLearning and much more!

Train Machine Learning Model with SparkML (...and Python) | Hands-on tutorial

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

OpenAI Whisper - Fine tune to Lithuanian | step-by-step with Python

OpenAI Whisper - Fine tune to Lithuanian | step-by-step with Python

Building Data Visualisations in Python in Minutes • Kris Jenkins • GOTO 2025

Building Data Visualisations in Python in Minutes • Kris Jenkins • GOTO 2025

Алгоритм случайного леса наглядно объяснен!

Алгоритм случайного леса наглядно объяснен!

PySpark Tutorial 33: PySpark Logistic Regression | PySpark with Python

PySpark Tutorial 33: PySpark Logistic Regression | PySpark with Python

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Spark Join и Shuffle | Внутреннее устройство Spark Join | Как работает Spark Shuffle

Spark Join и Shuffle | Внутреннее устройство Spark Join | Как работает Spark Shuffle

Apache Spark™ ML and Distributed Learning (1/5)

Apache Spark™ ML and Distributed Learning (1/5)

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Spark RAPIDS ML: GPU Accelerated Distributed ML in Spark Clusters

Spark RAPIDS ML: GPU Accelerated Distributed ML in Spark Clusters

Shuffling: What it is and why it's important

Shuffling: What it is and why it's important

Основы машинного обучения: Кросс-валидация.

Основы машинного обучения: Кросс-валидация.

КАК НЕЛЬЗЯ ХРАНИТЬ ПАРОЛИ (и как нужно) за 11 минут

КАК НЕЛЬЗЯ ХРАНИТЬ ПАРОЛИ (и как нужно) за 11 минут

20 AI tools that makes your life easier | Review

20 AI tools that makes your life easier | Review

Интернет в небе: Сергей

Интернет в небе: Сергей "Флеш" о том, как «Шахеды» и «Герберы» научились работать в одной связке

Момент, когда мы перестали понимать ИИ [AlexNet]

Момент, когда мы перестали понимать ИИ [AlexNet]

Декораторы Python — наглядное объяснение

Декораторы Python — наглядное объяснение

GDScript for complete beginners Part 2: Conditional Statements!

GDScript for complete beginners Part 2: Conditional Statements!

Создание модели машинного обучения с использованием Apache Spark | Учебное пособие по PySpark MLlib

Создание модели машинного обучения с использованием Apache Spark | Учебное пособие по PySpark MLlib

Понимание Active Directory и групповой политики

Понимание Active Directory и групповой политики

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]