148b — Обработка несбалансированных данных в Python: подход, ориентированный на бизнес

Автор: DigitalSreeni

Загружено: 2025-10-15

Просмотров: 640

Описание:

Всегда ли SMOTE — правильный способ работы с несбалансированными данными?

Большинство данных реального мира поступают несбалансированными — будь то медицинские диагнозы, маркетинговые кампании или данные о мошенничестве. Мы часто прибегаем к SMOTE для синтетической балансировки наших наборов данных, но стоит ли?

В этом руководстве я бросаю вызов распространённому подходу слепой балансировки данных. На примере реального набора маркетинговых данных для банков я покажу, почему контекст важнее баланса.

Что вы узнаете:

— Почему синтетическая балансировка не всегда является решением проблемы;
— Как оценить влияние ошибок вашей модели на реальный мир;
— Сравнение базовых моделей, SMOTE, весов классов, настройки пороговых значений и оптимизации, чувствительной к стоимости;
— Когда «статистически сбалансированная» модель работает хуже в реальных бизнес-условиях;
— Пошаговая реализация каждого подхода на Python.

Реальный пример: в этой маркетинговой кампании для банка что бы вы предпочли потратить 10 долларов на звонок человеку, который никогда не подпишется, или упустить потенциального клиента с пожизненной ценностью в 200 долларов? Эти затраты неравны, поэтому ваша модель не должна учитывать их одинаково.

Результаты могут вас удивить: подход, оптимизированный по затратам, превосходит традиционные методы балансировки, поскольку учитывает реальную стоимость каждого типа ошибки в реальном мире.

Ссылка на код: https://github.com/bnsreenu/python_fo...

148b — Обработка несбалансированных данных в Python: подход, ориентированный на бизнес

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео