148b — Обработка несбалансированных данных в Python: подход, ориентированный на бизнес
Автор: DigitalSreeni
Загружено: 2025-10-15
Просмотров: 640
Всегда ли SMOTE — правильный способ работы с несбалансированными данными?
Большинство данных реального мира поступают несбалансированными — будь то медицинские диагнозы, маркетинговые кампании или данные о мошенничестве. Мы часто прибегаем к SMOTE для синтетической балансировки наших наборов данных, но стоит ли?
В этом руководстве я бросаю вызов распространённому подходу слепой балансировки данных. На примере реального набора маркетинговых данных для банков я покажу, почему контекст важнее баланса.
Что вы узнаете:
— Почему синтетическая балансировка не всегда является решением проблемы;
— Как оценить влияние ошибок вашей модели на реальный мир;
— Сравнение базовых моделей, SMOTE, весов классов, настройки пороговых значений и оптимизации, чувствительной к стоимости;
— Когда «статистически сбалансированная» модель работает хуже в реальных бизнес-условиях;
— Пошаговая реализация каждого подхода на Python.
Реальный пример: в этой маркетинговой кампании для банка что бы вы предпочли потратить 10 долларов на звонок человеку, который никогда не подпишется, или упустить потенциального клиента с пожизненной ценностью в 200 долларов? Эти затраты неравны, поэтому ваша модель не должна учитывать их одинаково.
Результаты могут вас удивить: подход, оптимизированный по затратам, превосходит традиционные методы балансировки, поскольку учитывает реальную стоимость каждого типа ошибки в реальном мире.
Ссылка на код: https://github.com/bnsreenu/python_fo...

Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: