Алгоритм кластеризации для смешанных типов данных — K-Prototypes
Автор: AIEngineering
Загружено: 2020-04-17
Просмотров: 48342
#datascience #machinelearning #ml
Методы, основанные на алгоритме k-средних, эффективны для обработки больших наборов данных, но часто ограничены числовыми данными. K-средние оптимизируют функцию стоимости, определяемую на основе евклидова расстояния
между точками данных и средними значениями кластеров. Минимизация функции стоимости путем вычисления средних значений ограничивает их применение числовыми данными.
Именно здесь K-прототип проявляет себя во всей красе. При применении к числовым данным алгоритм идентичен алгоритму k-средних. Для категориальных данных алгоритм использует простую меру соответствия и несходства
, заменяет средние значения кластеров модами и использует частотный метод для обновления мод в процессе кластеризации, чтобы минимизировать функцию стоимости кластеризации.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: