[Open DMQA Seminar] Out-of-Distribution Generalization Subpopulation: Shifts and Approaches
Автор: 김성범[ 교수 / 산업경영공학부 ]
Загружено: 2025-05-15
Просмотров: 383
기계학습 및 딥러닝 모델은 일반적으로 학습 데이터와 테스트 데이터가 동일한 분포에서 추출된다는 가정에 기반하여 좋은 일반화 성능을 달성한다. 그러나 실제 환경에서는 이러한 가정이 성립하지 않는 경우가 많아, 학습에 사용한 데이터와 예측 환경에서 마주하는 데이터 간 분포 차이(distribution shift)가 발생한다. 분포가 달라짐에 따라서 모델 일반화 성능이 저하될 수 있으며, 이를 극복하기 위한 대표적인 분야 중 하나는 out-of-distribution generalization 분야이다. Distribution shift 중에서도 subpopulation shift 문제는 동일한 전체 데이터 분포 내에서 서로 다른 하위 집단(subgroup)이 존재하고, 학습 데이터와 테스트 데이터에서 하위 집단 구성이 다르게 분포할 때 발생하는 문제이다. 이러한 상황에서 모델은 상대적으로 소수 집단에 대한 예측 성능이 떨어질 수 있으며, 결과적으로 전반적인 일반화 성능과 공정성을 저하시킬 수 있다. 이번 세미나에서는 subpopulation shift 개념을 상세히 소개하고, 이를 해결하기 위한 대표적인 방법론들을 살펴보고자 한다.
참고자료:
[1] Yang, Y., Zhang, H., Katabi, D., & Ghassemi, M. (2023, July). Change is Hard: A Closer Look at Subpopulation Shift. In International Conference on Machine Learning (pp. 39584-39622). PMLR.
[2] Sagawa, S., Koh, P. W., Hashimoto, T. B., & Liang, P. (2019). Distributionally Robust Neural Networks. In International Conference on Learning Representations.
[3] Izmailov, P., Kirichenko, P., Gruver, N., & Wilson, A. G. (2022). On feature learning in the presence of spurious correlations. Advances in Neural Information Processing Systems, 35, 38516-38532.
[4] Koh, P. W., Sagawa, S., Marklund, H., Xie, S. M., Zhang, M., Balsubramani, A., ... & Liang, P. (2021, July). Wilds: A benchmark of in-the-wild distribution shifts. In International conference on machine learning (pp. 5637-5664). PMLR.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: