[Paper Review] COUNTDOWN
Автор: 서울대학교 산업공학과 DSBA 연구실
Загружено: 2025-09-30
Просмотров: 305
발표자 : 석사과정 천재원
1. 논문 제목: COUNTDOWN: Contextually Sparse Activation Filtering Out Unnecessary Weights in Down Projection
2. 논문 링크: https://arxiv.org/abs/2505.17701
3. Venue: EMNLP 2025 Main Track
4. 논문 Overview:
LLM 내 FFN Layer의 계산 과정 병목을 줄여, 그 추론 속도를 빠르게 함에 있음
FFN Layer의 계산 결과를 Down Projection Layer의 가중합의 결과로 해석, 효과적인 생략 기준 제시
Sparse Computation의 Memory Access Pattern을 고려한 Kernel Fusion
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: