【論文解説】【AI研究者絶句】RoPEの限界、ついに突破。HoPEが長距離依存を完全支配する日
Автор: 論文解説チャンネル
Загружено: 2025-12-01
Просмотров: 13
この学術論文では、**大規模言語モデルにおける長距離依存性モデリングの安定性**を向上させるため、**Hyperbolic Rotary Positional Encoding (HoPE)** という新しい位置エンコーディングメカニズムが提案されています。著者らは、既存の**Rotary Positional Encoding (RoPE)**が示す不安定な注意パターンや、**Alibi**の長文に対する性能低下といった課題を指摘しています。HoPEは、**ローレンツ変換**と**双曲線関数**を応用し、注意重みがトークン間距離の増加とともに単調に減衰するように設計されており、これにより**RoPEの振動問題**が根本的に解決されます。広範な実験結果は、HoPEが既存の手法を上回り、**長いシーケンスに対する優れた汎化能力と安定した位置表現**を提供することを示しています。
HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models
Positional encoding mechanisms enable Transformers to model sequential structure and long-range dependencies in text. While absolute positional encodings struggle with extrapolation to longer sequences due to fixed positional representations, and relative approaches like Alibi exhibit performance degradation on extremely long contexts, the widely-used Rotary Positional Encoding (RoPE) introduces oscillatory attention patterns that hinder stable long-distance dependency modelling. We address these limitations through a geometric reformulation of positional encoding. Drawing inspiration from Lorentz transformations in hyperbolic geometry, we propose Hyperbolic Rotary Positional Encoding (HoPE), which leverages hyperbolic functions to implement Lorentz rotations on token representations. Theoretical analysis demonstrates that RoPE is a special case of our generalized formulation. HoPE fundamentally resolves RoPE's slation issues by enforcing monotonic decay of attention weights with increasing token distances. Extensive experimental results, including perplexity evaluations under several extended sequence benchmarks, show that HoPE consistently exceeds existing positional encoding methods. These findings underscore HoPE's enhanced capacity for representing and generalizing long-range dependencies. Data and code will be available.
Chang Dai/Hongyu Shan/Mingyang Song/Di Liang
http://arxiv.org/abs/2509.05218v1
#HoPE #RoPE #PositionalEncoding #Transformer #AI研究 #長距離依存 #Lorentz変換 #ハイパーボリック幾何 #自然言語処理 #深層学習
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: