Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

【論文解説】【AI研究者絶句】RoPEの限界、ついに突破。HoPEが長距離依存を完全支配する日

Автор: 論文解説チャンネル

Загружено: 2025-12-01

Просмотров: 13

Описание:

この学術論文では、**大規模言語モデルにおける長距離依存性モデリングの安定性**を向上させるため、**Hyperbolic Rotary Positional Encoding (HoPE)** という新しい位置エンコーディングメカニズムが提案されています。著者らは、既存の**Rotary Positional Encoding (RoPE)**が示す不安定な注意パターンや、**Alibi**の長文に対する性能低下といった課題を指摘しています。HoPEは、**ローレンツ変換**と**双曲線関数**を応用し、注意重みがトークン間距離の増加とともに単調に減衰するように設計されており、これにより**RoPEの振動問題**が根本的に解決されます。広範な実験結果は、HoPEが既存の手法を上回り、**長いシーケンスに対する優れた汎化能力と安定した位置表現**を提供することを示しています。
HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models
Positional encoding mechanisms enable Transformers to model sequential structure and long-range dependencies in text. While absolute positional encodings struggle with extrapolation to longer sequences due to fixed positional representations, and relative approaches like Alibi exhibit performance degradation on extremely long contexts, the widely-used Rotary Positional Encoding (RoPE) introduces oscillatory attention patterns that hinder stable long-distance dependency modelling. We address these limitations through a geometric reformulation of positional encoding. Drawing inspiration from Lorentz transformations in hyperbolic geometry, we propose Hyperbolic Rotary Positional Encoding (HoPE), which leverages hyperbolic functions to implement Lorentz rotations on token representations. Theoretical analysis demonstrates that RoPE is a special case of our generalized formulation. HoPE fundamentally resolves RoPE's slation issues by enforcing monotonic decay of attention weights with increasing token distances. Extensive experimental results, including perplexity evaluations under several extended sequence benchmarks, show that HoPE consistently exceeds existing positional encoding methods. These findings underscore HoPE's enhanced capacity for representing and generalizing long-range dependencies. Data and code will be available.
Chang Dai/Hongyu Shan/Mingyang Song/Di Liang
http://arxiv.org/abs/2509.05218v1
#HoPE #RoPE #PositionalEncoding #Transformer #AI研究 #長距離依存 #Lorentz変換 #ハイパーボリック幾何 #自然言語処理 #深層学習

【論文解説】【AI研究者絶句】RoPEの限界、ついに突破。HoPEが長距離依存を完全支配する日

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

【論文解説】MoE-Healthが切り拓く医療AIの未来:不完全データでも高精度予測を実現するマルチモーダル融合

【論文解説】MoE-Healthが切り拓く医療AIの未来:不完全データでも高精度予測を実現するマルチモーダル融合

【来るぞ】とんでもないリスクが襲ってくる!

【来るぞ】とんでもないリスクが襲ってくる!

KYLIAN MBAPPE DEKLASUJE RYWALA! ATHLETIC - REAL MADRYT, SKRÓT MECZU

KYLIAN MBAPPE DEKLASUJE RYWALA! ATHLETIC - REAL MADRYT, SKRÓT MECZU

OpenAI готовит новую модель «Чеснок»

OpenAI готовит новую модель «Чеснок»

2025年12月4日【金利大幅上昇でも株価大幅上昇したのはなぜか 日経平均1163円高 】(市況放送【毎日配信】)

2025年12月4日【金利大幅上昇でも株価大幅上昇したのはなぜか 日経平均1163円高 】(市況放送【毎日配信】)

【論文解説】血流シミュレーションの革命!MRI×CFDで見えた動脈の真実

【論文解説】血流シミュレーションの革命!MRI×CFDで見えた動脈の真実

Tech Left Behind in S&P 500’s Latest Rebound | Bloomberg Tech 12/3/2025

Tech Left Behind in S&P 500’s Latest Rebound | Bloomberg Tech 12/3/2025

AWS re:Invent 2025 - Ericsson Innovation: Optimizing Mobile Networks & Unified Development with AWS

AWS re:Invent 2025 - Ericsson Innovation: Optimizing Mobile Networks & Unified Development with AWS

【米国株 12/4】日本で18年半ぶりの現象。米メディアも一斉に報じ始めた。

【米国株 12/4】日本で18年半ぶりの現象。米メディアも一斉に報じ始めた。

【第139回質問への回答】5000万貯めたら使っていこう

【第139回質問への回答】5000万貯めたら使っていこう

【論文解説】QR-LoRA革命:601パラメータでLoRA・SVD・フル微調整を超えるLLM最適化の新常識

【論文解説】QR-LoRA革命:601パラメータでLoRA・SVD・フル微調整を超えるLLM最適化の新常識

Staying Relevant (& Employed) in the Age of AI | CX on the ROCKS December Experience Exchange

Staying Relevant (& Employed) in the Age of AI | CX on the ROCKS December Experience Exchange

【論文解説】「突然、均衡に到達する!?」マルコフ過程の謎──カットオフ現象の深層

【論文解説】「突然、均衡に到達する!?」マルコフ過程の謎──カットオフ現象の深層

【論文解説】銀河回転の謎が解けた瞬間…11億年前の衝突がすべてを変えた

【論文解説】銀河回転の謎が解けた瞬間…11億年前の衝突がすべてを変えた

【論文解説】【ATLAS新発見】酸素vsネオン衝突で露わになった原子核の“形”と流れの秘密

【論文解説】【ATLAS新発見】酸素vsネオン衝突で露わになった原子核の“形”と流れの秘密

【論文解説】【緑の債券に潜む“連鎖リスク”】MST解析で判明したユーティリティ中心の超密結構

【論文解説】【緑の債券に潜む“連鎖リスク”】MST解析で判明したユーティリティ中心の超密結構

【論文解説】ParroTaoで心拍予測が進化:異種データに強い新モデルがFitRecを17%超え

【論文解説】ParroTaoで心拍予測が進化:異種データに強い新モデルがFitRecを17%超え

【論文解説】AIは人間より道徳に敏感?25万件の評価で判明した驚きの真実

【論文解説】AIは人間より道徳に敏感?25万件の評価で判明した驚きの真実

株価をみれば金もわかる AI相場が今後の金価格を左右?【NIKKEI NEWS NEXT】

株価をみれば金もわかる AI相場が今後の金価格を左右?【NIKKEI NEWS NEXT】

【論文解説】人はどうやって過激思想から抜け出すのか?15,000の「脱退体験」が語る心理と回復

【論文解説】人はどうやって過激思想から抜け出すのか?15,000の「脱退体験」が語る心理と回復

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]