【核心】AIのLLMベンチマークは正しく測定できていない事が判明／オックスフォード大学

Автор: 情報の灯台【テクノロジー】ソース有り

Загружено: 2025-11-11

Просмотров: 4317

Описание:

世界中で使われているAI評価テストのうち統計的手法で性能を比較しているものはわずか16%に過ぎないことが判明しました。
国際研究チームが445個のテストを分析した結果、AI企業が誇る高得点の多くが信頼性に欠ける可能性を発見しました。
この発見は人工知能開発の方向性と規制政策の両方に深刻な影響を及ぼす可能性があります。

▼関連動画
   • AGIに到達したら我々は「認識」できるのか？話題「AIには知性が無い、ただのチャット...
   • サム・アルトマン「AIで消える仕事は、本当の仕事ではない」発言の真相を徹底検証
   • 【待ち望まれた革命】AI新技術「ADRS」わずかなコスト・短時間でアルゴリズムを5倍...
   • AI、労働時間を減らすどころか増やしていた。労働満足度も低下と研究結果で明らかに
   • 世界25カ国2万8千人調査で判明。AI時代への期待より懸念が上回る現実と各国の温度差...
   • AI導入後ほとんどの企業が何をすればいいか分かっていなかった･･･｜新卒採用46％減...
   • 世界中の研究者、AIに「幻滅」していた。Wileyの最新調査が示す現実
   • OpenAIソラ2炎上🔥完全解説「日本のIP」狙われた理由。議員や任天堂の反応、アル...
   • AI「データ枯渇」の衝撃「まだ搾り取れる」企業データが切り開く新時代への道筋。年間2...
   • 【警告・対策】AIのおかげで「マウスをマイクとして」使用できるようになりました（➡盗...
   • 【AIとは】「人工ではない」ハーバードで明かされた衝撃の進化論【人間とは】

   • AI 関連まとめ

メンバーシップも始めました。
   / @joho_no_todai
SNSもフォローお願いします。
https://x.com/joho_no_todai

当チャンネルでは、海外メディアで取り上げられている最新情報を投稿しています😇
コメント、高評価、チャンネル登録＋通知ONしていただけると励みになります😃
本動画は誹謗中傷並びに著作権侵害を目的としておりません。

■動画の編集について
・動画の独自性：この動画内の解説は、投稿主が独自に調査し作成したものです。
・企画台本作成：動画で扱う話題について、投稿主が起承転結を意識し様々な方の意見をリサーチ、編成したものになります。
・海外情報の翻訳・専門用語の置き換え：海外の情報については、日本人が理解しやすい用語になるよう独自に翻訳しています。補助ツールとしてDeepL翻訳を利用しています。専門用語も適宜分かりやすい単語に置き換えています。
・タイトル：企画内容に基づき、動画タイトル・サムネイル内文字を投稿主が独自の観点で作成しています。
・効果音・GBM：動画内容に適した効果音・BGMを投稿主が選択し編集しています。

▼チャプター
0:00 信頼の崩壊
7:18 知の天秤

#AIベンチマーク　#オックスフォード大学　#信頼性　#統計的手法　#NeurIPS2025　#ニュース　#tech　#テクノロジー

【核心】AIのLLMベンチマークは正しく測定できていない事が判明／オックスフォード大学

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Zatajone tożsamości. Fałszywe nazwiska, które zmieniły Polskę

Zatajone tożsamości. Fałszywe nazwiska, które zmieniły Polskę

Crucial事業撤退とストレージが1週間で100％跳ね上がりの衝撃「メモリが買えなくなる日」

Crucial事業撤退とストレージが1週間で100％跳ね上がりの衝撃「メモリが買えなくなる日」

【Gemini 3は超難問テストで最高性能】今井翔太「ChatGPTユーザーを奪い取る」／サム・アルトマンはXで祝福→やせ我慢？／Googleは“天才科学者AI”で本領発揮【1on1 Tech】

【Gemini 3は超難問テストで最高性能】今井翔太「ChatGPTユーザーを奪い取る」／サム・アルトマンはXで祝福→やせ我慢？／Googleは“天才科学者AI”で本領発揮【1on1 Tech】

„MiG-15 kontra cały Zachód: jak »prymitywna kopia« upokorzyła supermocarstwa

„MiG-15 kontra cały Zachód: jak »prymitywna kopia« upokorzyła supermocarstwa"

Jeśli nastąpi kryzys, banki i oszczędności będą pierwszymi, które ucierpią – analiza Buffetta

Jeśli nastąpi kryzys, banki i oszczędności będą pierwszymi, które ucierpią – analiza Buffetta

【世界から見た中国情勢の深刻化】※日本では報道されない新たな視点※ 武田邦彦×伊藤貫

【世界から見た中国情勢の深刻化】※日本では報道されない新たな視点※ 武田邦彦×伊藤貫

AIエージェント新時代の到来？「学ぶ」を変えるMicrosoft Amplifierとは｜伊藤穰一

AIエージェント新時代の到来？「学ぶ」を変えるMicrosoft Amplifierとは｜伊藤穰一

【OpenAI論文を読む】なぜAIは“もっともらしい嘘“をつくのか？ハルシネーションの正体をゆる解説

【OpenAI論文を読む】なぜAIは“もっともらしい嘘“をつくのか？ハルシネーションの正体をゆる解説

【このタイミングで投資してください】米国株・ゴールドの現在の市場動向と今後見通しについてFOMCでの見通しを含めてデータ解説【FOMC 何もないまま終わらない】

【このタイミングで投資してください】米国株・ゴールドの現在の市場動向と今後見通しについてFOMCでの見通しを含めてデータ解説【FOMC 何もないまま終わらない】

"Żyję tu 4000 lat". Co stało się z Edytą Górniak?

Tajne Obrady Sejmu i „Nazwiska, Liczby, Firmy”: Tusk się skompromitował? USA Zostawi NATO?

Tajne Obrady Sejmu i „Nazwiska, Liczby, Firmy”: Tusk się skompromitował? USA Zostawi NATO?

【緊急事態】サム・アルトマン「コードレッド」発令。そして最後の切り札へ

【緊急事態】サム・アルトマン「コードレッド」発令。そして最後の切り札へ

【AI】素人の思いつくようなAIの限界はほぼ確実に破られる説

【AI】素人の思いつくようなAIの限界はほぼ確実に破られる説

【ゆる解説】AI業界の「今」がわかるベンチャーキャピタルのレポート『STATE OF AI REPORT 2025』注目ポイント7選 / AI企業は儲けているか？ / スパイ活動にAI？

【ゆる解説】AI業界の「今」がわかるベンチャーキャピタルのレポート『STATE OF AI REPORT 2025』注目ポイント7選 / AI企業は儲けているか？ / スパイ活動にAI？

【変化の時】今こそLinuxは一つに協力するべきである【迷宮になっている】

【変化の時】今こそLinuxは一つに協力するべきである【迷宮になっている】

Душа ИИ - 11000 слов, DeepSeek-пограничник, запрет на работу без ИИ

Душа ИИ - 11000 слов, DeepSeek-пограничник, запрет на работу без ИИ

AIの誇大宣伝を見破る「科学的妥当性」という新しい視点の誕生

AIの誇大宣伝を見破る「科学的妥当性」という新しい視点の誕生

ВАС ОТВЛЕКАЮТ ОТ КРАХА! Зачем раздувают конфликты? Стратегия на обвал 2026

ВАС ОТВЛЕКАЮТ ОТ КРАХА! Зачем раздувают конфликты? Стратегия на обвал 2026

Китай угрожает Японии, но уязвимости J-20 и проблемы с авианосцем ставят боеспособность под сомнение

Китай угрожает Японии, но уязвимости J-20 и проблемы с авианосцем ставят боеспособность под сомнение

AIに「君は人間だ」と刷り込み続けたら、どうなる？【#ChatGPT】【#AI】【#意識】

AIに「君は人間だ」と刷り込み続けたら、どうなる？【#ChatGPT】【#AI】【#意識】