APEX–Agents

Автор: AI Papers Podcast Daily

Загружено: 2026-01-25

Просмотров: 12

Описание:

Researchers introduced the APEX-Agents benchmark to evaluate whether AI agents are capable of performing complex professional tasks used in fields like investment banking, management consulting, and law. This test was built by industry experts who designed realistic scenarios where the AI must use various tools and files to complete work that would typically take a human one to two hours. The study tested eight different AI models, and the results showed that Gemini 3 Flash performed the best with a success rate of 24%, followed closely by GPT-5.2. Despite these achievements, the low success rates indicate that while AI agents are becoming more capable, they are still not consistent enough to reliably handle the difficult daily work of human professionals.

https://arxiv.org/pdf/2601.14242
https://huggingface.co/datasets/merco...
https://github.com/Mercor-Intelligenc...

APEX–Agents

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Conversation with Elon Musk | World Economic Forum Annual Meeting 2026

Conversation with Elon Musk | World Economic Forum Annual Meeting 2026

«Бесплатные деньги» ежемесячно? Почему не вводят безусловный базовый доход

«Бесплатные деньги» ежемесячно? Почему не вводят безусловный базовый доход

Web3's Privacy Power Play: Balancing Trust, Innovation, and Regulation

Web3's Privacy Power Play: Balancing Trust, Innovation, and Regulation

Глава DeepMind: миллионы ИИ-агентов выйдут в интернет - и это меняет всё

Глава DeepMind: миллионы ИИ-агентов выйдут в интернет - и это меняет всё

BREAKING NEWS: Elon Musk Holds Surprise Talk At The World Economic Forum In Davos

BREAKING NEWS: Elon Musk Holds Surprise Talk At The World Economic Forum In Davos

В этом году будет совсем плохо? 😧 Есть ли лучик надежды? || Дмитрий Потапенко*

В этом году будет совсем плохо? 😧 Есть ли лучик надежды? || Дмитрий Потапенко*

Claude 4.5 + Gemini 3 Pro в одном редакторе! Тестируем Antigravity

Claude 4.5 + Gemini 3 Pro в одном редакторе! Тестируем Antigravity

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

18 команд ChatGPT, о которых молчат в офисах (№12 — гениальна!)

18 команд ChatGPT, о которых молчат в офисах (№12 — гениальна!)

How LinkedIn “Distills” Frontier AI Models

How LinkedIn “Distills” Frontier AI Models

China Meets 5% Growth Target but Momentum Weakens | The China Show — 1/19/2026

China Meets 5% Growth Target but Momentum Weakens | The China Show — 1/19/2026

Elon Musk Makes Shocking Future Predictions At The World Economic Forum In Davos

Elon Musk Makes Shocking Future Predictions At The World Economic Forum In Davos

Зачем власти РФ хотят контролировать уехавших?

Зачем власти РФ хотят контролировать уехавших?

Как создаются степени магистра права?

Как создаются степени магистра права?

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

FIRST ON: CNBC's Joe Kernen interviews President Trump in Davos — 1/21/2026

FIRST ON: CNBC's Joe Kernen interviews President Trump in Davos — 1/21/2026

Divergent Creativity in Humans and Large Language Models

Divergent Creativity in Humans and Large Language Models

Как я автоматизировал NotebookLM с помощью Claude Code и Telegram

Как я автоматизировал NotebookLM с помощью Claude Code и Telegram

Что не так с “Орешником”? “Болванка”, которая встряхнула НАТО

Что не так с “Орешником”? “Болванка”, которая встряхнула НАТО