Jak działają benchmarki modeli językowych AI? Przegląd: MMLU, GPQA, SUPERGLUE.
Автор: Mike Tomala
Загружено: 2025-03-27
Просмотров: 969
Odkrywamy prawdę o benchmarkach AI, których firmy używają do marketingu swoich modeli!
Świat dużych modeli językowych (LLM) zmienia się z zawrotną prędkością - co kilka dni pojawiają się nowe modele reklamowane jako "lepsze". Ale co to właściwie znaczy?
Z tego odcinka dowiesz się:
Czym są benchmarki GLUE i SuperGLUE i jakie zadania zawierają
Jak działa MMLU (Massive Multitask Language Understanding) sprawdzający wiedzę ogólną
Co testuje trudny benchmark GPQA i dlaczego nawet najlepsze modele osiągają tylko 35% skuteczności
Jak benchmarki TAU-bench sprawdzają użyteczność modeli w biznesie
Co bada SWE Bench Verified w kontekście programowania
Jak polski Bielik radzi sobie w europejskim benchmarku EuroEval (dawniej ScandEval)
Specjalny gość: Krzysztof Wróbel z zespołu Bielika i Enelpol opowiada o benchmarkach i planach rozwoju polskiego modelu AI!
💡 Po tym filmie będziesz rozumiał testy AI lepiej niż 90% osób w branży!
🔔 Zapisz się do mojego newslettera, żeby nie przegapić zapowiadanego filmu o połączeniu Claude Sonnet 3.7 z edytorem Cursor AI:
https://ctowiec.pl/newsletter
#AI #LLM #benchmarkAI #modelejezykowe #sztucznainteligencja #Bielik #MMLU #GPQA #EuroEval #PolskiAI
2:35 Benchmark GLUE
3:04 Benchmark SUPERGLUE
5:35 Benchmark MMLU
7:01 Benchmark GPQA
8:19 TAU-Bench
9:59 SWE-Bench Verified
11:25 Bielik dołączył do ScandEval
11:45 Co to za benchmark ScanEval? (Krzysztof Wróbel)
12:50 Które miejsce zajmuje Bielik w Euro LLM? (Krzysztof Wróbel)
14:45 Czy planujecie zgłaszać Bielika do innych benchmarków? (Krzysztof Wróbel)
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: