Протестировал видеокарты nvidia 3090, 4090, A100 в задаче инференса нейросети Llama 70b.
Автор: Виталий Кулиев
Загружено: 2024-10-16
Просмотров: 10534
Сравнительный тест видеокарт для работы с нейросетями, на примере модели LLaMA 70B awq на 4 бита. Список видеокарт: 3090, 3090ti, 4090, A100 и H100. В тестировании участвуют личный сервер с 3090ti и арендованные серверы с остальными видеокартами. Видео будет полезно тем, кто занимается нейросетями и хочет узнать, какие видеокарты эффективнее использовать для инференса нейронных сетей. Скорость работы нейросетей аналогичного размера очень близка к этому тесту. Аналогичные по размеру нейросети: Qwen2.5-72B,
Qwen2-VL-72B, InternVL2-76b...
Арендую сервера здесь:
https://immers.cloud/signup/r/2024052...
Ссылка на нейросеть:
https://huggingface.co/casperhansen/l...
Мой телеграм канал:
https://t.me/vitaly_kuliev_it
Доступ ко всем сайтам получаю тут:
https://t.me/hour_vpn_bot
В rutube дублирую видео. Подписывайтесь на случай замедления ютуба:
https://rutube.ru/channel/23479346/
vllm - проект по инференсу нейросетей:
https://github.com/vllm-project/vllm
Ссылка на бенчмарк:
https://github.com/kulievvitaly/rus_g...
Команда для запуска vLLM в докере:
docker run --ipc=host --log-opt max-size=10m --log-opt max-file=1 --rm -it --gpus '"device=0,1,2,3"' -p 9000:8000 --mount type=bind,source=/home/me/.cache,target=/root/.cache vllm/vllm-openai:v0.6.2 --model casperhansen/llama-3-70b-instruct-awq --tensor-parallel-size 4 --gpu-memory-utilization 0.92 --max-model-len 8000 --dtype half -q awq --disable-log-requests
Таймкоды:
0:00 обзор нейросети
0:40 выбор видеокарт
2:00 бенчмарк
2:15 результаты extract запросов
4:59 nvidia H100, дефицит
5:40 результаты generate запросов
Реклама. ООО «ДТЛ». ИНН 9717073792. erid: LjN8KQv8C

Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: