Запуск Llama 405b на своем сервере. vLLM, docker.
Автор: Виталий Кулиев
Загружено: 2024-08-27
Просмотров: 26065
Детально показываю, как запустить самую мощную открытую нейросеть Llama 405b на своем сервере.
Описание модели Llama 405b на сайте Meta*
https://llama.meta.com/
Сервер покупал тут:
https://immers.cloud/signup/r/2024052...
Прикладная конференция по Data Science AI conf 2024:
https://aiconf.ru/2024
Описание модели Llama 3.5 405b instruct AWQ на huggingface:
https://huggingface.co/hugging-quants...
Доступ ко всем сайтам получаю тут:
https://t.me/hour_vpn_bot
vllm - проект по инференсу нейросетей:
https://github.com/vllm-project/vllm
Рейтинг нейросетей:
https://chat.lmsys.org/?leaderboard
Мой телеграм канал:
https://t.me/vitaly_kuliev_it
В rutube дублирую видео. Подписывайтесь на случай замедления ютуба:
https://rutube.ru/channel/23479346/
Команда для запуска vLLM в докере:
sudo docker run --ipc=host --log-opt max-size=10m --log-opt max-file=1 --rm -it --gpus '"device=0,1,2,3"' -p 8000:8000 --mount type=bind,source=/home/ubuntu/.cache,target=/root/.cache vllm/vllm-openai:v0.5.4 --model hugging-quants/Meta-Llama-3.1-405B-Instruct-AWQ-INT4 --tensor-parallel-size 4 --gpu-memory-utilization 0.94 --dtype half -q awq --disable-log-requests
Таймкоды:
0:00 Llama 405b
0:55 Файлы нейросети
1:40 Покупка сервера с 4 gpu A100
4:12 Установка docker
5:18 Запуск сервера vllm
7:15 Первые ответы
9:20 бенчмарк- тест скорости сервера
11:15 стоимость запуска
12:50 еще один тест
15:30 выводы
Признана экстремистской организацией в РФ.
Реклама. ООО «ДТЛ». ИНН 9717073792. erid: LjN8K1LTF
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: