Ускорение разработки программного обеспечения на периферии сети: возможности эффективного совмест...
Автор: EDGE AI FOUNDATION
Загружено: 2026-01-13
Просмотров: 91
Что если бы периферийные устройства могли быстро, конфиденциально и энергоэффективно предоставлять LLM-модели без бесконечных перестроек FPGA? Мы предлагаем практический путь: метод совместного проектирования с приоритетом моделирования (SECDA), встроенный в llama.cpp, который позволяет нам итерировать процесс за минуты, а не за дни, и выпускать ускорители, действительно меняющие ситуацию к лучшему.
Мы начинаем с реальных препятствий: циклов высокоуровневого синтеза, которые тормозят прогресс, вывода, ограниченного памятью, который игнорирует необходимость увеличения количества потоков ЦП, и форматов квантования, которые некорректно отображаются на ядра общего назначения. Затем мы углубляемся в то, как llama.cpp, GGUF и глубокое квантование позволяют создавать компактные модели в широком диапазоне аппаратного обеспечения. Наш инструментарий SECDA-LLM разгружает наиболее ресурсоемкие ядра через бэкенд GGML, позволяя создавать прототипы пользовательских операторов FPGA, сохраняя при этом остальную часть стека чистой и переносимой.
Вы услышите о двух конкретных достижениях. Во-первых, мы разрабатываем для TinyLlama механизм умножения матриц с учетом формата, который декодирует упакованные веса, применяет скалярные значения для блоков и суперблоков и планирует размещение тайлов для максимального повторного использования. На миниатюрной плате ARM + FPGA мы сокращаем задержку на токен до 11 раз по сравнению с запуском только на ЦП и понимаем, почему увеличение количества потоков ЦП не помогает, когда узким местом является память. Во-вторых, мы решаем проблему смешанных блоков с плавающей запятой на разных уровнях — например, Q3K и Q2, работающие бок о бок, — путем создания динамического процессора суперблоков. Параллельное выполнение путей масштабирования и выбор на поздней стадии устраняют внутренние петли и обеспечивают ранние преимущества, при этом остается запас ресурсов FPGA для масштабирования.
Попутно мы намечаем дорожную карту: расширение поддержки BFP до 4–6 бит, добавление новых вариантов внимания, изучение арифметики на основе сдвига для более дешевых операций и внедрение разреженности в поток данных. Главный вывод заключается в самом рабочем процессе — моделирование, измерение, уточнение, а затем синтез — что превращает ускорение LLM на периферии в управляемый инженерный цикл, а не в героическую рутину.
Если вас интересует низкая задержка и конфиденциальный вывод на небольших платах — или вы создаёте собственные ускорители для квантованных моделей — эта статья для вас. Подпишитесь, поделитесь с коллегой, который борется с циклами HLS, и оставьте отзыв с указанием периферийного устройства, которое вы бы выбрали в качестве следующего.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: