Jak zrobić Asystenta AI, który zamieszka u Ciebie w homelabie — krok po kroku | Homelab #5
Автор: Kod Zero
Загружено: 2025-10-19
Просмотров: 299
Chcesz asystenta AI, który mieszka u Ciebie: działa offline, nic nie wysyła do chmury i ma wygodny web-interfejs? W tym odcinku stawiam kompletny setup: Ollama + Open WebUI na Dockerze z bezpiecznym dostępem przez Tailscale (HTTPS) i twardą zaporą UFW. 🔒
Po drodze tłumaczę też jak dobrać model (q4/q5, kontekst, „B”).
W tym odcinku zobaczysz:
• Po co lokalny GPT i kiedy ma przewagę nad chmurą (prywatność, kontrola wersji modeli)
• Dobór modelu pod sprzęt: kwantyzacje q4/q5, okno kontekstu (2k–4k), „B” i RAM
• Docker Compose: konfiguracja Ollama + Open WebUI (ports=localhost, OLLAMA_HOST/KEEP_ALIVE/BASE_URL, volumes, depends_on, offline mode)
• UFW + Tailscale Serve: reverse proxy HTTPS dla UI i TCP dla API (11434) bez publicznego IP
• Demo działania i następne kroki: automatyzacje pod Shorts
GH repo link: https://github.com/Kamil-Krawiec/yt/t...
Spis treści:
00:00 – Wprowadzenie: dlaczego lokalny GPT + plan odcinka
00:59 – Po co lokalny GPT: prywatność, kontrola, realne use case’y
01:50 – Ryzyka korzystania z rozwiązań chmurowych
02:40 – Ryzyka korzystania z rozwiązań lokalnych
03:45 – Jak dobrać model lokalnie i co z tym chodzi?
04:22 – Kwantyzacja modeli
05:23 – Kontekst num_ctx
06:35 – Liczba parametrów w modelu
07:15 – Porównanie modeli lokalnych do OpenAI
08:23 – Lokalny OpenAI model?
09:05 – Jak więc dobrać ten model pod mój komputer?
10:30 – Docker Compose: omówienie i uruchomienie stacku (Ollama + Web UI)
12:45 – Konfiguracja UFW i tailscale serve z HTTPS
15:10 – Zaciągnięcie modeli z Ollamy
15:32 – Konfiguracja WebUI
16:40 – Zdalny dostęp z telefonu przez MagicDNS (test end-to-end)
17:00 – Podsumowanie i co dalej??
OpenAI – jak wykorzystywane są dane użytkownika: https://help.openai.com/en/articles/5...
Tailscale Serve – HTTPS/reverse-proxy w tailnecie: https://tailscale.com/kb/1242/tailsca...
Wiz – 38 TB danych Microsoft AI przypadkowo ujawnione: https://www.wiz.io/blog/38-terabytes-...
Forbes – Samsung blokuje ChatGPT po wycieku kodu: https://www.forbes.com/sites/siladity...
Reuters – błąd ChatGPT ujawnił tytuły cudzych czatów: https://www.reuters.com/technology/ch...
Cisco Talos – wystawione publicznie instancje Ollama (case study): https://blogs.cisco.com/security/dete...
TechRadar – setki serwerów LLM dostępnych publicznie: https://www.techradar.com/pro/securit...
Wiz – podatność „ProBllama” w Ollama (CVE-2024-37032): https://www.wiz.io/blog/probllama-oll...
NVD – CVE-2024-12055 (szczegóły CVE): https://nvd.nist.gov/vuln/detail/CVE-...
R-Bloggers – ile parametrów ma GPT-5? (szacunki): https://www.r-bloggers.com/2025/08/ho...
LifeArchitect.ai – zestawienie i wizualizacje dot. GPT-5: https://lifearchitect.ai/gpt-5/
OpenAI – lista modeli i dokumentacja: https://platform.openai.com/docs/models/
llama.cpp PR – K-quants (wizualizacje): https://github.com/ggml-org/llama.cpp...
QLoRA – kwantyzacja 4-bit (ArXiv): https://arxiv.org/pdf/2306.00978
ACL Findings 2024 – porównanie metod kwantyzacji: https://aclanthology.org/2024.finding...
OpenAI Help – czym są tokeny i jak je liczyć: https://help.openai.com/en/articles/4...
Hugging Face – KV-cache wyjaśnione (wizualizacje): https://huggingface.co/blog/not-lain/...
NVIDIA Developer – optymalizacja inferencji LLM: https://developer.nvidia.com/blog/mas...
Hugging Face – karta modelu Llama-2-7B: https://huggingface.co/meta-llama/Lla...
Uwaga:
Materiał dotyczy homelab/devops/security. Pokazuję bezpieczne wzorce (porty na 127.0.0.1, reverse proxy przez Tailscale, UFW, ACL), ale testuj u siebie i nie wystawiaj usług publicznie. Zweryfikuj polityki bezpieczeństwa w Twojej organizacji.
#KodZero #Homelab #LocalLLM #Ollama #OpenWebUI #Tailscale #Docker #Linux
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: