Le GPU non servono solo per il gaming: nel homelab sono il motore dell'inferenza AI, del transcoding video e del calcolo scientifico.
I driver NVIDIA sono il prerequisito per qualsiasi utilizzo GPU su Linux: inferenza AI, transcoding, calcolo parallelo.
Ollama è il modo più semplice per eseguire Large Language Models (LLM) in locale. Un singolo comando per scaricare e avviare modelli come Llama, Mistral, Gemma.
vLLM è un engine di inferenza LLM ad alte prestazioni con PagedAttention, continuous batching e API compatibile OpenAI. Ideale per carichi di lavoro pesanti.
Per utilizzare le GPU in una VM Proxmox, serve il passthrough PCI che assegna la scheda fisica direttamente alla macchina virtuale.
nvidia-smi è lo strumento principale per monitorare temperatura, utilizzo, memoria e processi delle GPU NVIDIA.
La quantizzazione riduce la precisione dei pesi del modello (da FP16 a INT8 o INT4) per risparmiare VRAM mantenendo qualità accettabile.
RAG permette a un LLM di rispondere basandosi sui tuoi documenti: manuali, documentazione, knowledge base. Tutto in locale, senza inviare dati all'esterno.
Prima di scegliere quale GPU assegnare a quale workload, è utile misurarne le prestazioni con benchmark specifici per AI.
Open WebUI (ex Ollama WebUI) fornisce un'interfaccia web moderna e completa per interagire con i modelli Ollama, simile a ChatGPT.
Il fine-tuning adatta un modello pre-addestrato al tuo dominio specifico: terminologia, stile, conoscenze proprietarie.
Il NVIDIA Container Toolkit permette ai container Docker di accedere alle GPU dell'host, essenziale per deploy containerizzati di servizi AI.
Con 6 GPU su 3 server, serve una strategia per distribuire i modelli in modo efficiente in base a VRAM disponibile e caso d'uso.
I servizi AI (Ollama, vLLM, Open WebUI) espongono API HTTP che, se non protette, possono essere abusate da chiunque nella rete.