PassioniInformatica › AI e GPU

Panoramica: GPU computing nel homelab

04/03/2026

Le GPU non servono solo per il gaming: nel homelab sono il motore dell'inferenza AI, del transcoding video e del calcolo scientifico.

Guida: Installare i driver NVIDIA su Linux

04/03/2026

I driver NVIDIA sono il prerequisito per qualsiasi utilizzo GPU su Linux: inferenza AI, transcoding, calcolo parallelo.

Guida: Ollama — LLM locali con un comando

04/03/2026

Ollama è il modo più semplice per eseguire Large Language Models (LLM) in locale. Un singolo comando per scaricare e avviare modelli come Llama, Mistral, Gemma.

Guida: vLLM — inferenza ad alte prestazioni

04/03/2026

vLLM è un engine di inferenza LLM ad alte prestazioni con PagedAttention, continuous batching e API compatibile OpenAI. Ideale per carichi di lavoro pesanti.

Guida: GPU passthrough per VM AI su Proxmox

04/03/2026

Per utilizzare le GPU in una VM Proxmox, serve il passthrough PCI che assegna la scheda fisica direttamente alla macchina virtuale.

Guida: Monitorare le GPU con nvidia-smi e script custom

04/03/2026

nvidia-smi è lo strumento principale per monitorare temperatura, utilizzo, memoria e processi delle GPU NVIDIA.

Guida: Quantizzazione modelli — GGUF, AWQ, GPTQ

04/03/2026

La quantizzazione riduce la precisione dei pesi del modello (da FP16 a INT8 o INT4) per risparmiare VRAM mantenendo qualità accettabile.

Guida: RAG — Retrieval Augmented Generation locale

04/03/2026

RAG permette a un LLM di rispondere basandosi sui tuoi documenti: manuali, documentazione, knowledge base. Tutto in locale, senza inviare dati all'esterno.

Guida: Benchmark GPU — misurare le prestazioni

04/03/2026

Prima di scegliere quale GPU assegnare a quale workload, è utile misurarne le prestazioni con benchmark specifici per AI.

Guida: Open WebUI — interfaccia chat per Ollama

04/03/2026

Open WebUI (ex Ollama WebUI) fornisce un'interfaccia web moderna e completa per interagire con i modelli Ollama, simile a ChatGPT.

Guida: Fine-tuning di un LLM su dati custom

04/03/2026

Il fine-tuning adatta un modello pre-addestrato al tuo dominio specifico: terminologia, stile, conoscenze proprietarie.

Guida: NVIDIA Container Toolkit per Docker

04/03/2026

Il NVIDIA Container Toolkit permette ai container Docker di accedere alle GPU dell'host, essenziale per deploy containerizzati di servizi AI.

Guida: Gestire modelli LLM multipli nell'infrastruttura

04/03/2026

Con 6 GPU su 3 server, serve una strategia per distribuire i modelli in modo efficiente in base a VRAM disponibile e caso d'uso.

Guida: Sicurezza dei servizi AI locali

04/03/2026

I servizi AI (Ollama, vLLM, Open WebUI) espongono API HTTP che, se non protette, possono essere abusate da chiunque nella rete.