AI e GPU

14 articoli

Panoramica: GPU computing nel homelab

04/03/2026

Accelerazione hardware per AI e calcolo parallelo Le GPU non servono solo per il gaming: nel homelab sono il motore dell'inferenza AI, del transcoding video e del calcolo scientifico. GPU nell'infrast...

Guida: Installare i driver NVIDIA su Linux

04/03/2026

Setup completo driver e CUDA toolkit I driver NVIDIA sono il prerequisito per qualsiasi utilizzo GPU su Linux: inferenza AI, transcoding, calcolo parallelo. 1. Prerequisiti apt update && apt install -...

Guida: Ollama — LLM locali con un comando

04/03/2026

Eseguire modelli linguistici in locale Ollama è il modo più semplice per eseguire Large Language Models (LLM) in locale. Un singolo comando per scaricare e avviare modelli come Llama, Mistral, Gemma. ...

Guida: vLLM — inferenza ad alte prestazioni

04/03/2026

Engine di inferenza ottimizzato per produzione vLLM è un engine di inferenza LLM ad alte prestazioni con PagedAttention, continuous batching e API compatibile OpenAI. Ideale per carichi di lavoro pesa...

Guida: GPU passthrough per VM AI su Proxmox

04/03/2026

Assegnare GPU dedicate alle VM di inferenza Per utilizzare le GPU in una VM Proxmox, serve il passthrough PCI che assegna la scheda fisica direttamente alla macchina virtuale. 1. Abilitare IOMMU # /et...

Guida: Monitorare le GPU con nvidia-smi e script custom

04/03/2026

Dashboard GPU in tempo reale nvidia-smi è lo strumento principale per monitorare temperatura, utilizzo, memoria e processi delle GPU NVIDIA. 1. Comandi base # Stato completo nvidia-smi # Monitoraggio...

Guida: Quantizzazione modelli — GGUF, AWQ, GPTQ

04/03/2026

Ridurre le dimensioni dei modelli per GPU con poca VRAM La quantizzazione riduce la precisione dei pesi del modello (da FP16 a INT8 o INT4) per risparmiare VRAM mantenendo qualità accettabile. 1. Form...

Guida: RAG — Retrieval Augmented Generation locale

04/03/2026

LLM che consultano i tuoi documenti RAG permette a un LLM di rispondere basandosi sui tuoi documenti: manuali, documentazione, knowledge base. Tutto in locale, senza inviare dati all'esterno. 1. Come ...

Guida: Benchmark GPU — misurare le prestazioni

04/03/2026

Testare e confrontare le GPU del homelab Prima di scegliere quale GPU assegnare a quale workload, è utile misurarne le prestazioni con benchmark specifici per AI. 1. llama-bench (llama.cpp) # Il bench...

Guida: Open WebUI — interfaccia chat per Ollama

04/03/2026

ChatGPT-like UI per i tuoi LLM locali Open WebUI (ex Ollama WebUI) fornisce un'interfaccia web moderna e completa per interagire con i modelli Ollama, simile a ChatGPT. 1. Installazione con Docker doc...

Guida: Fine-tuning di un LLM su dati custom

04/03/2026

Addestrare il modello sui tuoi dati Il fine-tuning adatta un modello pre-addestrato al tuo dominio specifico: terminologia, stile, conoscenze proprietarie. 1. Quando fare fine-tuning Il RAG non basta...

Guida: NVIDIA Container Toolkit per Docker

04/03/2026

GPU nei container Docker Il NVIDIA Container Toolkit permette ai container Docker di accedere alle GPU dell'host, essenziale per deploy containerizzati di servizi AI. 1. Installazione # Aggiungere rep...

Guida: Gestire modelli LLM multipli nell'infrastruttura

04/03/2026

Organizzare e distribuire i modelli tra i server Con 6 GPU su 3 server, serve una strategia per distribuire i modelli in modo efficiente in base a VRAM disponibile e caso d'uso. 1. Strategia di distri...

Guida: Sicurezza dei servizi AI locali

04/03/2026

Proteggere le API LLM esposte in rete I servizi AI (Ollama, vLLM, Open WebUI) espongono API HTTP che, se non protette, possono essere abusate da chiunque nella rete. 1. Limitare il binding # Ollama: a...