14 articoli
04/03/2026
Accelerazione hardware per AI e calcolo parallelo Le GPU non servono solo per il gaming: nel homelab sono il motore dell'inferenza AI, del transcoding video e del calcolo scientifico. GPU nell'infrast...
04/03/2026
Setup completo driver e CUDA toolkit I driver NVIDIA sono il prerequisito per qualsiasi utilizzo GPU su Linux: inferenza AI, transcoding, calcolo parallelo. 1. Prerequisiti apt update && apt install -...
04/03/2026
Eseguire modelli linguistici in locale Ollama è il modo più semplice per eseguire Large Language Models (LLM) in locale. Un singolo comando per scaricare e avviare modelli come Llama, Mistral, Gemma. ...
04/03/2026
Engine di inferenza ottimizzato per produzione vLLM è un engine di inferenza LLM ad alte prestazioni con PagedAttention, continuous batching e API compatibile OpenAI. Ideale per carichi di lavoro pesa...
04/03/2026
Assegnare GPU dedicate alle VM di inferenza Per utilizzare le GPU in una VM Proxmox, serve il passthrough PCI che assegna la scheda fisica direttamente alla macchina virtuale. 1. Abilitare IOMMU # /et...
04/03/2026
Dashboard GPU in tempo reale nvidia-smi è lo strumento principale per monitorare temperatura, utilizzo, memoria e processi delle GPU NVIDIA. 1. Comandi base # Stato completo nvidia-smi # Monitoraggio...
04/03/2026
Ridurre le dimensioni dei modelli per GPU con poca VRAM La quantizzazione riduce la precisione dei pesi del modello (da FP16 a INT8 o INT4) per risparmiare VRAM mantenendo qualità accettabile. 1. Form...
04/03/2026
LLM che consultano i tuoi documenti RAG permette a un LLM di rispondere basandosi sui tuoi documenti: manuali, documentazione, knowledge base. Tutto in locale, senza inviare dati all'esterno. 1. Come ...
04/03/2026
Testare e confrontare le GPU del homelab Prima di scegliere quale GPU assegnare a quale workload, è utile misurarne le prestazioni con benchmark specifici per AI. 1. llama-bench (llama.cpp) # Il bench...
04/03/2026
ChatGPT-like UI per i tuoi LLM locali Open WebUI (ex Ollama WebUI) fornisce un'interfaccia web moderna e completa per interagire con i modelli Ollama, simile a ChatGPT. 1. Installazione con Docker doc...
04/03/2026
Addestrare il modello sui tuoi dati Il fine-tuning adatta un modello pre-addestrato al tuo dominio specifico: terminologia, stile, conoscenze proprietarie. 1. Quando fare fine-tuning Il RAG non basta...
04/03/2026
GPU nei container Docker Il NVIDIA Container Toolkit permette ai container Docker di accedere alle GPU dell'host, essenziale per deploy containerizzati di servizi AI. 1. Installazione # Aggiungere rep...
04/03/2026
Organizzare e distribuire i modelli tra i server Con 6 GPU su 3 server, serve una strategia per distribuire i modelli in modo efficiente in base a VRAM disponibile e caso d'uso. 1. Strategia di distri...
04/03/2026
Proteggere le API LLM esposte in rete I servizi AI (Ollama, vLLM, Open WebUI) espongono API HTTP che, se non protette, possono essere abusate da chiunque nella rete. 1. Limitare il binding # Ollama: a...