PassioniInformaticaAI e GPU

Guida: Gestire modelli LLM multipli nell'infrastruttura

04/03/2026

Organizzare e distribuire i modelli tra i server

Con 6 GPU su 3 server, serve una strategia per distribuire i modelli in modo efficiente in base a VRAM disponibile e caso d'uso.

1. Strategia di distribuzione

# Server .81 (2x Tesla P4, 8 GB ciascuna)
# Modelli leggeri per task generici
- llama3.2:8b (Q4_K_M, ~4.5 GB)
- mistral:7b (Q4_K_M, ~4.5 GB)
- codellama:7b
- nomic-embed-text (embedding)

# Server .108 (2x Tesla P100, 16 GB ciascuna)
# Modelli medi-grandi
- llama3.2:70b (Q4_K_M, ~40 GB su 2 GPU)
- gemma2:27b (Q4_K_M, ~16 GB)
- deepseek-coder:33b

# Server .90 (2x RTX 3060, 12 GB ciascuna)
# vLLM per alta velocità
- llama3.2:8b (FP16, ~14 GB su 2 GPU)
- Modelli specializzati per produzione

2. Load balancing

# Nginx upstream per distribuire richieste
upstream ollama_cluster {
    server 192.168.1.81:11434 weight=1;
    server 192.168.1.108:11434 weight=2;
}
server {
    listen 11434;
    location / {
        proxy_pass http://ollama_cluster;
    }
}

3. Monitoraggio centralizzato

# Script che controlla tutti i server
for SERVER in 192.168.1.81 192.168.1.108; do
    echo "=== $SERVER ==="
    curl -s "http://$SERVER:11434/api/tags" | jq ".models[].name"
done

4. Considerazioni VRAM

  • Lasciare 500 MB - 1 GB liberi per overhead CUDA
  • Q4_K_M usa ~4.5 GB per modello 7B
  • Con 2 GPU in tensor parallel, la VRAM si somma
  • Ollama scarica automaticamente i modelli dalla VRAM quando non usati

La distribuzione intelligente dei modelli massimizza l'utilizzo delle risorse GPU disponibili nell'infrastruttura.

← Guida: NVIDIA Container Toolkit per Docker Guida: Sicurezza dei servizi AI locali →
← Torna all'elenco