Passioni - Armando Passaro

Proteggere le API LLM esposte in rete

I servizi AI (Ollama, vLLM, Open WebUI) espongono API HTTP che, se non protette, possono essere abusate da chiunque nella rete.

1. Limitare il binding

# Ollama: ascoltare solo su localhost
OLLAMA_HOST=127.0.0.1 ollama serve

# Per accesso dalla LAN, usare reverse proxy con autenticazione

2. Firewall

# Permettere accesso Ollama solo dalla LAN
ufw allow from 192.168.1.0/24 to any port 11434
ufw deny 11434

3. Reverse proxy con autenticazione

# Apache
<Location /ollama>
    AuthType Basic
    AuthName "Ollama API"
    AuthUserFile /etc/apache2/.htpasswd
    Require valid-user
    ProxyPass http://localhost:11434
    ProxyPassReverse http://localhost:11434
</Location>

4. Rate limiting

# Limitare richieste per evitare abusi
<Location /ollama>
    SetEnvIf Request_URI "^/ollama" rate_limit
    # mod_ratelimit
    SetOutputFilter RATE_LIMIT
    SetEnv rate-limit 1024
</Location>

5. Logging delle richieste

# Monitorare chi usa le API
tail -f /var/log/apache2/access.log | grep ollama

6. Best practice

Mai esporre Ollama/vLLM direttamente su Internet
Usare VPN (WireGuard) per accesso remoto
Aggiornare regolarmente Ollama e i modelli
Monitorare utilizzo GPU per rilevare accessi non autorizzati

La sicurezza dei servizi AI è critica: un modello LLM esposto può essere usato per generare contenuti malevoli a spese delle tue risorse.

Passioni › Informatica › AI e GPU

Guida: Sicurezza dei servizi AI locali