Passioni - Armando Passaro

Eseguire modelli linguistici in locale

Ollama è il modo più semplice per eseguire Large Language Models (LLM) in locale. Un singolo comando per scaricare e avviare modelli come Llama, Mistral, Gemma.

1. Installazione

curl -fsSL https://ollama.com/install.sh | sh

2. Scaricare e avviare un modello

# Scaricare e avviare
ollama run llama3.2
ollama run mistral
ollama run gemma2:27b
ollama run codellama:34b

3. API REST

# Ollama espone API su porta 11434
curl http://localhost:11434/api/generate -d "{
  \"model\": \"llama3.2\",
  \"prompt\": \"Spiega cos e un firewall\",
  \"stream\": false
}"

# Chat
curl http://localhost:11434/api/chat -d "{
  \"model\": \"llama3.2\",
  \"messages\": [{\"role\": \"user\", \"content\": \"Ciao\"}]
}"

4. Configurazione GPU

# Ollama rileva automaticamente le GPU NVIDIA
# Variabili d ambiente utili:
OLLAMA_NUM_GPU=2          # Usare 2 GPU
OLLAMA_GPU_MEMORY=7168    # Limite VRAM per GPU (MB)
OLLAMA_HOST=0.0.0.0       # Ascoltare su tutte le interfacce

5. Modelfile personalizzato

# Creare modello custom
cat > Modelfile <<EOF
FROM llama3.2
SYSTEM "Sei un assistente esperto di cybersecurity. Rispondi sempre in italiano."
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
EOF
ollama create security-assistant -f Modelfile

6. Gestione modelli

ollama list       # modelli scaricati
ollama show llama3.2  # dettagli modello
ollama rm modello # rimuovere
ollama pull llama3.2  # aggiornare

Ollama gira su 2 server dell'infrastruttura con 22+ modelli disponibili, accessibili via API da qualsiasi VM della rete.

Passioni › Informatica › AI e GPU

Guida: Ollama — LLM locali con un comando