Eseguire modelli linguistici in locale
Ollama è il modo più semplice per eseguire Large Language Models (LLM) in locale. Un singolo comando per scaricare e avviare modelli come Llama, Mistral, Gemma.
1. Installazione
curl -fsSL https://ollama.com/install.sh | sh
2. Scaricare e avviare un modello
# Scaricare e avviare
ollama run llama3.2
ollama run mistral
ollama run gemma2:27b
ollama run codellama:34b
3. API REST
# Ollama espone API su porta 11434
curl http://localhost:11434/api/generate -d "{
\"model\": \"llama3.2\",
\"prompt\": \"Spiega cos e un firewall\",
\"stream\": false
}"
# Chat
curl http://localhost:11434/api/chat -d "{
\"model\": \"llama3.2\",
\"messages\": [{\"role\": \"user\", \"content\": \"Ciao\"}]
}"
4. Configurazione GPU
# Ollama rileva automaticamente le GPU NVIDIA
# Variabili d ambiente utili:
OLLAMA_NUM_GPU=2 # Usare 2 GPU
OLLAMA_GPU_MEMORY=7168 # Limite VRAM per GPU (MB)
OLLAMA_HOST=0.0.0.0 # Ascoltare su tutte le interfacce
5. Modelfile personalizzato
# Creare modello custom
cat > Modelfile <<EOF
FROM llama3.2
SYSTEM "Sei un assistente esperto di cybersecurity. Rispondi sempre in italiano."
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
EOF
ollama create security-assistant -f Modelfile
6. Gestione modelli
ollama list # modelli scaricati
ollama show llama3.2 # dettagli modello
ollama rm modello # rimuovere
ollama pull llama3.2 # aggiornare
Ollama gira su 2 server dell'infrastruttura con 22+ modelli disponibili, accessibili via API da qualsiasi VM della rete.