Qwen3 235B servito sugli acceleratori Cerebras è il pezzo che ho aggiunto al toolkit per leggere documentazione lunga senza perdere il filo. Il free tier dà un milione di token al giorno, sufficiente per caricare due o tre RFC complete dentro lo stesso contesto e farci sopra domande senza ricaricare. La cosa che mi ha convinto a tenerlo fisso è la velocità: una risposta su un contesto da 80k token la ottengo in pochi secondi, non in minuti.
Il modello è open weights, Apache 2.0, sviluppato da Alibaba. Cerebras serve esclusivamente modelli open-source sulla sua piattaforma, quindi non ho la zona grigia dei modelli proprietari che ogni tanto compaiono sui gateway. Lo uso per ragionare su standard di rete, produrre prime bozze di playbook Ansible e estrarre tabelle pulite da PDF già convertiti in markdown.
Configurazione di opencode
La chiave la creo su cloud.cerebras.ai, la salvo in ~/.config/claude-credentials/credentials.env con chmod 600 e la carico in shell come CEREBRAS_API_KEY. Poi nel file ~/.config/opencode/opencode.json aggiungo il provider:
{
"provider": {
"cerebras": {
"npm": "@ai-sdk/openai-compatible",
"options": {
"apiKey": "{env:CEREBRAS_API_KEY}",
"baseURL": "https://api.cerebras.ai/v1"
},
"models": {
"qwen-3-235b-a22b-instruct-2507": { "name": "Qwen3 235B Instruct" }
}
}
}
}
Da terminale lancio la TUI puntandola alla cartella che mi serve:
opencode . --model cerebras/qwen-3-235b-a22b-instruct-2507
La working directory è di solito ~/Documenti/progetti/, dove tengo già le RFC in markdown e i ruoli Ansible esistenti da cui voglio derivare il nuovo playbook.
Un esempio di sessione reale
Martedì alle 16:40 dovevo riscrivere un ruolo Ansible per installare e configurare uno stack LAMP su un host Debian 13 di laboratorio. Avevo un ruolo webserver vecchio di due anni, mezzo rotto su systemd recente per via di apache2-utils che era stato spostato di pacchetto. Ho aperto opencode dentro progetti/lamp-debian13/, dove avevo copiato il ruolo vecchio, il site.yml e un README con i requisiti. Il prompt:
rivedi il ruolo webserver per Debian 13. Mantieni la struttura tasks/handlers/templates ma sostituisci i moduli deprecati, allinea agli idempotency check correnti di Ansible 2.18 e produci un changelog dei diff in coda.
La risposta è arrivata in undici secondi. Ha riscritto tasks/main.yml sostituendo apt: con ansible.builtin.apt esplicito, ha aggiunto un meta/argument_specs.yml che prima non c’era, e ha messo il changelog ordinato per file alla fine. Su due handler ha proposto di passare da notify esplicito a listen, scelta che ho accettato dopo averla verificata sulla doc. Il playbook risultante ha passato ansible-lint al primo colpo.
Cosa fa bene
Ragionamento lungo su molti file aperti nello stesso contesto. Estrazione di tabelle e elenchi puliti da documentazione tecnica densa. Generazione di Ansible idiomatico quando gli si fornisce un esempio recente come ancora. La velocità di inferenza Cerebras rende l’esperienza interattiva anche su prompt grandi: non aspetto mai più di una manciata di secondi.
Cosa fa meno bene
Su domande aperte di tipo architetturale tende a essere prolisso e a riepilogare invece di prendere posizione. Sui task piccoli e veloci è sovradimensionato: ci sono modelli più snelli che rispondono in mezzo secondo. Il limite di 1M token al giorno è abbondante per uso individuale ma si sente se carico più volte di seguito un repository intero.
Privacy e termini del provider
Cerebras dichiara, nei Terms del 27 agosto 2024, che non usa input né output per addestramento. I log vengono cancellati “when no longer necessary”, senza finestra esplicita ma di fatto trattati come telemetria operativa. La residency è USA, non c’è opzione EU. Il limite del free tier è 1M token al giorno e 30 richieste al minuto, senza richiesta di carta di credito.
Il modello servito è Qwen 3 235B, licenza Apache 2.0, rilasciato da Alibaba: pesi pubblici, ridistribuibili, ispezionabili. Cerebras si limita all’hosting su acceleratori proprietari, non al training. La combinazione policy Cerebras + modello open è quella che mi dà la frizione minore sul piano legale per task tecnici, anche se la giurisdizione resta extra UE.
Cosa non gli mando
Niente nomi di clienti, niente IP interni, niente file di configurazione con secret, niente nomi reali di host del mio homelab. Prima di mandare un blocco di log faccio passare un sed che redatta indirizzi privati e hostname in placeholder generici. Se il contenuto è davvero sensibile, esco da Cerebras e uso qwen2.5-coder:14b in locale su Ollama: stessa famiglia di modelli, niente uscita di rete.
In pratica
Nel mio toolkit Qwen3 235B su Cerebras è il “lettore lungo” per documentazione e ruoli Ansible. Per task brevi e veloci scelgo Llama 3.1 8B Instant su Groq, che risponde in mezzo secondo. Per ragionamento architetturale puro con contesto enorme passo a Gemini 2.5 Pro, che gestisce finestre ancora più grandi. Per coding mirato su singoli file Qwen3 32B su Groq è più rapido e altrettanto preciso. Tenere Cerebras pronto significa avere un modello frontier open ad altissima velocità senza pagare nulla.
Immagine generata con Cloudflare Workers AI / FLUX.







