Il nostro racconto dell’AI Week 2025
THE Ò-BLOG
Visione e linguaggio: l’AI multimodale al servizio del mondo produttivo

16 Maggio 2025
Tempo di lettura: 3 minuti
Il nostro CTO Luca Antiga è salito sul palco per raccontare una storia diversa da quelle patinate che spesso si sentono agli eventi sull’intelligenza artificiale. Ha parlato di manifattura, agroalimentare e processi reali.
Ha parlato di modelli multimodali di frontiera – ma con i piedi ben piantati a terra.
Visione e linguaggio: l’AI che sa guardare e parlare
Nel suo talk, “Visione e linguaggio: l’AI multimodale al servizio del mondo produttivo””, Luca ha esplorato le potenzialità dei modelli multimodali per i settori industriali ad alta complessità.
Ha parlato di vision language models (VLM), che oggi sembrano all’avanguardia o confinati alla ricerca accademica, ma che – come spesso accade nell’AI – sono destinati a diventare mainstream molto presto. Perché in questo settore, l’evoluzione è rapida: ciò che ieri era un paper, oggi è un prodotto.
Si tratta di modelli che vedono, comprendono e interagiscono con schemi elettrici, diagrammi tecnici, immagini industriali, ma anche testi, tabelle e istruzioni operative. Modelli pensati per funzionare là dove serve davvero: sulle linee produttive della manifattura, nei processi alimentari, nei campi agricoli.

Manifattura: l’ultimo miglio che conta
Durante lo speech, Luca ha raccontato cosa significa davvero fare ispezione visiva nel mondo industriale: tra illuminazione variabile, velocità altissime, materiali non uniformi e soglie di accuratezza che devono superare il 99%.
È lì che operano i nostri modelli di visione, deployati all’edge, integrati con camere, PLC e sistemi produttivi, dove ogni millisecondo conta.
È lì che lavora AI-GO, la nostra piattaforma per addestrare e portare in produzione modelli di computer vision, in pochi minuti, con pochi esempi.
Oggi AI-GO guarda al futuro: integrare nativamente i vision language models, capaci di svolgere task di ispezione della qualità tramite prompting, con l’obiettivo di abbattere le barriere d’ingresso all’ispezione visiva automatizzata. Tradotto: meno sforzi, più risultati tangibili.
Agricoltura: dal campo al dato
Manifattura, sì – ma anche agricoltura. Un contesto in cui la computer vision classica fatica, per l’enorme variabilità e complessità degli scenari. Oggi, l’ispezione nei campi è ancora manuale, soggettiva, poco scalabile.
Con Qualyfruit on-the-go, la trasformiamo in un processo automatico, oggettivo e continuo. Una semplice camera consumer, montata su un trattore, raccoglie immagini georeferenziate. Il resto lo fa l’AI.
Dalla qualità visiva delle colture alle mappe delle fitopatie, dalle stime di resa alla pianificazione del raccolto: l’agricoltura di precisione è qui, oggi, e funziona. Con costi contenuti e ritorni misurabili.

Documentazione tecnica: i manuali li legge Teki Doc e te li spiega pure!
Chi lavora in produzione lo sa: i manuali si leggono solo quando c’è un problema.
Ma la gestione della documentazione tecnica resta una delle sfide più trasversali e sottovalutate.
Con Teki Doc, i documenti diventano conversazionali.
Grazie ai modelli multimodali, gli utenti possono fare domande anche su parti visive del documento (diagrammi, disegni tecnici, istruzioni grafiche) e ricevere risposte puntuali, con riferimento diretto alle pagine. Anche a voce, se hanno le mani occupate.
L’abbiamo messo alla prova con il manuale di montaggio più complesso di una nota azienda di mobili svedesi (solo immagini). Spoiler: ce l’ha fatta! Ecco il video completo.

Sporcarci le mani, sempre
Ci piace così: sporcarci le mani, imparare dagli errori e costruire soluzioni che funzionano davvero, in produzione.
Se eravate in sala e volete approfondire, se vi siete persi qualcosa o se avete un’idea da discutere: scriveteci.📩 info@orobix.com
Siamo qui per parlare, seriamente, di AI multimodale in produzione, senza fronzoli ma con tanta voglia di risolvere problemi veri.
