fbpx

Intelligenza Artificiale e assistenti virtuali

Lo scorso martedì Apple ha presentato al pubblico la nuova gamma di iPhone. La quindicesima generazione dello smartphone arriverà sugli scaffali accompagnata dal sistema operativo iOS 17, le cui specifiche sono già note dal WWDC di giugno.

Tanto nel keynote quanto nella conferenza dedicata agli sviluppatori Apple ha sottolineato l’adozione di tecnologie, materiali e soluzioni di ultima generazione a livello hardware e software, con un’importante eccezione.

L’Intelligenza Artificiale generativa è stata la grande assente nelle nuove funzionalità di Siri, l’assistente vocale presente a bordo dei prodotti Apple dal 2011.

Quest’ultima ora interviene se chiamata per nome, senza bisogno di pronunciare il caratteristico “Ehi Siri", e accoglie più richieste contemporaneamente – ma i suoi limiti più grandi non sono ancora stati risolti.

In effetti molti utenti trovano che, dopo anni dalla sua introduzione, l’assistente vocale Apple sia rimasto indietro rispetto ai tempi. Questo svantaggio, inoltre, è percepito come tale non solo nei confronti dei competitor, ma anche e soprattutto rispetto ai Large Language Models come GPT-4, il modello alla base di ChatGPT.

Dai chatbot agli assistenti virtuali… e viceversa

Per comprendere al meglio i motivi dello svantaggio competitivo – vero o apparente che sia – di Apple nella corsa all’Intelligenza Artificiale, è opportuno fare un passo indietro, ricordando innanzitutto la differenza tra chatbot e assistenti virtuali.

Mentre entrambi i servizi sono progettati per favorire l’interazione diretta con gli utenti, i chatbot sono principalmente orientati alle conversazioni testuali, mentre gli assistenti virtuali come Siri sono progettati per eseguire una vasta gamma di azioni, basate sull’ecosistema di appartenenza, a partire da comandi vocali.

Nell’era del Web 2.0, un botta-e-risposta verbale con una voce sintetizzata e addestrata su un vasto database, in grado di elencare le funzionalità del nuovo iPhone, istruirci con nozioni di cultura generale e raccontare barzellette, rappresentava un’esperienza di gran lunga superiore a quella fornita dai rigidi chatbot di prima generazione.

Alexa, Google Assistant e gli altri

Le altre grandi multinazionali del mondo tech non hanno tardato a cavalcare l’onda del successo di Siri, dando vita ai loro assistenti virtuali: ricordiamo innanzitutto Google Assistant e Alexa, l’assistente a bordo dei prodotti Amazon, ma anche di soluzioni proprietarie come Bixby, l’assistente virtuale di Samsung.

Nel corso del tempo Google Assistant, presente a bordo degli smartphone e tablet Android più recenti, si è arricchito con le funzionalità del celebre motore di ricerca, mentre Alexa “anima” le ricerche vocali sul marketplace di Amazon e le funzionalità di domotica di milioni di case in tutto il mondo.

Una sorte meno fortunata è toccata invece a Cortana, l’assistente virtuale di Microsoft che animava i PC Windows: recentemente l’app dedicata è stata abbandonata dallo stesso produttore a bordo dei dispositivi Windows 11, in vista di una futura integrazione con il chatbot AI Copilot.

Siri, capostipite dei moderni assistenti virtuali, continua a sopravvivere, ma è rimasta indietro: l’assistente vocale più longevo tra quelli prodotti dai “big” della tecnologia ha ormai alle spalle ben 12 anni di storia, costellati da ben pochi progressi significativi nell’esperienza utente.

La rivoluzione dei chatbot AI

L’Intelligenza Artificiale ha cambiato le carte in gioco per l’intero mondo della tecnologia: il settore degli agenti conversazionali non fa affatto eccezione.

All’interno dell’ondata innovativa causata dall’Intelligenza Artificiale generativa troviamo in una posizione di spicco i Large Language Models, o modelli linguistici di grandi dimensioni.

Come sappiamo bene in Neosperience, si tratta di una vera e propria rivoluzione, che permette ai chatbot di raggiungere capacità conversazionali e livelli di comprensione del linguaggio naturale impensabili fino a pochi mesi fa.

I chatbot arricchiti da una forma conversazionale di AI, come GPT-4, aprono la strada a innumerevoli scenari applicativi, sia in ambito personale sia in ambito enterprise.

I chatbot AI sono ormai ovunque: dall’utilizzo quotidiano di ChatGPT, capace anche nella sua versione gratuita di restituire output testuali facilmente rielaborabili e utilizzabili tanto sul lavoro quanto nella vita di tutti i giorni, fino alle applicazioni dell’Intelligenza Artificiale nell’ambito della Customer Experience, questi strumenti hanno contribuito ad alzare di molto l’asticella delle aspettative degli utenti.

Assistenti virtuali e AI

Assistenti virtuali e Intelligenza Artificiale generativa, una partita persa?

Nel panorama degli assistenti conversazionali gli assistenti virtuali come Siri e Alexa hanno apparentemente già perso l’occasione perfetta per mantenere la loro rilevanza nei confronti del grande pubblico.

Come già anticipato, l’era degli assistenti virtuali tradizionali sembra essere ormai giunta al tramonto: i chatbot AI hanno cambiato completamente le carte in tavola e la rivoluzione dei Virtual Agent, capaci di portare la dimensione conversazionale su tutt’altro livello, è ormai alle porte.

Come ricorda un recente approfondimento del New York Times sul tema, gli assistenti virtuali sono poco al passo con le nuove generazioni, bonariamente scherniti nei talk show del sabato sera e in generale utilizzati con un certo grado di frustrazione. In altre parole, per usare l’espressione dell’amministratore delegato di Microsoft Satya Nadella, sono “stupidi come un sasso”.

Nonostante i loro evidenti limiti, tuttavia, Siri, Google Assistant e Alexa giocano ancora un ruolo importante nelle vite di molti.

Che sia per pura abitudine, per la loro intuitività o per questioni di accessibilità digitale, la partita degli assistenti virtuali non è ancora del tutto persa – e un’integrazione con l’AI, per quanto tardiva, può aiutarli a ribaltare il risultato.

Ma “Siri-GPT” è ancora lontana

Torniamo allora brevemente al paragrafo di apertura di questo articolo. A fine 2023 l’Intelligenza Artificiale generativa ormai è letteralmente e metaforicamente ovunque si parli di tecnologia… tranne, apparentemente, all’interno dell’assistente virtuale Apple. E per buoni motivi.

Una delle principali sfide affrontate da Siri è stata la sua architettura di base, ritenuta a detta degli stessi sviluppatori ingombrante e non facilmente adattabile. L'aggiunta o la modifica di funzioni e termini nel suo database, che contiene un vasto elenco di parole in quasi una ventina di lingue, è un'operazione che può richiedere settimane o addirittura mesi.

Questa lentezza contrasta con la capacità di altri sistemi di Intelligenza Artificiale, come appunto i Large Language Models, di generare risposte in tempo reale senza dipendere da risposte predefinite.

L’architettura alla base dei chatbot AI è infatti progettata per generare testo in risposta agli input ricevuti; a differenza di Siri, che si appoggia a un database esterno, i chatbot come ChatGPT generano le risposte in base al contesto fornito dall'input.

Mentre Siri si concentra su compiti specifici e interazioni funzionali all'interno dell'ecosistema Apple, comunicando solo superficialmente con il resto del Web, i chatbot conversazionali puntano a offrire risposte il più possibile dettagliate e coerenti, almeno dal punto di vista linguistico, su una vasta gamma di argomenti.

Il futuro di Siri rimane dunque un’incognita: nonostante le sue difficoltà architetturali e i ritardi nell'aggiunta di nuove funzioni, Apple non ha ancora cessato di investire nella sua evoluzione.

Gli ingegneri della società di Cupertino, inclusi quelli del team dedicato allo sviluppo di Siri, sono consci di questo svantaggio e stanno esplorando da tempo nuove possibilità di integrazione tra la struttura originale di Siri e le tecnologie di generazione di linguaggio, in modo da portarsi in futuro al passo con le esigenze degli utenti.

La via di Apple all’Intelligenza Artificiale

L’atteggiamento di Apple nei confronti dell’Intelligenza Artificiale è di cauto ottimismo. Laddove altre aziende hanno partecipato fin da subito all’entusiasmo per l’AI generativa, in una recente conferenza sui dati di bilancio il CEO di Apple Tim Cook ha sottolineato la necessità di procedere con prudenza nell’adozione di tecnologie ancora caratterizzate da grandi controversie.

Apple, d’altronde, integra già da anni l’Intelligenza Artificiale e il Machine Learning all’interno dei propri dispositivi, dalla fotografia computazionale al monitoraggio dei dati relativi a salute e benessere, passando per il rilevamento degli incidenti e, a partire da iOS 17, un correttore automatico completamente riprogettato dal punto di vista linguistico.

Insomma, almeno per i prossimi anni Apple sembra intenzionata, almeno per i prossimi anni, a proseguire su questo utilizzo “discreto” dell’Intelligenza Artificiale, senza proporre altre applicazioni consumer-oriented specificamente legate a questo tipo di tecnologia. Ma non è detto che lo scenario non si evolva in futuro.

Conclusione

Se gli assistenti virtuali come Siri vogliono recuperare terreno, sembra inevitabile – e alquanto urgente – provvedere all'integrazione con l’Intelligenza Artificiale generativa. La strada per raggiungere questo risultato, come abbiamo visto, è però complessa, costellata di controversie e ostacoli tecnici.

Da un lato, mentre il mondo della tecnologia si precipita in una corsa sfrenata all’utilizzo di questi strumenti, Apple preferisce diversificare i suoi sforzi e procedere con cautela, integrando forme consolidate di Intelligenza Artificiale laddove davvero servono, al di là dei trend del momento.

Dall’altro, per aziende come OpenAI, c'è una crescente pressione per stabilire una presenza dominante nel settore prima che giganti come Amazon, Google e la stessa Apple consolidino ulteriormente le loro posizioni sullo sviluppo uscendo dalla fase ancora embrionale di ricerca e sviluppo.

La recente partnership di OpenAI con Microsoft lancia d’altronde un segnale importante: il futuro risiede nelle collaborazioni tra i “padri fondatori” della tecnologia e i protagonisti del Web del futuro. In questo scacchiere tecnologico ogni mossa è cruciale, ma nella corsa all’Intelligenza Artificiale sarà l’unione a fare la forza.

Ricevi aggiornamenti da Neosperience:

Generative Art: orizzonti e limiti delle AI “creative”

dalle mini descrive l'empatia

In copertina: Dall-E Mini, “Generative Art About Empathy In Blue Tones”, medium digitale, 2022 

 

Dai bizzarri accostamenti di immagini creati da Dall-E Mini al mercato degli NFT: le immagini generate da algoritmi di Intelligenza Artificiale stanno entrando sempre di più nell’immaginario comune. Al tempo stesso questa stretta intersezione tra arte e tecnologia solleva diversi interrogativi.

Può una macchina generare opere d’arte in autonomia? Se sì, qual è il futuro della produzione artistica nel momento in cui non è più un’esclusiva dell’umanità? Quali sono i limiti e i rischi, ma anche le potenzialità, di questo tipo di arte?

 

Cos’è la Generative Art?

La Generative Art è un tipo di arte, nella maggior parte dei casi visiva, che si basa sulla cooperazione tra un essere umano e un sistema autonomo. Per “sistema autonomo” si intende un software, algoritmo o modello di IA in grado di eseguire operazioni complesse senza bisogno dell’intervento del programmatore.

La casualità (randomness) è una proprietà fondamentale della Generative Art. A seconda del tipo di software il sistema autonomo è in grado di elaborare risultati sempre diversi e unici ogni volta che si esegue il comando di generazione, o può restituire un numero variabile di risultati in risposta all’input dell’utente.

I primi esperimenti di Generative Art risalgono agli anni Sessanta con gli esperimenti di Harold Cohen e del suo programma AARON. Cohen utilizzò per primo software autonomi per generare opere d’arte astratte e ispirate alle serigrafie della Pop Art. Le opere di Cohen sono oggi esposte alla Tate Gallery di Londra.

Un altro attributo della Generative Art, che però rappresenta sempre meno una prerogativa, è la ripetizione di pattern o elementi astratti forniti dal programmatore e implementati all’interno del codice del software.

Lo sviluppo di reti neurali sempre più complesse che operano sull’associazione testo-immagine ha permesso d’altra parte lo sviluppo di modelli generativi in grado di creare immagini sempre più realistiche e accurate. L’esempio più noto di questa categoria di Generative Art è Dall-E.

 

Dall-E e CLIP: la rivoluzione nel riconoscimento per immagini

Dall-E è un una rete neurale multimodale basata sul modello di deep learning GPT-3 di OpenAI. Questo sistema è capace di generare immagini a partire da una descrizione testuale sulla base di un dataset di coppie testo-immagine.

La prima versione di Dall-E, presentata al pubblico a gennaio del 2021 e rimasta prerogativa di un numero ristretto di professionisti del settore, ha rappresentato una vera e propria rivoluzione per quanto riguarda questo tipo di modelli generativi, superando le innovazioni dello stesso GPT-3.

Dall-E Mini

Dall-E è infatti in grado di generare immagini plausibili da una grande varietà di frasi e prompt testuali, anche caratterizzati da una struttura linguistica composita. Il modello di OpenAI si dimostra in grado di comprendere e realizzare:

  • La struttura prospettica dell’immagine
  • La struttura interna ed esterna di un oggetto
  • Confronti e sequenze tra diverse immagini
  • La collocazione spazio-temporale degli oggetti.

L’accuratezza dei risultati elaborati da Dall-E si è rivelata il campo di applicazione perfetto per un’altra soluzione di OpenAI: CLIP (Contrastive Language–Image Pre-training), una rete neurale di classificazione e ranking di immagini addestrata sulla base di associazioni testo-immagine, come le didascalie presenti su Internet.

Grazie all’intervento di CLIP, che riduce a 32 il numero di risultati proposti all’utente per ogni prompt, Dall-E si è rivelata in grado di restituire immagini soddisfacenti nella maggior parte dei casi. I risultati ottenuti sono tuttavia di qualità bassa e presentano ancora evidenti limiti nell’elaborazione di alcuni tipi di associazioni logiche tra elementi, come la collocazione all’interno di uno spazio.

 

Dall-E Mini conquista Internet

Nel mondo dell’arte l’imitazione è la forma più sincera di complimento. OpenAI non ha mai reso pubblico il codice di DALL-E, ma ci sono voluti solo pochi mesi prima che comparisse una versione meno raffinata della rete neurale, basata tuttavia sugli stessi principi di associazione e combinazione di immagini appartenenti a un database di circa 30 milioni di elementi.

Si tratta di Dall-E Mini, un progetto del developer americano Boris Dayma rilasciato sulla piattaforma di hosting open-source HuggingFace. Resa disponibile a tutti sotto forma di una semplice web app nella primavera del 2022, Dall-E Mini è presto diventata, per definizione della testata Wired, “Internet’s favorite meme machine”.

La possibilità di generare 9 immagini in bassa risoluzione a partire da qualunque prompt, anche i più bizzarri, ha scatenato la fantasia degli utenti, che si sono divertiti a creare combinazioni divertenti e surreali e a condividerle su piattaforme come Twitter e Reddit.

Dall-E Mini

In poche settimane Dall-E si è trovata a elaborare circa 50mila immagini al giorno e ha attirato l’attenzione di utenti normalmente poco interessati agli sviluppi dell’Intelligenza Artificiale, fornendo allo stesso tempo ai professionisti diversi spunti di riflessione sull’applicazione di queste tecnologie su più vasta scala.

 

Limiti e autoimposizioni della Generative Art

Il grado di popolarità raggiunto da Dall-E Mini ha aperto fin da subito interrogativi sui possibili rischi che si possono nascondere nella Generative Art, in particolare per quanto riguarda i modelli in grado di elaborare immagini contenenti persone e oggetti reali.

Le immagini elaborate da Dall-E Mini hanno un aspetto inconfondibile: spesso i contorni dei soggetti sono poco definiti o distorti, mentre i volti umani sono quasi sempre deformati al punto da non essere più riconoscibili. Nella maggior parte dei casi, dunque, la natura artificiale delle immagini generate è ben chiara all’utente, così da ridurre al minimo la probabilità di generare deepfake con intenti malevoli.

Ciononostante, la natura open-source di Dall-E Mini e la vasta quantità di prompt inseriti dagli utenti hanno ben presto fatto emergere la necessità di regolamentare i risultati generati dalla rete neurale. Il database di Dall-E blocca le parole chiave più esplicite o violente: un sistema che, anche se ancora imperfetto, permette agli sviluppatori di mantenere sotto controllo i risultati restituiti all’utente.

D’altra parte, come accade per ogni Intelligenza Artificiale, all’interno di Dall-E e della sua versione Mini si annidano pregiudizi e bias sociali comuni agli esseri umani che hanno sviluppato queste tecnologie.

La rete neurale di OpenAI, per esempio, riflette gli stereotipi più superficiali sul cibo o sulla popolazione di un luogo quando i prompt contengono indicazioni geografiche; Dall-E Mini restituisce invece solo immagini di uomini al prompt “medico” e di donne al prompt “infermiere” (n.d.r. entrambi i termini sono di genere neutro in lingua inglese).

Generative Art bias

Tornando invece alle problematiche relative alla privacy, l’eventualità che la Generative Art possa mettere a repentaglio la sicurezza degli individui ritratti assume carattere di maggiore urgenza se si considera lo sviluppo di reti neurali sempre più avanzate, in grado di restituire risultati di qualità più alta e dai dettagli più precisi rispetto a Dall-E.

Dall-E 2, la seconda generazione della rete neurale di OpenAI presentata ad aprile 2022, cerca anch’essa di ridurre questo tipo di rischi rafforzando le regole di filtraggio dei dati di addestramento del sistema e delle parole chiave accettate. I pochi professionisti che finora hanno ottenuto accesso a Dall-E 2 rispondono inoltre a norme ancora più rigide, almeno finché le capacità e i limiti della nuova tecnologia saranno ancora in fase di test.

 

Dall-E 2, verso un modello subscription-based

Come già anticipato nel paragrafo precedente, in poco più di un anno i progressi nell’ambito della Generative Art sono stati sostanziali: Dall-E 2 è infatti in grado di generare immagini ancora più realistiche e accurate con una risoluzione quattro volte superiore alla prima generazione.

I miglioramenti di Dall-E 2 si concentrano soprattutto sulla combinazione di concetti, attributi e stili artistici. La rete neurale può ora apportare diverse modifiche a immagini pre-esistenti a partire da una descrizione in linguaggio naturale, aggiungendo o spostando elementi all’interno di una scena, ma anche creando variazioni a partire da un soggetto o un’opera originale.

Generative Art Dall-E 2

Dopo un periodo iniziale di accesso limitato, OpenAI è pronta a rilasciare Dall-E 2 in beta al primo milione di utenti in lista d’attesa. Al contrario di quanto accaduto con la prima versione, tuttavia, il consorzio fondato tra gli altri da Elon Musk e finanziato da Microsoft è pronto ad adottare un modello subscription-based strutturato in base a crediti.

Nello specifico, ogni utente della beta di Dall-E 2 riceverà un numero predefinito di crediti (50 all’iscrizione e 15 ogni mese seguente), ciascuno dei quali equivarrà a un’immagine generata dalla rete neurale. Una volta esauriti i crediti, gli utenti potranno acquistare un pacchetto da 115 crediti al costo di 15 dollari.

 

Generative Art: applicazioni presenti e future

Dalle bizzarre creazioni di Dall-E Mini, condivise ironicamente sul Web, a vere e proprie opere d’arte vendute all’asta per cifre astronomiche, la Generative Art sta raggiungendo negli ultimi anni un pubblico sempre più vasto.

Le immagini generate saranno per la prima volta utilizzabili per scopi commerciali oltre che personali. Gli utenti in lista d’attesa, spiega OpenAI, hanno già intenzione di utilizzare le immagini generate da Dall-E 2 per diversi tipi di progetti, tra cui alcuni più tradizionali:

  • Illustrazioni di libri per bambini
  • Concept art e storyboard per videogiochi e film
  • Moodboard per le consulenze in ambito design.

Uno degli sbocchi commerciali più fruttuosi per questo tipo di arte “nativa digitale” è tuttavia rappresentato senza dubbio dal mercato degli NFT.

Le immagini generate dalle reti neurali, combinate e rielaborate da artisti multimediali o proposte così come l’algoritmo le ha generate, possono essere caricate su blockchain e messe in vendita su marketplace come OpenSea o su piattaforme per la gestione indipendente dei propri token non fungibili, come ad esempio NFT Commerce.

D’altra parte, i risultati ottenuti da reti neurali come Dall-E assumono una grande importanza non solo per il loro valore estetico, ma anche per l’utilizzo in svariate applicazioni pratiche. Proprio sulla ricerca per immagine si sono concentrati gli sforzi di Google, che ha annunciato lo sviluppo di due AI dal funzionamento simile a quello di Dall-E, Imagen e Parti, nessuna delle quali è stata ancora condivisa con il pubblico.

 

Generative Art (?)

L’entrata in campo delle Intelligenze Artificiali ha aperto, all’interno della storia dell’arte, un capitolo ancora in gran parte da scrivere.

Già negli scorsi decenni la Pop Art ha sdoganato la serialità dei processi industriali all’interno delle arti visive, mentre il postmodernismo ha sciolto i nodi della società di massa in un ironico gioco di combinazioni. Ancora prima il Dadaismo ha invece contrapposto all’intenzione creativa la casualità giocosa delle libere associazioni.

Dal punto di vista culturale la Generative Art inserisce un’altra fondamentale variabile a questa cronologia: l’autonomia dello strumento rispetto all’autore. Questa autonomia mette in crisi e fa sorgere domande su alcuni punti essenziali.

AI Art

Paternità dell’opera

La paternità dell’opera è una questione aperta nel mondo dell’arte contemporanea. Lo dimostra la recente causa intentata a Maurizio Cattelan da parte di Daniel Druet, scultore che ha realizzato alcune delle installazioni più famose dell’artista senza mai comparire tra i crediti o nei cataloghi.

Se un’opera di arte visuale è generata da un’Intelligenza Artificiale, la paternità dell’opera spetta a quest’ultima, ai professionisti che l’hanno sviluppata o all’artista digitale che ha fornito il prompt? Infatti come può un dataset di associazioni testo-immagine, essere considerato un adeguato corrispettivo della facoltà di immaginazione?

Modelli a subscription

La produzione stessa delle Generative Art coinvolge inoltre modelli di business ancora in via di definizione. Il modello subscription-based è al momento quello più utilizzato nella creazione e distribuzione di contenuti, ma è anche quello che limita in misura maggiore l’indipendenza dello strumento e la libertà dei creativi.

Con una penna e un foglio un artista può creare ciò che vuole in libertà: la stessa cosa non avviene quando per dare voce alla propria creatività l’artista deve pagare mensilmente o “ad uso” una piattaforma di Generative Art, che peraltro può essere limitata e censurata da chi la gestisce.

I modelli a subscription sono complessi da gestire correttamente, proprio perché prevedono un continuo scambio di valore e libertà tra l’utente e l’azienda. Noi di Neosperience, dopo aver realizzato progetti sul tema con alcune delle aziende più importanti a livello nazionale e internazionale, offriamo le nostre competenze in materia attraverso sia un lavoro di business design, sia attraverso lo sviluppo di prodotti digitali dedicati.

Un’Intelligenza Artificiale libera da pregiudizi

Come abbiamo visto, per esaltare le potenzialità della Generative Art è necessario impiegare al meglio le specificità di questo mezzo nei diversi settori di applicazione; ma più di questo è essenziale progettare le intelligenze artificiali in modo empatico. È infatti possibile slegare i nostri pregiudizi come esseri umani dal codice che da vita alle Intelligenze Artificiali che andiamo a sviluppare?

Per raggiungere questo obiettivo occorre comprendere a fondo la natura ibrida della Generative Art, che chiama in causa tanto la cultura quanto la tecnologia. Sarà quindi necessario far dialogare in fase di progettazione data scientist e umanisti, per fornire alle intelligenze artificiali dataset capaci di produrre risultati spogli di preconcetti e al tempo stesso accurati e rappresentativi.

Ricevi aggiornamenti da Neosperience: