Apple Intelligence non è una semplice intelligenza generativa, ecco spiegato il motivo!

Durante il keynote di apertura della WWDC24 a cui ho assistito in presenza all’Apple Park a Cupertino, Apple ha mostrato i denti ed ha rivoluzionando il mondo dell’intelligenza artificiale presentando Apple Intelligence; molti hanno paragonato questo sistema ad una banale IA generativa, come ChatGPT di OpenAI oppure, sempre in ambito smartphone, la Galaxy AI di samsung, tuttavia, non è esattamente così.

Al di là delle implementazioni all’interno del sistema operativo sia in iOS ed iPadOS 18 che in macOS 15 Sequoia, pur avendo funzioni generative perché è comunque questo ciò su cui si concentra il sistema, Apple Intelligence ha un’architettura ed un modo di comunicare con l’utente e con il dispositivo completamente differente rispetto alle altre IA.

In questo articolo, analizziamo esattamente come è fatta Apple Intelligence, come funziona e quali sono, secondo me, le implicazioni che questo strumento può avere ed il modo in cui cambia la vita a tutti gli utenti ma, come sempre, soprattutto ad utenti ciechi come me.

Apple Intelligence, architettura interamente On Device.

Esattamente, ciò che distingue Apple Intelligence dalle altre IA è il suo privilegiare l’esecuzione dei modelli interamente sul dispositivo, utilizzando il cloud soltanto se e quando strettamente necessario.

Un’intelligenza artificiale personale deve imparare informazioni su di te ma senza raccogliere e dare agli altri informazioni su di te.

Creg Federighi, Keynote WWDC24 Apple Park, Cupertino, CA

Ed è esattamente questo che è riuscita a fare Apple utilizzando modelli di grandi dimensioni che possono essere eseguiti interamente sul dispositivo.

Dato che eseguire modelli di intelligenza artificiale di grandi dimensioni richiede un’enorme potenza di calcolo, per funzionare Apple Intelligence necessita dei processori Apple più potenti sul mercato e con un neural engine, altrimenti NPU, costruito apposta per supportare tali carichi di lavoro; pertanto Apple intelligence funzionerà soltanto su iPhone 15 Pro, iPhone 15 Pro Max e modelli successivi e su qualsiasi iPad o Mac con un processore M1 o versioni successive. Per intenderci: tutti i Mac a partire dai Macbook Air rilasciati a novembre 2020 e tutti gli iPad a partire da iPad Pro 2021 ed iPad Air 2022, esclusi gli iPad Mini e gli iPad di decima generazione.

Private Cloud Compute, l’intelligenza artificiale sicura e privata anche nel cloud.

Se si parla di Privacy e sicurezza, Apple non è da meno ed Apple Intelligence insegna agli altri come costruire esperienze IA che garantiscano la privacy mentre raccolgono informazioni sull’utente per elaborare le richieste.

Anche se Apple Intelligence può benissimo eseguire un buon 99 percento delle operazioni interamente sul dispositivo, l’utente a volte potrebbe avere esigenze che un modello On Device, a causa di limitazioni fisiche del processore a disposizione oggi, non può soddisfare; perciò entra in gioco Private Cloud Compute, un’architettura inventata da Apple che permette al sistema operativo di decidere se quella richiesta può essere eseguita sul dispositivo in base agli strumenti che ha a disposizione oppure se deve essere elaborata in cloud, eventualmente inviare al cloud, sotto chiave di criptografia Hand to Hand, solamente i dati necessari per eseguire il task e poi restituire la risposta, insieme al pacchetto di dati utilizzato, al dispositivo, che si preoccuperà di archiviare i dati necessari ad Apple Intelligence per comprendere il contesto della risposta fornita e mostrare il risultato all’utente. Tutto questo mentre viene inviata una Software Image, immagine di software, del dispositivo ed anche una copia della richiesta ad un gruppo di esperti indipendenti per poter effettuare ispezioni e verificare che il sistema stia veramente eseguendo il tutto in maniera privata e sicura.

Ovviamente, i dati dell’utente associati alla richiesta non vengono inviati ad ispezione ed altrettanto ovviamente, il cloud completerà l’elaborazione della richiesta soltanto dopo aver ricevuto approvazione da parte di chi, dispositivo o esperto umano, ha ricevuto il materiale da ispezionare.

I server AI di Apple sono costruiti su piattaforma Apple Sylicon, quindi possono garantire lo stesso livello di privacy e sicurezza che garantiscono i nostri iPhone, iPad e Mac al giorno d’oggi.

Indice semantico per la ricerca dei dati

Apple Intelligence non è soltanto un’intelligenza artificiale, ma è un’intelligenza personale; pertanto deve apprendere le abitudini dell’utente, esattamente come un umano conosce un’altra persona; perciò Apple utilizza degli indici detti indici di semantica che analizzano i dati e li archiviano per poi esporre quelli necessari al modello generativo per generare la risposta.

All’atto pratico questo vuol dire che Apple Intelligence sa sempre dove si trova, cosa sta succedendo e come deve agire quando l’utente la attiva in uno degli strumenti che mette a disposizione.

Questi indici semantici sono particolarmente utili per Siri, perché saprà sempre il contesto in cui gli viene posta una determinata domanda ed in che modo deve rispondere; soprattutto, se l’utente gli chiede di eseguire delle azioni concatenate, sa dove andare nel sistema per portarle a termine.

Attraverso gli indici di semantica, quindi, Apple Intelligence non parte mai da 0 per generare le sue risposte ma ha sempre informazioni sul passato e sul presente dell’utente.

App Intents e le azioni contestuali di Siri

App Intents è un framework messo a disposizione agli sviluppatori sin dal 2022; tramite questo framework, gli sviluppatori possono espandere le funzioni di SiriKit quando decidono di abilitare azioni con Siri nelle loro applicazioni, includendo nuove scorciatoie, la possibilità per gli utenti di creare comandi rapidi e automazioni dall’app comandi e tanto altro ancora.

Con l’arrivo di Apple Intelligence ed i suoi indici di semantica, anche App Intents è stato aggiornato per consentire agli sviluppatori di terze parti di permettere a Siri, ed in generale all’intero sistema intelligente, di eseguire azioni al posto nostro nelle applicazioni abilitate.

Possiamo chiedere a Siri di effettuare un ordine di un determinato prodotto su Amazon ad esempio, e qualora Amazon fosse abilitato a farlo, Siri saprà esattamente cosa fare per aprire l’app, cercare l’articolo richiesto ed ordinarlo.

Non solo azioni nelle singole App, ma Siri acquisisce una nuova skill: contesto dello schermo; usa gli indici di semantica per sapere esattamente cosa è mostrato sullo schermo del dispositivo e come sono fatte le schermate di iOS e permette, quindi, di eseguire azioni attraverso il sistema in tutte le app, di Apple e di terze parti, che consentono le azioni in app di Siri.

Possiamo prendere una foto dalla galleria foto ed allegarla ad una presentazione in Keynote ad esempio, oppure da qualsiasi punto del sistema, ad esempio in Safari, possiamo chiedere a Siri informazioni specifiche su un documento in File, una conversazione in Messaggi etc, qualora ci fosse utile. Possiamo usare siri per spostare i file da una posizione all’altra in File oppure tra 2 app diverse se entrambe supportano quel tipo di azioni. Il tutto senza nessun bisogno di configurazione da parte dell’utente, è chi sviluppa le app che deve assicurarsi di averle adeguate a questo standard.

Gestione delle notifiche, delle mail e dei messaggi.

Attraverso gli indici di semantica iPhone, iPad e Mac imparano non solo come devono rispondere alle nostre esigenze, non solo ad eseguire azioni nelle app al posto nostro ma imparano anche come gestiamo le nostre notifiche, quali per noi sono più importanti e come gestire conversazioni in mail e messaggi in base al momento della giornata.

Se riceviamo molte notifiche, il dispositivo sarà in grado di mettere in primo piano quelle più importanti e di silenziare o proporci le altre in un secondo momento in base al momento della giornata, anche quando le full immersion non sono attive; in questo modo si riducono le distrazioni e si focalizza l’attenzione dell’utente solo su ciò che conta. Allo stesso modo, è in grado di riassumere le informazioni più importanti in una conversazione; se una chat di gruppo della mia università sta parlando di un esame, anziché leggermi l’intera lista di messaggi posso farmene riassumere il contenuto dal mio iPhone per capire, già dalla schermata di blocco, quali sono le informazioni più importanti.

Lo stesso può fare in mail, presentando riassunti dei punti chiave come anteprima dei messaggi nella casella di posta in arrivo e dandomi la possibilità di farla riassumere al momento mentre la sto leggendo.

Comprensione della lingua, strumenti di scrittura e generazione del testo.

Apple Intelligence, come ogni IA generativa che si rispetti, ha un pacchetto di strumenti avanzati per la comprensione della lingua, strumenti per l’assistenza alla scrittura e strumenti per generare testo.

Attraverso la comprensione avanzata della lingua, Siri può ad esempio capire la nostra richiesta anche quando ci mangiamo le parole oppure sbagliamo e ricorreggiamo mentre stiamo registrando la richiesta; quando smettiamo di parlare, ciò che viene elaborato sarà l’informazione corretta.

Vengono migliorati anche i suggerimenti predittivi ed attraverso la comprensione del linguaggio, iPhone sarà in grado di suggerirci risposte a messaggi e mail oppure, sul mac, potremmo far compilare automaticamente il codice ad XCode.

Gli strumenti di scrittura possono riscrivere in diversi stili e tonalità il testo, migliorarne la leggibilità correggendo la grammatica e riassumere qualsiasi cosa e saranno direttamente inclusi nel sistema, in modo che né utenti né sviluppatori necessitino di configurare qualcosa per poterli usare in qualsiasi app.

Le anteprime del contenuto generato vengono mostrate in linea come i suggerimenti predittivi in modo da non invadere troppo la schermata e, in caso si usi lo strumento di Proof Read, per migliorare la leggibilità, si può decidere se accettare tutti i suggerimenti in un colpo solo oppure selezionare quali applicare al testo.

Si possono trascrivere i memo vocali e le registrazioni audio nelle note così come, su iPhone, si possono trascrivere anche le chiamate; su tutti i dispositivi invece quando si legge una mail vengono generate automaticamente risposte suggerite, che possiamo applicare se non abbiamo tempo di rispondere a mano. Ovviamente ci vengono mostrate in anteprima e se non vogliamo applicare la risposta intera possiamo sempre modificarla prima di inviarla.

Swift Assist in XCode per Mac permette agli sviluppatori di chattare con Apple Intelligenze per ottenere suggerimenti, consigli o addirittura snippet di codice generati in tempo reale per migliorare la loro applicazione e ridurre notevolmente i tempi di sviluppo e prototiping, mentre Predictive Code Completion analizza il codice mentre lo scrivi e battendo invio completa automaticamente lo snippet. andando ad analizzare ciò che è già stato scritto e rilevando il modo corretto per compilare l’istruzione. L’ho provato, funziona davvero ed anche molto bene!

Generazione di immagini, Emoji e modifica di foto.

Per la prima volta un’intelligenza artificiale non genera soltanto pezzi di immagini, come fa Gemini sui pixel 8 o Galaxy AI su S24, ma genera intere immagini a partire da una foto o da un prompt e può generare anche le emoji.

In Image Playground, una nuova app, si può includere un prompt dettagliato dell’immagine che si vuole ottenere e se lo si desidera gli si può allegare anche un’altra foto e lui può sia usarla come modello di partenza, sia aggiungerla all’immagine che genera da 0; se voglio generare un’immagine di me con mia madre in spiaggia, posso esplicitarlo nel prompt e l’intelligenza sa qual è mia madre perché va a prendere la sua foto di contatto e la allega all’immagine di me in spiaggia, scopre chi sono io usando lo stesso metodo: prelevando la foto nella scheda contatto. Altrimenti potrei io indicargli quali persone aggiungere all’immagine allegandone le foto oppure far generare un’immagine interamente descritta da me, partendo da 0.

Posso scegliere tra diversi stili, 3 in particolare: illustrazione, animazione o Schizzo, per rappresentare la mia immagine con livelli di realismo indifferenti. Mi verranno poi mostrate diverse anteprime e posso scegliere quale salvare.

Posso usare Image Playground sia per generare foto casuali da salvare ed utilizzare esternamente, oppure potrei richiamare Image Playground in un popup per generare immagini da usare al momento, ad esempio: in una conversazione in messaggi. In quel caso verranno utilizzati anche indici semantici e tutti gli strumenti precedentemente menzionati per adattare l’immagine al contesto della conversazione.

Lo stesso concetto vale per le emoji; ora le posso generare a partire da una mia descrizione ed Apple Intelligence comprenderà il contesto in cui vengono menzionate per adattarne stile, espressione etc.

Cosa significa per altri utenti ciechi?

Dopo aver descritto ampiamente cos’è Apple Intelligence e quali sono le sue principali implicazioni, vediamo cosa può significare usarla per un utente cieco.

Anche se di default non presenta alcuna funzione avanzata di descrizione di immagini o accessibilità più in generale, per un cieco può voler dire avere il dispositivo come compagno di vita, che accorcia notevolmente il tempo impiegato dalla persona che lo utilizza per eseguire le operazioni.

Si pensi solo alle azioni di Siri nelle app, ad esempio; ora attraverso tali azioni si potrà ascoltare meno VoiceOver, si ridurranno i rischi di incorrere in problemi di accessibilità che fanno litigare con l’app ed aumentano i tempi di esecuzione di un’operazione e si potrà fare in un minuto ciò che prima impiegava, magari, 10 minuti; quindi, significa stare meno davanti al dispositivo ed essere più concentrati sull’ambiente che ci circonda.

Se si usa dettatura o input braille, ora gli strumenti di scrittura possono correggere dinamicamente gli errori di ortografia e si avranno sempre a disposizione contenuti fatti a dovere, ben leggibili e si dirà quasi definitivamente addio a frasi incomprensibili date da VoiceOver che parla sopra di noi mentre usiamo il riconoscimento vocale, ad esempio.

Attraverso la trascrizione in tempo reale di audio e chiamate e grazie ai riassunti si avrà un modo totalmente nuovo di prendere appunti; possiamo registrare anziché perdere tempo a scrivere e leggere in braille allo stesso tempo oppure avere una voce che ci martella nell’orecchio carattere per carattere quello che stiamo scrivendo, perché sarà Apple Intelligence a registrare, trascrivere e se richiesto anche riassumere e saremo noi poi a scegliere in quale modalità accedere al contenuto.

Attraverso Image Playground, anche se non vediamo le immagini, anche noi ciechi abbiamo un modo in più per esprimerci; soprattutto per me, la possibilità di avere un’immagine generata o di avere uno strumento che tramite Siri mi permette di editare con comodità le foto diventa un tool che mi fa sentire molto, molto più libero e con 1000 modalità di espressione in più.

Sicuramente poi Apple Intelligence è molto altro ed è una piattaforma che sappiamo com’è oggi ma non sappiamo come sarà domani; una continua evoluzione di cui ci sarà sempre da parlare e che darà tanto ai suoi utenti. Avrò tanti articoli da pubblicarvi al riguardo e questo è solo il punto di partenza.

Integrazione con ChatGPT e modelli AI esterni

Apple ha annunciato che su iPhone non verrà utilizzata soltanto Apple Intelligence ma verranno integrati anche modelli AI di terze parti, primo tra tutti ChatGPT di OpenAI, alla sua ultima versione: ovvero quello che usa gpt-4o.

Questo modello lavora in parallelo ed in maniera totalmente asincrona rispetto ad Apple Intelligence, per entrare in funzione soltanto quando richiesto dall’utente o dal sistema operativo, essendo che a contrario dell’intelligenza di Apple, ChatGPT deve necessariamente inviare i suoi dati in cloud.

ChatGPT viene fornito al completo di tutte le sue funzioni, inclusa l’analisi delle immagini, e gli utenti a pagamento possono anche effettuare il login con il loro account e sfruttarne le funzioni a pagamento; altrimenti, rimane comunque in attesa di essere evocato dall’utente o dal sistema anche se non si è registrati alla piattaforma di OpenAI.

ChatGPT viene usato in 2 occasioni principali: quando viene richiamato lo strumento Compose, che è tra gli strumenti di scrittura accessibili in tutte le app, ed in Siri.

Compose permette di far generare un contenuto testuale a ChatGPT a partire da una descrizione fornita dall’utente, in maniera simile a quanto può fare Image Playground in Apple Intelligence ad esempio; ovviamente non sfrutta gli indici semantici ed il contesto dello schermo di Apple Intelligence quindi saremo noi a doverglielo fornire a mano, essendo chiari ed espliciti nella nostra richiesta.

In Siri, invece, viene richiesto all’utente il permesso di inviare la richiesta a ChatGPT quando l’assistente non ha abbastanza informazioni per risponderci; se acconsentiamo, lui manderà la richiesta a ChatGPT e leggerà ad alta voce ciò che risponde il modello.

Essendo che ChatGPT funziona solamente in cloud, sarà necessaria una connessione ad internet per farlo funzionare e credo che lavorando in maniera totalmente separata rispetto ad Apple Intelligence, venga reso disponibile anche agli iPhone che non supportano i modelli On Device di Apple.

Tendo a ribadire, visto che molte persone ancora fanno confusione, che ChatGPT viene integrato in iOS 18, iPadOS 18 e macOS Sequoia ma non ha alcun legame con Apple Intelligence; lavora in maniera totalmente separata, agendo soltanto in cloud e non ha alcuna informazione su di noi o sul contesto del dispositivo, in quanto non usa indici semantici ed altre tecnologie di comprensione del contesto introdotte da Apple con i suoi modelli.

Al momento soltanto ChatGPT è previsto come integrazione di IA dall’esterno, ma in futuro Apple potrebbe integrare altri modelli AI; si parla di collaborazioni con Meta, Google ed Anthropic per portare i loro modelli IA in iOS 18.

Questo farà in modo che laddove non arriva Apple Intelligence, c’è un altro modello pronto a soddisfare le richieste dell’utente e l’utente può scegliere quale agente IA scegliere in base alla richiesta che deve far eseguire al suo dispositivo.

Disponibilità.

Apple Intelligence sarà disponibile su iPhone 15 Pro, iPhone 15 Pro Max e tutti i Mac e gli iPad con un processore M1 o versioni superiori a partire da iOS 18, iPadOS 18 e macOS Sequoia. All’inizio non sarà disponibile in Europa perché il DMA ne ha vietato il rilascio ed al momento l’unica lingua supportata è l’inglese.

Verrà resa disponibile agli sviluppatori quest’estate per il test mentre verrà inclusa nel sistema rilasciato al pubblico come funzione in Beta.

Per l’integrazione con ChatGPT non ho altre informazioni se non che arriverà nel corso della seconda metà dell’anno, sicuramente dopo il rilascio di iOS 18, iPadOS 18 e macOS Sequoia al pubblico; vi terrò aggiornati con eventuali articoli qualora spuntino altre novità al riguardo.

Conclusioni

Vedo un grandissimo potenziale in tutti i settori per quella che è la prima intelligenza artificiale Copilot su un dispositivo mobile che rivoluziona totalmente il modo di pensare ed utilizzare l’IA; Apple ha fatto un grandissimo lavoro, si è messa in gioco in maniera eclatante facendo vedere di cosa è capace dalla prima all’ultima tra le features integrate e non vedo l’ora di scoprire cos’altro ha in mente per espandere le sue funzioni intelligenti.

Ovviamente, non appena ne avrò possibilità, porterò articoli e video per dimostrarvi il funzionamento di Apple Intelligence con VoiceOver ed esperienziali per farvi vedere come mi cambia la vita, in positivo o in negativo. Per ora, la parola passa a voi che mi farete sapere la vostra qui sotto nei commenti!

Di Karim

Sono il redattore, direttore e fondatore di KNGTech; ho 19 anni, sono totalmente cieco dalla nascita e nutro una grandissima passione per la tecnologia sin da quando avevo 10 anni circa, età in cui ho iniziato ad usare il mio primo computer.

2 commenti

  1. Ciao,
    Sono molto soddisfatto di tutto questo, oltre al fatto di scrivere un commento in questo sito, sviluppato da un non vedente come me, entrato da un bel po’ nel mondo degli sviluppatori Apple.
    Sono contento di aver anch’io aperto un account sviluppatore, anche se, naturalmente ho bisogno di studiare il codice Swift, anche se, da quanto ho letto, la Apple Intelligence potrebbe sostituirmi, semplicemente dicendole cosa voglio ottenere dal codice.
    Lo condivido anche qui, chissà che potremmo realizzare un progetto insieme.
    Si tratta di creare un App che funzioni su Mac, Iphone ed iPad, che, se lanciata, ci verrà chiesto di inserire l’indirizzo di un sito e, una volta premuto invio, quest’app andrà a confrontare tutti i requisiti di accessibilità e dei nuovi standards, con la reale accessibilità o meno del sito che di cui le ho inserito l’indirizzo in imput. Nel caso in cui rilevasse criticità nell’accessibilità, quest’app andrà a segnalare il tutto allo sviluppatore web e, da quel momento in poi andrà periodicamente a controllare eventuali modifiche, ripetendo lo stesso processo ad ogni versione, anche confrontandole fra loro.

    1. Ciao Andrea, purtroppo hai frainteso; Apple Intelligence è fatta per aiutare, non per sostituire. E se un giorno potesse sostituirti e glie lo lasci fare, vuol dire che stai usando l’IA nel modo eticamente scorretto e ti consiglio di non farlo. Il linguaggio swift lo devi conoscere, ma devi conoscere anche HTML, CSS, Javascript, PHP ed SQL, oltre a tanti altri linguaggi di backend perché occorre sviluppare dei server appositi con dei databases di parametri su cui il sistema deve basarsi per ottenere il risultato che hai richiesto. Altra cosa: io collaboro con persone se tali persone hanno le competenze per poter collaborare con me e se possiamo imparare qualcosa entrambi dal lavoro che facciamo; se non conosci nemmeno le basi di programmazione prima ti invito ad apprenderle, poi possiamo riparlarne. Non nego però che quella che hai avuto è una bellissima idea.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

it_ITItaliano