Cosa sono e come funzionano le applicazioni vocali? Lo vediamo con Vittorio Molaschi

Ascolta “Cosa sono e come funzionano le applicazioni vocali? Lo vediamo con Vittorio Molaschi.” su Spreaker.

Le applicazioni vocali, le Skill per Alexa e le Action per Google Assistant, destano spesso una grande curiosità. Ma cosa sono in pratica? Ne esistono diverse tipologie? Come si creano? Perché negli Stati Uniti sono molto più diffuse rispetto all’Italia? Ne ho parlato con Vittorio Molaschi, un grande conoscitore di voice app, con il quale abbiamo affrontato anche il tema dell’autenticazione e dei pagamenti.

Vittorio ha diversi anni di esperienza in consulenza strategica per grandi aziende tra Germania e Italia, è un esperto nello sviluppo di progetti innovativi e prodotti digitali, e CEO di Vocalime, brand specializzato in voice technology e partner tecnologico di Voice Branding. Nella parte conclusiva dell’episodio immaginiamo le applicazioni del futuro.

Questa, secondo me, è una funzionalità che andrà a creare tanti casi d’uso interessanti e andrà a sviluppare il “voice commerce” in maniera significativa

Ascolta il podcast

I punti salienti

01:33 Presentazione di Vittorio Molaschi
02:11 Com’è nata e cosa fa Vocalime
07:55 Cos’è un’applicazione vocale e come si crea?
12:37 La differenza tra il mercato italiano e quello USA
15:24 L’autenticazione nelle applicazioni vocali
18:17 I pagamenti nelle applicazioni vocali
23:14 Il futuro delle applicazioni vocali
21:54 I sistemi di monetizzazione
26:50 Take Away

Un estratto dell’intervista con Vittorio Molaschi

Mi piacerebbe che ci spiegassi cos’è un’applicazione vocale, se ne esistono diverse tipologie, come si crea e se lo possono fare tutti.

Un modo molto semplice per spiegare che cos’è un’applicazione vocale, è pensare al mondo degli smartphone, che credo sia un dispositivo familiare per tutti.

Nel mondo degli smartphone ci sono due grandi ecosistemi: Apple con iOS e Google con Android, e i nostri telefoni hanno delle funzionalità preinstallate. Posso chiamare, posso mandare SMS, ecc., ma c’è anche la possibilità per degli sviluppatori esterni di creare delle applicazioni che gli utenti si scaricano nel loro cellulare.

Le stesse dinamiche, si replicano anche nel mondo degli smart speaker. Quindi ritroviamo due grandi ecosistemi: Amazon con Alexa e Google con Google Assistant, e gli smart speaker hanno delle funzionalità preinstallate che permettono, ad esempio, di settare dei timer posso o chiedere le previsioni meteo. Ma esiste anche la possibilità per degli sviluppatori terzi come noi di creare delle applicazioni vocali, che nel mondo di Alexa si prendono il nome di Skill, e nel mondo di Google Assistant si chiamano Action, che vanno a migliorare e ad estendere le attività che gli assistenti vocali possono svolgere.

Le applicazioni vocali possono essere di qualsiasi tipo. Si va dai giochi, su cui non inizialmente ci focalizzavamo, all’applicazione di ricette per semplificare la preparazione dei pasti, e ad applicazioni vocali per la produttività. Quindi c’è una grande gamma di possibili casi d’uso, come d’altronde c’è per quanto riguarda le applicazioni mobile.

Come si crea una vocale.. chiaramente il primo step è definire che caso d’uso si vuole andare a mettere in pratica, quindi il tipo di applicazione. Successivamente si va a definire il Conversation Design, ovvero la mappa di tutte le possibili ramificazioni, di tutte le possibili azioni che l’utente può fare all’interno dell’app vocale, con i relativi dialoghi.

Infine, chiaramente, la fase finale quella dell’implementazione tecnica vera e propria. Senza entrare troppo nel tecnico, esiste una parte legata al modello vocale, e una parte di “backend” che permette di gestire le richieste degli utenti e fornire risposte adeguate alle loro domande.

Sono alla portata di tutti? In linea di massima sì, nel senso che chiaramente servono delle competenze, specialmente per quanto riguarda il conversation design. Ogni tanto mi capita di ri-esaminare il design delle prime applicazioni che abbiamo sviluppato.. e adesso che ho maturato più esperienza e più competenze dico “Cavoli erano veramente imbarazzanti“!

Uno degli errori principali che si fanno, consiste nel fornire delle risposte lunghe e dense di contenuti. In realtà la conversazione deve essere abbastanza ingaggiante per l’utente ma abbastanza rapida e asciutta, altrimenti perdiamo l’attenzione dell’utente.

Dall’altra parte, servono delle competenze di sviluppo.

Chiaramente esistono degli strumenti che permettono la creazione di applicazioni senza avere le competenze in ambito di sviluppo. Voiceflow, per fare un esempio, tramite un’interfaccia a blocchi molto ben fatta, permette di definire il design di un’applicazione vocale e di andare anche a pubblicarla direttamente. Detto questo, però, quando si vuole andare su casi d’uso particolarmente complessi e personalizzati, queste piattaforme non sono sufficienti.

Tu lavori sia sul mercato italiano, sia su quello statunitense. Ci racconti le differenze dal punto di vista dell’approccio alla tecnologia vocale? Che tipo di applicazioni avete fatto per gli USA?

Al di là di differenze culturali che ci sono e che esulano un po’ dal discorso “voice“. C’è un approccio un diverso al modo di fare business e anche alla rapidità con cui si prendono le decisioni. Nello specifico del nostro caso ci sono due differenze principali che che notiamo quando lavoriamo con gli Stati Uniti: una chiaramente è una conoscenza maggiore dei temi trattati, e questo sicuramente è dovuto anche a delle tempistiche diverse, nel senso che Amazon ha lanciato Alexa 6 o 7 anni fa negli Stati Uniti, e Google ha lanciato Google Assistant più o meno nello stesso periodo, mentre in Italia questi dispositivi sono arrivati circa tre anni fa. E..

tre anni, per quanto riguarda l’adozione di una nuova tecnologia, è un’era geologica.

Inoltre, fa una grande differenza anche il numero di dispositivi che sono stati installati. Tutto questo ha creato un grande divario di conoscenza che i brand hanno di questi nuovi canali.

Alessio Pomaro intervista Vittorio Molaschi

C’è più maturità da questo punto di vista negli USA. In Italia una parte consistente del nostro lavoro, quando parliamo con aziende o brand, è nel fare evangelizzazione, quindi spiegare che cosa si può fare con questi nuovi canali. Negli Stati Uniti si salta questa parte, e si entra più nel concreto, a discutere di che cosa si può realizzare e come farlo. Anzi spesso ci arrivano richieste di aziende che hanno già ben chiaro che cosa vogliono fare, e ci chiedono semplicemente di realizzarlo.
L’altra differenza è una minore avversione al rischio nella sperimentazione di nuovi canali e nuove tecnologie.

Come avviene l’autenticazione dell’utente nelle applicazioni vocali? Ad esempio, in un sito web, io posso accedere con username o password.. mentre con uno smart speaker?

Facciamo un esempio pratico per capire cosa accade in uno smart speaker se si ha la necessità di collegare un’applicazione vocale a un sistema di autenticazione terzo. Immaginiamoci di sviluppare un’applicazione vocale per un servizio di taxi. Avrò bisogno di sapere che l’utente che sta utilizzando la mia applicazione vocale corrisponde a un determinato account del mio servizio. Quindi quello che si fa solitamente in questi casi è creare un sistema di account linking: la prima volta in cui l’utente utilizza l’applicazione vocale, in pratica, gli viene chiesto di inserire le sue credenziali (username e password) in una web application. A quel punto, se l’autenticazione va a buon fine, si sarà creato un collegamento tra l’applicazione vocale e il servizio di taxi, e da quel momento, l’utente potrà utilizzare qualunque smart device in suo possesso per sfruttare l’applicazione per il taxi, venendo riconosciuto ed utilizzando le sue preferenze personalizzate.

Sicuramente questo questo passaggio può creare un po’ di frizione. Da questo punto di vista e ci sono delle soluzioni che le piattaforme Amazon e Google stanno sviluppando per semplificare l’operazione. Ad esempio, c’è la possibilità, se il servizio terzo mette già a disposizione della community un’applicazione mobile, di semplificare questo passaggio evitando che l’utente inserisca le sue credenziali.

E invece i pagamenti? Se volessi vendere un prodotto su un’applicazione vocale, come mi pagherebbero gli utenti?

Immaginiamoci un brand che vuole creare un’esperienza vocale finalizzata alla vendita di un prodotto fisico. Parliamo di Amazon, perché è il player più sviluppato da questo punto di vista. Su Amazon fondamentalmente hai due possibilità:

gestire del pagamento attraverso Amazon Pay (la soluzione di Amazon per i pagamenti);
gestire tutto l’ordine attraverso il tuo sistema.

Immaginiamo, ad esempio, un’applicazione vocale per vendere i biglietti del cinema (non è un prodotto fisico vero e proprio ma è un servizio concreto). Io creo un’esperienza vocale che permette all’utente di scegliere la data e lo spettacolo e gli permette di acquistare il biglietto tramite Amazon Pay. Tutto l’ordine, però, viene gestito attraverso il mio (del gestore) sistema.

L’altra opzione, più recente, e magari anche più interessante ed innovativa è un’integrazione diretta con l’e-commerce di Amazon. Amazon, infatti, ha lanciato pochi mesi fa questa nuova funzionalità che si chiama Amazon Alexa shopping Actions e permette di creare un’esperienza all’interno di una skill finalizzata alla vendita di un prodotto fisico su Amazon. Quindi tutta la parte di gestione dell’ordine è demandata ad Amazon e tutto viene semplificato per il venditore. Questa, secondo me, è una funzionalità che andrà a creare tanti casi d’uso interessanti e andrà a sviluppare il “voice commerce” in maniera significativa.

Mi permetto di parlare molto brevemente di un caso pratico che ci ha riguardato. Abbiamo lavorato, alcuni mesi fa, su un’applicazione vocale in collaborazione con una casa editrice italiana che si chiama “Il castoro“; loro sono specializzati in libri per bambini. Siamo partiti dalla trama di un libro fisico e abbiamo creato un’applicazione vocale sia su Alexa su Google che permette agli utenti di entrare nel mondo del libro, e quindi andava a creare una sorta di complemento alla trama. Sarebbe stato bello inserire, al termine dell’esperienza, la possibilità di acquistare il libro perché l’app vocale non era dedicata solo chi avesse già il libro ma era aperta a tutti.

Un caso d’uso interessante può essere lo spot radiofonico che ti invita ad accedere all’applicazione vocale.. tu sei in macchina, senti lo spot e apri la skill, che ti permette ad esempio di comprare il biglietto dello spettacolo. Oppure il cartellone pubblicitario che indica la frase di attivazione della skill!

Quali altri sistemi di monetizzazione esistono in ambito delle applicazioni vocali?

C’è la possibilità di vendere dei contenuti digitali all’interno delle applicazioni vocali. In questo caso, Amazon e Google si sono “copiati” a vicenda, nel senso che entrambi mettono a disposizione la stessa tipologia di prodotti digitali.

Puoi vendere delle “app option” quindi degli abbonamenti settimanali o mensili, oppure dei consumabili, ovvero dei prodotti digitali che poi l’utente può consumare. Noi, ad esempio, abbiamo creato un gioco in cui l’utente può acquistare delle “gemme” o delle “vite” che poi utilizza all’interno del gioco stesso. Infine, l’ultima tipologia di prodotto digitale vendibile è una si chiama “One Time Purchase“, ovvero la vendita di un contenuto extra che l’utente acquista per una volta, e che poi rimane disponibile per tutti i mesi e gli anni successivi.. insomma fin quando l’applicazione rimane online.

Cosa c’è, secondo te, nel futuro delle applicazioni vocali? Come ti immagini le applicazioni e le interazioni del futuro?

Io penso che la parola chiave per il futuro sia multimodalità.

Tutte le applicazioni, nella mia visione avranno una componente vocale. Quello che non mi immagino è che ci saranno applicazioni che saranno solo applicazioni vocali. Quando si crea un’applicazione vocale si tende ad inserire anche una parte di interfaccia grafica che supporti l’utente. La voce è una grande comodità perché permette di velocizzare e semplificare tantissimi casi d’uso. Ma la comodità di avere anche un feedback visivo da dare all’utente è assolutamente importante.

Al di là della multimodalità all’interno delle app vocali, vedo proprio una multimodalità a livello di prodotti digitali a 360 gradi, nel senso che stiamo andando verso contenuti di qualità che vengono canalizzati attraverso diverse interfacce. Un’interfaccia può essere lo smart speaker, un’altra interfaccia sono le app mobile, il sito web e così via. Quindi è assolutamente importante, specialmente quando si inizia un progetto da zero, pensare a tutte quelle che possono essere le interfacce e i momenti in cui l’utente può entrare in contatto con il nostro prodotto.

Un altro aspetto importante.. in questa conversazione abbiamo parlato molto di applicazioni vocali legate all’intrattenimento o al marketing. Non bisogna sottovalutare, secondo me, tutte le potenzialità della Voice Technology in ambito industriale o di customer service.

Se andiamo ad analizzare a 360 gradi tutti i processi di un’azienda e i customer journey dei clienti di quell’azienda ci sono sicuramente dei punti in cui i processi possono essere essere ottimizzati attraverso la voice Technology

Contenuti di approfondimento

Pubblicato il 5 Novembre 2021in News /da Alessio Pomaro

Potrebbero interessarti