Voice Technology e salute: il progetto VoiceWise con Giovanni Saggio. La voce nel settore HealthTech

Ascolta “Ep. 25 – Voice Technology e salute: il progetto VoiceWise con Giovanni Saggio. La voce nel settore HealthTech.” su Spreaker.

Com’è possibile affiancare i concetti di voce, voice technology e salute?
In realtà possiamo farlo in diversi modi. In questo episodio ti racconto come l’analisi della voce può diventare uno strumento efficace per ottenere delle diagnosi mediche precise ed affidabili. Per farlo, ho invitato un ospite, ovvero Giovanni Saggio.

Giovanni è professore dell’Università di Roma Tor Vergata, dove insegna elettronica nelle facoltà di Ingegneria e Medicina, è autore o co-autore di oltre 200 pubblicazioni scientifiche e co-inventore di 8 brevetti. Ma non solo.. è il creatore del progetto VoiceWise.

Sai che attraverso la voice technology è possibile diagnosticare il Covid-19 con un semplice smartphone e con una precisione che supera quella del tampone?

Ascolta il podcast

I punti salienti

00:26 Voice Technology e Salute
00:49 Presentazione dell’ospite: chi è Giovanni Saggio?
01:22 Cos’è VoiceWise?
02:23 Ci racconti un po’ più in dettaglio il principio sul quale si basa?
03:38 Quindi se una persona altera la voce può falsare l’analisi?
04:29 Per quali patologie si riesce ad ottenere una diagnosi oggi? Con che precisione?
06:04 So che avete fatto sperimentazioni con il Covid-19, quindi ti chiedo come sta andando e se esistono delle applicazioni che non sono più sperimentali.
09:04 L’analisi della voce quindi può essere fatta anche attraverso microfoni non professionali.. questo è un aspetto molto affascinante a livello tecnologico. Ma la domanda è: non si rischia di prelevare con facilità dei dati sensibili?
11:13 La tecnologia è brevettata. Questo significa che tutte le aziende (spesso d’oltre oceano) che stanno lanciando questi sistemi utilizzano tecnologia italiana?
12:28 Oltre all’applicazione e relativa alla diagnosi di patologie esistono altri ambiti per questa tecnologia? Mi parlavi ad esempio del tasso alcolemico, del riconoscimento anche del pianto dei bambini e del doping..
16:27 Voice Technology e salute: cosa c’è nel futuro di questo binomio?
18:50 La conoscenza cammina su due gambe!
19:13 Conclusione, un progetto dell’università di Washington

L’intervista a Giovanni Saggio

Cos’è VoiceWise?

VoiceWise è uno spin-off universitario che nasce in base ai risultati di ricerca ottenuti negli anni a partire dal 2009. Quando ho lavorato con diversi ospedali partendo dall’India e successivamente venendo in Italia, mi sono accorto che la voce può essere legata a diverse patologie, perché la voce dipende da fondamentalmente da tre condizioni: lo stato fisiologico, quello psicologico e quello patologico. E siccome la voce molto ricca di informazioni (noi estraiamo migliaia di parametri) abbiamo notato che una percentuale di questi dipende proprio dallo stato patologico. Quindi riusciamo a determinare, in base a quello che misuriamo (dal parlato, dalla tosse, dal respiro), come sta una persona.
Questo è diventato uno spin-off universitario e adesso sta cercando diventare un’app commerciale.

Giovanni Saggio – VoiceWise

Ci racconti un po’ più in dettaglio il principio sul quale si basa?

Voi dovete pensare che la voce è il risultato di una combinazione di un certo numero di organi che non sono semplicemente i polmoni, la trachea o il cavo orale: dipende da molto di più, ad esempio dallo sforzo che fa il battito cardiaco nel parlare, quindi i problemi coronarici sono evidenziati con l’analisi della voce. Oppure dipende dallo stato mentale, perché una persona per esempio con Alzheimer parla in maniera più (passami il termine) “biascicata“, oppure una persona con la SLA, che ha problemi quindi a livello muscolare, ha difficoltà perché nella voce sono coinvolti i muscoli del petto, i muscoli della gola, i muscoli della bocca e così via.

Quindi tutte le patologie, in qualche modo, riescono a variare dei parametri della voce per lo più non udibili dall’orecchio umano, perché l’orecchio umano ha una sensibilità molto bassa; ma un microfono e un registratore professionali e degli algoritmi intelligenza artificiale riescono a tirar fuori tali variazioni.

Quindi se una persona altera la voce può falsare l’analisi?

Una persona che altera la voce lo fa a livello volontario, parliamo quindi di una condizione non patologica, ma di una condizione psicologica.. sarebbe come dire “sono euforico“, quindi parlo con la voce più alta, oppure “sono angosciato” e parlo con la voce più bassa, e così via. Quindi io posso alterare la mia voce, ma i parametri che cambiano quando lo faccio, non sono quelli che cambiano in base alla condizione patologica. È un po’ come fare le analisi del sangue ed estrarre un certo numero di parametri: alcuni di questi dipendono dalla condizione patologica, altri dipendono, ad esempio, dalla condizione psicologica, perché una persona depressa modifica dei livelli (dal punto di vista medico non mi sbilancio.. io sono un ingegnere). Quello che succede è che i parametri che cambiano su base volontaria non intaccano quelli che cambiano su base involontaria, quindi riusciamo a distinguerli.

Per quali patologie si riesce ad ottenere una diagnosi oggi? Con che precisione?

Come dicevo, abbiamo cominciato in India con patologie che fortunatamente da noi sono praticamente inesistenti, come la tubercolosi e la febbre gialla. Per fare un esempio sul sulla tubercolosi misurando 313 persone abbiamo rilevato che su 309 casi riuscivamo effettivamente a tirar fuori le informazioni necessarie.

Per fare un esempio relativo alla tubercolosi, misurando 313 persone abbiamo trovato che su 309 casi riuscivamo effettivamente a tirar fuori le informazioni necessarie, quindi nella stragrande maggioranza dei casi. Poi abbiamo lavorato, in Italia su disfagia, disforia, Parkinson. Le percentuali di accuratezza sono del 95-98%. Per il Parkinson, abbiamo lavorato su casi de novo, quindi non Parkinson conclamati ma che sono all’inizio della podologia (situazione più difficile, ovviamente) raggiungendo una precisione superiore al 90%.

Quindi parliamo di un’accuratezza confrontabile con quella dei metodi standard, con la differenza è che i metodi standard sono costosi a volte sono invasivi e necessitano di tempo per estrarre i dati. L’analisi della voce non è costosa non è invasiva e la risposta è praticamente immediata.

So che avete fatto sperimentazioni con il Covid-19, quindi ti chiedo come sta andando e se esistono delle applicazioni che non sono più sperimentali.

Abbiamo lavorato con il Covid in 3 ospedali in Italia. Chiaramente la difficoltà è stata entrare in contatto con i pazienti, perché noi utilizzavamo dell’attrezzatura professionale che mettevamo a disposizione, ma nel caso del Covid non stato possibile per ovvie ragioni. Quindi abbiamo utilizzato direttamente gli smartphone delle persone coinvolte attraverso una web app. Ci aspettavamo chiaramente che la precisione e l’accuratezza della diagnosi diminuisse; è stato così ma nonostante ciò, stiamo parlando di qualcosa attorno al 90%. Quindi comunque alta, se confrontata ad esempio con i tamponi. C’è un lavoro del MIT di Boston (pubblicato) che dice che il tampone è caratterizzato da un’accuratezza compresa tra il 46 e 87%, quindi una forbice abbastanza ampia. Con l’analisi della voce riusciamo a fare meglio.

Come ogni aspetto che riguarda lo stato di salute, questo deve diventare un presidio clinico, e l’iter non è banale e dura diversi anni. Questo iter si conclude con l’accettazione da parte della comunità medica, che lo fa diventare uno standard. Nonostante questo abbiamo già dimostrato che funziona su diversi casi in diversi settori, e alcuni medici che collaborano con noi lo stanno adottando nella pratica clinica, anche se ovviamente in affiancamento delle altre tecniche. Questo permette una diagnosi più corretta e più mirata potendo contare su più informazioni.

Alessio Pomaro intervista Giovanni Saggio – Voice Technology e salute

L’analisi della voce quindi può essere fatta anche attraverso microfoni non professionali.. questo è un aspetto molto affascinante a livello tecnologico. Ma la domanda è: non si rischia di prelevare con facilità dei dati sensibili?

Il pericolo c’è. Fortunatamente nel nostro statuto è indicato che ci basiamo sull’etica e sul rispetto della privacy, rispettiamo alla lettera il GDPR e tutte le analisi sono state fatte con la supervisione degli ospedali, ai quali abbiamo chiesto la possibilità di operare attraverso il comitato etico. Cioè, il comitato etico ha valutato tutti i nostri passi e ci ha concesso l’autorizzazione, anche perché in realtà noi non sappiamo il nome delle persone. Il nome di chi vuole sottoporsi a questo test passa attraverso la struttura ospedaliera, i medici registrano la voce e ce la mandano, ma senza i riferimenti alla persona: semplicemente con un codice. Codice che conosce l’ospedale, il quale può associare il codice alla persona. Quindi la privacy è tutelata.

Per ulteriore garanzia della tutela della privacy, inoltre, per ora abbiamo pensato di non realizzare un’app installata sullo smartphone, ma di utilizzare una web app.. quindi nello smartphone non rimane traccia. In futuro, chi lo vorrà, potrà avere un’applicazione, e quello che succederà è che l’analisi dei dati sensibili sarà fatta sullo smartphone, ma nel cloud (dove avviene l’elaborazione) non giungeranno i dati che identificano la persona.

La tecnologia è brevettata. Questo significa che tutte le aziende (spesso d’oltre oceano) che stanno lanciando questi sistemi utilizzano tecnologia italiana?

La tecnologia è brevettata, e il brevetto risale al 2014, il quale è stato ceduto all’Università di Roma Tor Vergata, quindi la titolarità è dell’Università. Proprio perché non volevo fare un progetto a scopo di lucro, ma per renderlo disponibile alla collettività. L’Università ha ritenuto opportuno di non fare l’estensione a livello internazionale (probabilmente perché ci si è resi conto troppo tardi dell’utilità di questo sistema), per cui il brevetto tutela solo la parte italiana.

Però ripeto, l’idea è quella di non fare una cosa per puro spirito di loro, ma di farlo per un servizio alla collettività, tant’è che, all’inizio della pandemia, io ho scritto all’allora ministro dello sviluppo tecnologico offrendo questa tecnologia gratuitamente. Purtroppo, come sappiamo, la politica non funziona esattamente di pari passo con la tecnologia.. la risposta non mi è arrivata.

Oltre all’applicazione e relativa alla diagnosi di patologie esistono altri ambiti per questa tecnologia? Mi parlavi ad esempio del tasso alcolemico, del riconoscimento anche del pianto dei bambini e del doping..

Esatto, cominciamo col doping, l’ultima che hai nominato. Gli atleti professionisti, quando fanno una gara, in teoria, tutti dovrebbero fare il controllo antidoping. Però non è possibile farlo a tutti, quindi si fa campione, e prevede il prelievo di sangue o delle urine. Comunque una “cosa lunga” e che non si può fare sempre.
Il doping fa che cambiare il livello ormonale, rendendo la voce un po’ più maschile o un pochino più femminile.. quindi dalla banale analisi della voce riusciamo a capire se una persona è sotto l’effetto di doping oppure no. E questo lo possiamo fare in maniera molto ampia, per tutti gli atleti prima di qualunque gara, e a costo zero.

Anche perché, aprendo una parentesi, abbiamo dimostrato scientificamente che lo smartphone può essere utilizzato per le registrazioni, quindi è possibile fare test ovunque. Inoltre il dato può essere geolocalizzato; questo significa che in caso di pandemia, questo perette di individuare facilmente i focolai.

Per quanto riguarda i neonati.. Com’è noto, quando piangono, non piangono sempre allo stesso modo: il pianto di un bambino che ha sonno, è diverso da un pianto di un bambino che ha mal di pancia o di un bambino che la febbre.. stiamo parlando di neonati chiaramente. Cioè loro il modo con cui piangono ci fa capire quello che vogliono, ma per capire quello che vogliono di solito è necessaria una certa sensibilità. Attraverso un’analisi del suono, si riesce a distinguere la caratteristica del pianto, quindi una banale app sullo smartphone potrebbe indicare ai genitori il motivo per il quale il bambino sta piangendo.

Lo stato di ebbrezza.. ogni tanto sentiamo che qualcuno viene investito perché chi era alla guida era ubriaco. Si potrebbe pensare ad un sistema in macchina che interroga il conducente prima dell’accensione, e in base alla risposta, può misurare se chi è alla guida è sotto l’effetto di alcol, e magari evitare la messa in moto.

Voice Technology e salute: cosa c’è nel futuro di questo binomio?

L’anno scorso ho scritto un articolo per un convegno, il quale descrive come si sta andando verso tecnologie sempre meno invasive, sempre meno costose, e addirittura “contactless“.. non so se hai presente il film di Star Trek in cui usano quell’oggetto che passano vicino al corpo senza bisogno di toccarlo, e si vede cosa sta accadendo all’interno.. Stiamo andando verso quelle soluzioni! Soluzioni che non prevedono problemi per il corpo, ad esempio possiamo evitare di fare i raggi-x in molte situazioni, possiamo evitare di prelevare il sangue in altre. Quindi possiamo andare verso soluzioni non dolorose, non invasive e a costo irrisorio.

La Voice Technology va proprio in questo senso, e possiamo lavorare non solo sulle patologie, ma anche sugli stati di ansia, di depressione, e molto altro. Pensa, ad esempio, quando Alexa potrà capire che una persona è in uno stato ansioso.. potrà, ad esempio rispondere con un tono studiato per trasmettere calma. Potremo avere dei “robot” che ci parlano tenendo conto dello stato d’animo in cui siamo in quel momento.