Alexa, come funziona Siri? Spiegazione del controllo vocale

Il mondo si sta muovendo verso comandi vocali per tutto, ma come funziona esattamente il controllo vocale? Perché è così glaciale e limitato? Ecco cosa devi sapere come utente non esperto.

Il mondo si sta muovendo verso comandi vocali per tutto, ma come funziona esattamente il controllo vocale?  Perché è così glaciale e limitato?  Ecco cosa devi sapere come utente non esperto.
Annuncio pubblicitario

Possiamo parlare a quasi tutti i nostri gadget ora, ma esattamente come funziona? Quando chiedi "Che canzone è?" O dici "Chiama mamma", sta accadendo un miracolo della tecnologia moderna. E mentre sembra che sia all'avanguardia, questa idea di parlare con i dispositivi risale a decenni - quasi quanto i jetpack della fantascienza!

Oggi, la maggior parte dell'attenzione dedicata al calcolo vocale è sugli smartphone. Apple, Amazon, Microsoft e Google sono in cima alla catena, ognuno dei quali offre il proprio modo di parlare con l'elettronica. Hai saputo chi sono: Siri, Alexa, Cortana e l'essere senza nome "Ok, Google". Il che solleva una grande domanda ...

In che modo un dispositivo prende le parole pronunciate e le trasforma in comandi che può capire? In sostanza, si tratta di abbinare gli schemi e fare previsioni basate su tali modelli. Più specificamente, il riconoscimento vocale è un compito complesso che deriva dalla modellazione acustica e dalla modellazione linguistica .

Modellazione acustica: forme d'onda e telefoni

waveform

La modellazione acustica è il processo di prendere una forma d'onda del discorso e analizzarla usando modelli statistici. Il metodo più comune per questo è Hidden Markov Modeling, che viene utilizzato in quella che viene chiamata modellazione della pronuncia per rompere il discorso in parti componenti chiamate telefoni (da non confondere con i dispositivi telefonici effettivi). Microsoft è stata una ricercatrice leader in questo campo per molti anni.

Modellazione Markov nascosta: stati di probabilità

Hidden Markov Modeling è un modello matematico predittivo in cui lo stato corrente viene determinato analizzando l'output. Wikipedia ha un ottimo esempio usando due amici.

Immagina due amici - Local Friend e Remote Friend - che vivono in città diverse. Local Friend vuole capire com'è il tempo in cui vive Remote Friend, ma Remote Friend vuole solo parlare di quello che ha fatto quel giorno: camminare, fare acquisti o pulire. La probabilità di ogni attività dipende dal tempo del giorno.

Modellazione di Markov nascosta

Fai finta che questa sia l'unica informazione disponibile. Con esso, Local Friend può trovare le tendenze su come il tempo cambia da un giorno all'altro, e usando queste tendenze, può iniziare a fare ipotesi plausibili su quale sarà il meteo di oggi basato sull'attività della sua amica ieri. (Puoi vedere un diagramma del sistema sopra).

Se vuoi un esempio più complesso, dai un'occhiata a questo esempio su Matlab. Nel riconoscimento vocale, questo modello confronta essenzialmente ogni parte della forma d'onda con ciò che viene prima e ciò che viene dopo, e contro un dizionario di forme d'onda per capire cosa viene detto.

In sostanza, se si esegue un suono "th", si intende verificare tale suono rispetto ai suoni più probabili che di solito vengono prima e dopo di esso. Forse questo significa controllare contro il suono "e", il suono "at" e così via. Quando il modello si abbina correttamente, allora ha la tua intera parola. Questa è una semplificazione eccessiva, ma qui puoi vedere l'intera spiegazione di Microsoft.

Modellazione linguistica: più che suoni

La modellazione acustica è molto utile per aiutare il tuo computer a capirti, ma per quanto riguarda gli omonimi e le variazioni regionali nella pronuncia? È qui che entra in gioco la modellazione della lingua. Google ha condotto molte ricerche in questo settore, principalmente attraverso l'uso della modellistica N-gram .

Quando Google sta cercando di capire il tuo discorso, lo fa basandosi su modelli derivati ​​dalla sua massiccia banca di ricerca vocale e trascrizioni di YouTube. Tutte queste didascalie di video esilaranti hanno effettivamente aiutato Google ad evolvere i loro dizionari. Inoltre, hanno usato il GOOG-411 partito per raccogliere informazioni su come le persone parlano.

shutterstock_70757203

Tutta questa raccolta linguistica ha creato una vasta gamma di pronunce e dialetti, che ha reso un dizionario robusto di parole e come suonano. Ciò consente di ottenere corrispondenze che hanno un tasso di errore notevolmente ridotto rispetto alla corrispondenza della forza bruta in base alle probabilità non elaborate. Puoi leggere un breve documento che descrive i loro metodi qui.

Mentre Google è un leader in questo campo, ci sono altri modelli matematici in fase di sviluppo, inclusi modelli spaziali continui e modelli linguistici posizionali, che sono tecniche più avanzate nate dalla ricerca nell'intelligenza artificiale. Questi metodi si basano sulla replica del tipo di ragionamento che gli umani fanno quando si ascoltano a vicenda. Questi sono molto più avanzati sia in termini di tecnologia dietro di loro, ma anche di matematica e programmazione necessari per mappare questi modelli.

Modellazione N-Gram: la probabilità incontra la memoria

La modellazione N-gram funziona sulla base delle probabilità, ma utilizza un dizionario di parole esistente per creare un albero ramificato di possibilità, che viene poi appianato per motivi di efficienza. In un certo senso, ciò significa che la modellizzazione N-gramma elimina molte delle incertezze nella suddetta modellatura di Markov nascosta.

Come notato sopra, la forza di questo metodo deriva dall'avere un ampio dizionario di parole e uso, non solo suoni primitivi. Questo dà al programma la capacità di distinguere gli omofoni, come "beat" e "barbabietola". È contestuale, il che significa che quando parli dei punteggi della notte scorsa, il programma non tira le parole sul borscht.

Ma questi modelli in realtà non sono i migliori per il linguaggio, principalmente a causa di problemi con le probabilità di parole in frasi più lunghe. Man mano che aggiungi più parole a una frase, questo modello diventa un po 'fuori mano, poiché è improbabile che le tue prime parole abbiano caricato tutto il necessario per il tuo pensiero completo.

Tuttavia, è semplice e facile da implementare, rendendolo un ottimo abbinamento per un'azienda come Google che ama lanciare server a problemi computazionali. Puoi fare ulteriori letture su Modelieng N-gram all'università di Washington, oppure puoi guardare una conferenza a Coursera.

Shouting at Clouds: app e dispositivi

Chiunque abbia usato Siri conosce la frustrazione di una connessione di rete lenta. Questo perché i tuoi comandi a Siri vengono inviati sulla rete per essere decodificati da Apple. Cortana per Windows phone richiede anche una connessione di rete per funzionare correttamente. Al contrario, Amazon's Echo è solo un altoparlante Bluetooth senza Internet.

Perché la differenza? Perché Siri e Cortana hanno bisogno di server per decodificare il tuo discorso. Potrebbe essere fatto sul tuo telefono o tablet? Certo, ma ucciderei le tue prestazioni e la durata della batteria nel processo. Ha più senso scaricare l'elaborazione su macchine dedicate.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Pensaci in questo modo: il tuo comando è un'auto bloccata nel fango. Probabilmente potresti spingerlo da solo con abbastanza tempo e fatica, ma ci vorranno ore e ti lascerò esausto. Invece, chiamate l'assistenza stradale e tirano fuori la macchina in pochi minuti. Lo svantaggio è che devi fare la chiamata e aspettarli, ma è ancora più veloce e meno onerosa.

I modelli desktop come Nuance tendono a utilizzare risorse locali a causa dell'hardware più potente. Dopotutto, nelle parole di Steve Jobs, il tuo desktop è un camion. (Il che rende un po 'sciocco che OS X stia utilizzando i server per la sua elaborazione.) Quindi, quando è necessario elaborare il linguaggio e la voce, è già sufficientemente equipaggiato per gestirlo da solo.

D'altra parte, Android consente agli sviluppatori di includere il riconoscimento vocale offline nelle loro app. A Google piace anticipare la tecnologia, e puoi scommettere che le altre piattaforme acquisiranno questa capacità man mano che il loro hardware diventerà più potente. A nessuno piace quando scarsa copertura o cattiva ricezione lobotomizza il loro dispositivo.

Inizia a utilizzare i comandi vocali ora

Ora che conosci i concetti fondamentali, dovresti giocare con i tuoi vari dispositivi. Prova la nuova voce digitando in Google Documenti Come Voice Typing è la nuova miglior funzionalità di Google Documenti Come Voice Typing è la nuova miglior funzionalità di Google Docs Il riconoscimento vocale è migliorato a passi da gigante negli ultimi anni. All'inizio di questa settimana, Google ha finalmente introdotto la digitazione vocale in Google Docs. Ma va bene? Scopriamolo! Leggi di più . Come se la suite Web Office non fosse già abbastanza potente, il controllo vocale ti consente di dettare e formattare completamente i tuoi documenti. Questo espande la potente tecnologia che hanno già progettato per Chrome e Android.

Altre idee includono la configurazione del tuo Mac per utilizzare i comandi vocali Come utilizzare i comandi vocali sul tuo Mac Come utilizzare i comandi vocali sul tuo Mac Ulteriori informazioni e impostare Amazon Echo con la verifica automatica Come Amazon Echo può rendere la tua casa una casa intelligente Come Amazon L'eco può fare la tua casa Una casa intelligente La tecnologia della casa intelligente è ancora agli albori, ma un nuovo prodotto di Amazon chiamato "Echo" potrebbe contribuire a portarlo nel mainstream. Leggi di più . Vivi nel futuro e abbracciati a parlare con i tuoi gadget, anche se stai ordinando più asciugamani di carta. Se sei un appassionato di smartphone, abbiamo anche tutorial per Siri 8 Cose che tu probabilmente non hai realizzato Siri potrebbe fare 8 cose che probabilmente non hai realizzato Siri potrebbe fare Siri è diventato una delle funzioni di definizione di iPhone, ma per molte persone, non è sempre il più utile. Mentre alcuni di questi sono dovuti ai limiti del riconoscimento vocale, la stranezza nell'usare ... Leggi di più, Cortana 6 Le cose più belle che puoi controllare con Cortana in Windows 10 6 Le cose più fantastiche che puoi controllare con Cortana in Windows 10 Cortana può aiutarti vai a mani libere su Windows 10. Puoi farle cercare i tuoi file e il web, effettuare calcoli o visualizzare le previsioni del tempo. Qui trattiamo alcune delle sue abilità più interessanti. Ulteriori informazioni e Android OK, Google: 20+ cose utili che puoi dire al tuo telefono Android OK, Google: più di 20 cose utili che puoi dire al tuo telefono Android Lentamente, senza che ce ne accorgiamo, il futuro è arrivato. Leggi di più .

Qual è il tuo uso preferito del controllo vocale? Fateci sapere nei commenti.

Crediti immagine: T-flex via Shutterstock, Terencehonles tramite Wikimedia Foundation, Arizona State, Cienpies Design tramite Shutterstock

In this article