Affrontare il "cocktail party problem" è importante perché conversare in ambienti rumorosi è faticoso e peggiora la condizione di chi ha problemi di udito. Un team ha presentato a Suzhou, in Cina, un prototipo chiamato "proactive hearing assistants" che isola le voci degli interlocutori usando intelligenza artificiale. Lo senior author è Shyam Gollakota, professore alla Paul G. Allen School of Computer Science & Engineering dell'University of Washington; il lead author è Guilin Hu, dottorando alla stessa scuola.
Il prototipo si basa su due modelli: il primo analizza l'alternanza dei turni e stabilisce chi ha parlato quando; il secondo mette in silenzio voci che non seguono il modello di scambio e altri rumori di fondo. Il sistema può identificare i partner di conversazione con appena 2–4 secondi di audio, funziona su hardware commerciale, evita ritardi percepibili e può gestire da 1 a 4 interlocutori oltre al portatore. Il codice è open-source e scaricabile.
Il team ha testato le cuffie con partecipanti umani e ha riportato che l'audio filtrato è stato valutato più di due volte meglio rispetto al baseline. I modelli sono stati provati su dialoghi in English, Mandarin e Japanese, e il ritmo in altre lingue potrebbe richiedere adattamenti. Il prototipo usa cuffie sovraurali commerciali, microfoni e circuiteria; l'obiettivo è ridurre il sistema su chip molto piccoli per auricolari o apparecchi acustici. Un lavoro parallelo mostrato a MobiCom 2025 indica che modelli AI possono girare su dispositivi per l'udito molto piccoli. La ricerca è stata finanziata dal Moore Inventor Fellows program.
Parole difficili
- prototipo — modello iniziale di un dispositivo o sistema
- interlocutore — persona che prende parte alla conversazioneinterlocutori
- alternanza — successione regolare di azioni o eventi
- filtrare — rimuovere suoni indesiderati da un segnalefiltrato
- percepibile — che si può notare con i sensipercepibili
- circuiteria — insieme di circuiti elettrici di un dispositivo
- open-source — codice del software accessibile e modificabile da tutti
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- Secondo te quali sfide tecniche esistono nel far funzionare modelli AI in auricolari molto piccoli?
- In quali situazioni quotidiane un sistema che isola le voci sarebbe più utile per chi ha problemi di udito?
- Quali preoccupazioni sulla privacy possono nascere dall'uso di dispositivi che registrano e filtrano conversazioni?
Articoli correlati
Archivio digitale per salvare le lingue del Bangladesh
Un progetto del governo del Bangladesh ha creato il sito Multilingual Cloud per documentare 42 lingue indigene. Il portale pubblica parole, frasi, trascrizioni in IPA e registrazioni audio per conservare le lingue in pericolo.
Il cervello predice parole usando gruppi grammaticali
Una ricerca pubblicata su Nature Neuroscience mostra che il cervello anticipa le parole considerando gruppi grammaticali (costituenti), non solo la singola parola successiva. Lo studio ha usato MEG, test Cloze e dati in mandarino e inglese.
Mancato accesso alle tecnologie assistive nel mondo
Un rapporto WHO e UNICEF lanciato il 16 maggio mostra che quasi un miliardo di persone, tra cui bambini e anziani, non ha accesso agli ausili necessari. Il bisogno globale crescerà entro il 2050 a causa dell'invecchiamento e delle malattie.