Affrontare il "cocktail party problem" è importante perché conversare in ambienti rumorosi è faticoso e peggiora la condizione di chi ha problemi di udito. Un team ha presentato a Suzhou, in Cina, un prototipo chiamato "proactive hearing assistants" che isola le voci degli interlocutori usando intelligenza artificiale. Lo senior author è Shyam Gollakota, professore alla Paul G. Allen School of Computer Science & Engineering dell'University of Washington; il lead author è Guilin Hu, dottorando alla stessa scuola.
Il prototipo si basa su due modelli: il primo analizza l'alternanza dei turni e stabilisce chi ha parlato quando; il secondo mette in silenzio voci che non seguono il modello di scambio e altri rumori di fondo. Il sistema può identificare i partner di conversazione con appena 2–4 secondi di audio, funziona su hardware commerciale, evita ritardi percepibili e può gestire da 1 a 4 interlocutori oltre al portatore. Il codice è open-source e scaricabile.
Il team ha testato le cuffie con partecipanti umani e ha riportato che l'audio filtrato è stato valutato più di due volte meglio rispetto al baseline. I modelli sono stati provati su dialoghi in English, Mandarin e Japanese, e il ritmo in altre lingue potrebbe richiedere adattamenti. Il prototipo usa cuffie sovraurali commerciali, microfoni e circuiteria; l'obiettivo è ridurre il sistema su chip molto piccoli per auricolari o apparecchi acustici. Un lavoro parallelo mostrato a MobiCom 2025 indica che modelli AI possono girare su dispositivi per l'udito molto piccoli. La ricerca è stata finanziata dal Moore Inventor Fellows program.
Parole difficili
- prototipo — modello iniziale di un dispositivo o sistema
- interlocutore — persona che prende parte alla conversazioneinterlocutori
- alternanza — successione regolare di azioni o eventi
- filtrare — rimuovere suoni indesiderati da un segnalefiltrato
- percepibile — che si può notare con i sensipercepibili
- circuiteria — insieme di circuiti elettrici di un dispositivo
- open-source — codice del software accessibile e modificabile da tutti
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- Secondo te quali sfide tecniche esistono nel far funzionare modelli AI in auricolari molto piccoli?
- In quali situazioni quotidiane un sistema che isola le voci sarebbe più utile per chi ha problemi di udito?
- Quali preoccupazioni sulla privacy possono nascere dall'uso di dispositivi che registrano e filtrano conversazioni?
Articoli correlati
Persone con degenerazione maculare stimano l'arrivo delle auto
Uno studio con realtà virtuale ha confrontato adulti con degenerazione maculare legata all'età e adulti con visione normale nella stima del tempo di arrivo di un veicolo. I risultati mostrano performance simili e nessun vantaggio aggiuntivo dalla combinazione vista+suono.