Affrontare il "cocktail party problem" è importante perché conversare in ambienti rumorosi è faticoso e peggiora la condizione di chi ha problemi di udito. Un team ha presentato a Suzhou, in Cina, un prototipo chiamato "proactive hearing assistants" che isola le voci degli interlocutori usando intelligenza artificiale. Lo senior author è Shyam Gollakota, professore alla Paul G. Allen School of Computer Science & Engineering dell'University of Washington; il lead author è Guilin Hu, dottorando alla stessa scuola.
Il prototipo si basa su due modelli: il primo analizza l'alternanza dei turni e stabilisce chi ha parlato quando; il secondo mette in silenzio voci che non seguono il modello di scambio e altri rumori di fondo. Il sistema può identificare i partner di conversazione con appena 2–4 secondi di audio, funziona su hardware commerciale, evita ritardi percepibili e può gestire da 1 a 4 interlocutori oltre al portatore. Il codice è open-source e scaricabile.
Il team ha testato le cuffie con partecipanti umani e ha riportato che l'audio filtrato è stato valutato più di due volte meglio rispetto al baseline. I modelli sono stati provati su dialoghi in English, Mandarin e Japanese, e il ritmo in altre lingue potrebbe richiedere adattamenti. Il prototipo usa cuffie sovraurali commerciali, microfoni e circuiteria; l'obiettivo è ridurre il sistema su chip molto piccoli per auricolari o apparecchi acustici. Un lavoro parallelo mostrato a MobiCom 2025 indica che modelli AI possono girare su dispositivi per l'udito molto piccoli. La ricerca è stata finanziata dal Moore Inventor Fellows program.
Parole difficili
- prototipo — modello iniziale di un dispositivo o sistema
- interlocutore — persona che prende parte alla conversazioneinterlocutori
- alternanza — successione regolare di azioni o eventi
- filtrare — rimuovere suoni indesiderati da un segnalefiltrato
- percepibile — che si può notare con i sensipercepibili
- circuiteria — insieme di circuiti elettrici di un dispositivo
- open-source — codice del software accessibile e modificabile da tutti
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- Secondo te quali sfide tecniche esistono nel far funzionare modelli AI in auricolari molto piccoli?
- In quali situazioni quotidiane un sistema che isola le voci sarebbe più utile per chi ha problemi di udito?
- Quali preoccupazioni sulla privacy possono nascere dall'uso di dispositivi che registrano e filtrano conversazioni?
Articoli correlati
I microbi nei pellet rivelano l'età di un'infestazione di termiti
Ricercatori hanno studiato i microbi negli escrementi delle termiti (pellet) per distinguere pellet freschi da pellet vecchi. La quantità di DNA batterico cala molto nel tempo, e il metodo potrebbe diventare un test rapido sul posto.
VillainNet: falla nelle auto a guida autonoma
Ricercatori della Georgia Tech hanno scoperto VillainNet, una backdoor nascosta nelle «super network» delle auto a guida autonoma che può attivarsi e prendere il controllo del veicolo. Lo studio è stato presentato all'ACM CCS nell'ottobre 2025.
Una mappa biologica collega cellule e reti cerebrali
Un nuovo studio su Nature Communications combina immagini cerebrali, dati genetici e mappe molecolari per mostrare come l’organizzazione cellulare sostenga le reti viste con la fMRI. I risultati possono aiutare a capire depressione, schizofrenia e Alzheimer.