Parlare in luoghi rumorosi è difficile, un problema noto come "cocktail party problem". Per affrontarlo, un team ha sviluppato un prototipo di cuffie intelligenti presentato a Suzhou, in Cina. Lo senior author è Shyam Gollakota, professore alla Paul G. Allen School of Computer Science & Engineering dell'University of Washington.
Il sistema usa due modelli di intelligenza artificiale. Il primo stabilisce chi ha parlato quando e verifica che i turni non si sovrappongano molto. Il secondo isola i partecipanti identificati e riduce voci indesiderate e rumori di fondo. Il prototipo funziona su hardware commerciale e può gestire da 1 a 4 interlocutori oltre al portatore.
Il team ha testato il sistema con partecipanti umani e ha trovato che l'audio filtrato è stato valutato più di due volte meglio rispetto al baseline. Gli autori segnalano sfide come la sovrapposizione di voci, i lunghi monologhi e le persone che entrano o escono dalla conversazione, che possono ridurre l'accuratezza. Il codice è open-source e scaricabile.
Parole difficili
- intelligenza artificiale — sistemi informatici che imitano capacità umane
- prototipo — prima versione di un prodotto per prova
- isolare — separare una voce o una sorgente dal restoisola
- interlocutore — persona che partecipa a una conversazioneinterlocutori
- sovrapporsi — accadere nello stesso tempo di un'altra cosasi sovrappongano
- filtrare — rimuovere suoni o rumori indesideratifiltrato
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- Hai difficoltà a parlare in luoghi rumorosi? Descrivi una situazione e come la gestisci.
- Cosa pensi delle cuffie che isolano voci indesiderate? Quali sono i vantaggi e i possibili limiti?
- Il codice del progetto è open-source. Preferiresti software open-source per dispositivi così? Perché?
Articoli correlati
Ricerca: vulnerabilità nei gestori di password cloud
Ricercatori dell'ETH Zurich hanno testato Bitwarden, Lastpass e Dashlane e trovato vulnerabilità che permettono attacchi quando un server è compromesso. Suggeriscono aggiornamenti, audit esterni e crittografia end-to-end per gli utenti.
Perché i modelli faticano a moltiplicare numeri a quattro cifre
Una ricerca spiega che i modelli linguistici non conservano valori intermedi necessari per moltiplicare numeri a quattro cifre. Un metodo chiamato ICoT e un obiettivo di addestramento mirato migliorano molto i risultati.
Nuovo metodo per migliorare le ecografie del seno
Ricercatori hanno sviluppato un nuovo metodo per elaborare i segnali ecografici che distingue meglio tra liquido e masse solide nel seno. Nei primi test i medici hanno identificato correttamente le masse molto più spesso rispetto alle ecografie convenzionali.