Команда разработчиков показала прототип умных наушников, цель которых — облегчить восприятие речи в шумной обстановке, известной как «проблема коктейльной вечеринки». Устройство использует искусственный интеллект для обнаружения ритма разговора и смены говорящих.
Первая модель выполняет анализ «who spoke when» и отслеживает, кто говорил и когда, вторая модель подавляет голоса, не относящиеся к диалогу, и другие фоновые шумы. Система может идентифицировать собеседников, используя всего 2–4 секунды аудио, и работает на стандартном коммерческом аппаратном обеспечении.
Результаты представили в Сучжоу (Suzhou, China) на Conference on Empirical Methods in Natural Language Processing, а исходный код выложили в открытый доступ. Авторы отмечают, что система улучшала понимание речи в тестах по сравнению с базовым звуком.
Сложные слова
- прототип — первый рабочий образец нового устройства
- облегчить — сделать что-то более лёгким для понимания
- восприятие — процесс понимания услышанного или увиденного
- искусственный интеллект — компьютерные системы, имитирующие человеческий разум
- идентифицировать — определить, кто является говорящим в записи
- подавлять — устранять или уменьшать нежелательные фоновые звукиподавляет
Подсказка: наведите, сфокусируйтесь или нажмите на выделенные слова, чтобы увидеть краткие определения прямо во время чтения или прослушивания.
Вопросы для обсуждения
- В каких ситуациях такие наушники были бы особенно полезны? Приведите один-два примера.
- Какие возможные проблемы с приватностью могут возникнуть при идентификации собеседников?
- Что ещё можно улучшить в такой системе, чтобы она лучше работала в реальной жизни?
Похожие статьи
Индонезия ужесточает правила для цифровых платформ
Индонезия активизирует регулирование глобальных цифровых платформ. Власти требуют прозрачности алгоритмов, вводят требования к регистрации и системы удаления контента, но это вызывает споры о свободе слова и правах пользователей.
ИИ, который понимает, почему работают заголовки
Исследование Йельской школы менеджмента показывает: генеративный ИИ, который учится объяснять, почему заголовки привлекают внимание, создаёт более вовлекающий и заслуживающий доверия контент. Авторы проверяли метод на данных и тестах с людьми.