Microsoft потратила последние два года на добавление в Teams новых ярких функций для повышения производительности, и теперь компания пересматривает основные принципы работы благодаря искусственному интеллекту. Мы все были на разговоре, когда у кого-то была плохая акустика в помещении, из-за чего его было трудно услышать, или видели, как два человека пытались говорить одновременно, создавая неловкий момент «нет, вы говорите». Новые улучшения качества голоса на основе искусственного интеллекта от Microsoft должны улучшить или даже устранить эти повседневные неудобства.
Microsoft теперь использует модели машинного обучения для улучшения акустики помещения, чтобы вы больше не звучали так, как будто прячетесь в пещере. «Хотя мы изо всех сил старались с цифровой обработкой сигналов сделать действительно хорошую работу в Teams, теперь мы впервые начали использовать машинное обучение для создания эхоподавления, где вы действительно можете уменьшить эхо от всех различных устройств», — объясняет Роберт Эйхнер, главный менеджер программы интеллектуальных диалогов и облачных коммуникаций в Microsoft, в интервью Грань.
Microsoft тестировала это в течение нескольких месяцев, измеряя свои модели в реальном мире, чтобы убедиться, что пользователи Teams замечают уменьшение эха и улучшение качества связи. Производитель программного обеспечения использовал 30 000 часов речи для обучения своих моделей и захватил тысячи устройств с помощью краудсорсинга, где пользователям Teams платят за запись их голоса и воспроизведение звука со своего устройства.
«Мы также симулируем около 100 000 различных помещений… Акустика помещения играет большую роль в подавлении эха», — говорит Айхнер. Результатом является значительное улучшение качества звука при вызове и устранение эха, что также позволяет нескольким людям говорить одновременно. Вы можете увидеть все улучшения в действии на видео выше.
Если Teams обнаружит, что звук отскакивает или реверберирует в комнате, что приводит к неглубокому звуку, модель также преобразует захваченный звук и обрабатывает его, чтобы он звучал так, как будто участники Teams говорят в микрофон ближнего действия, а не эхо.
Самая впечатляющая часть — это возможность людей прерывать друг друга во время вызовов Teams, без неловкого наложения, когда вы не слышите другого человека из-за эха. Microsoft теперь отправляет всю эту работу в Teams, наряду с улучшениями, которые она сделала ранее с подавлением шума на основе ИИ. Вся обработка выполняется локально на клиентских устройствах, а не в облаке.
«Мы сказали, что хотим сделать это на клиенте, потому что облако по-прежнему дорого, если вы хотите обрабатывать каждый вызов в облаке… и, очевидно, нам придется переложить эту стоимость на клиента», — объясняет Айхнер. Это означает потенциальное ограничение этих важных улучшений Teams платными клиентами, а маршрут на устройстве означает, что такие функции, как подавление шума, доступны на 90 процентах устройств, использующих Teams.
Все эти новые улучшения Microsoft Teams теперь доступны, наряду с некоторыми оптимизациями экрана в реальном времени для текста в видео и улучшениями на основе искусственного интеллекта для ограничения пропускной способности во время видеовызовов или вызовов с совместным использованием экрана.