[ad_1]
Люди обладают уникальными сенсорными функциями, в том числе бинауральным слухом. Это означает, что мы можем идентифицировать типы звука, а также то, в каком направлении он исходит и насколько далеко он находится, а также мы можем различать несколько источников звука, возникающих одновременно.
Хотя большие языковые модели (LLM) впечатляют своей способностью отвечать на вопросы, а также распознавать, переводить и синтезировать речь, им еще предстоит справиться с таким «естественным» пространственным аудиовходом.
Группа исследователей наконец-то начала взламывать этот код. внедрение НДТто, что они называют первым пространственным, основанным на звуке LLM, который может рассуждать о звуках в трехмерной среде.
Модель демонстрирует впечатляющую точность классификации типов звука (например, смех, сердцебиение и брызги воды), направления звука (справа, слева, внизу) и расстояния до звука (от 1 до 10 футов). Он также обладает сильными возможностями пространственного мышления в ситуациях, когда два разных звука перекрываются.
Сложности пространственного звука
Пространственный звук, иногда называемый «виртуальным объемным звуком», создает иллюзию источников звука в трехмерном пространстве. Он используется в приложениях, включая виртуальную реальность (VR) и передовые театральные системы (а также в других новых областях, таких как метавселенная).
Но пространственный звук представляет собой сложную задачу для искусственного интеллекта и машинного обучения (МО), поскольку интеллектуальные агенты в трехмерных пространствах с трудом локализуют и интерпретируют источники звука. Ученые попытались смягчить это явление с помощью разработки методов акустического моделирования и алгоритмов, включающих пространственную аудиоинформацию (например, Ютуб-360 и СТАРСС23).
Однако разработчики BAT отмечают, что эти приложения часто нестабильны по качеству и им не хватает «важнейших меток истинности», таких как расстояние до источника и направление. Аналогичным образом, исследователи отмечают, что система локализации и обнаружения звуковых событий (SELD), которая объединяет локализацию источника звука с обнаружением звуковых событий (SED), часто фокусируется на «неглубоком пространственном восприятии звука».
Другие приложения в сфере аудио включают AudioGPT, который интегрирует ChatGPT для широкого спектра аудио- и речевых приложений; LTU, который обучает модели рассуждать и отвечать на вопросы о звуках в клипе; и Qwen-audio, обеспечивающий универсальное понимание звука.
«Несмотря на впечатляющие характеристики в области аудио, ни одна из этих моделей не способна воспринимать и рассуждать о пространственном звуке, который находится в разнообразных, реверберирующих и сложных трехмерных средах», — утверждают исследователи.
Вопросы о типе звука, направлении, расстоянии и пространственном мышлении.
BAT, похоже, опровергает это мнение, демонстрируя сильные способности пространственного мышления со смешанными звуками и источниками, достигая точности почти 77%.
Между тем, его базовый пространственный аудиокодер достиг средней средней точности более 50% при определении типа звука; средняя угловая ошибка почти 18 градусов для направления звука; и коэффициент ошибки расстояния в пределах 1,64 фута от фактического местоположения — 32,54% для оценки расстояния.
Исследователи из Техасского университета (2-й факультет компьютерных наук и инженерии США) и Шанхайского университета Цзяо Тонг (Китай) начали с разработки преобразователя пространственной аудиоспектрограммы (SPATIAL-AST), который способен обнаруживать звуковые события и пространственную локализацию. и восприятие на расстоянии; и SPATIALSOUNDQA, набор пространственных задач на вопросы и ответы.
Последующий LLM BAT затем интегрировал SPATIAL-AST с LLaMA-2 LLM.
Модели задавали вопросы по категориям, включая тип звука, направление, откуда исходил звук и насколько далеко он находился. Наконец, ему было поручено пространственное мышление, при котором два одновременных звука доносились с совершенно разных расстояний и направлений.
Поскольку предыдущие наборы пространственных аудиоданных часто ограничивались музыкой, речью и основными домашними звуками, исследователи создали бинауральный набор из 355 меток аудиособытий с помощью Audioset и Soundspaces. Для своих сеток окружающей среды они использовали крупномасштабный набор данных RGB-D. Matterport3D который включает в себя визуализацию 90 полноценных зданий, каждое из которых имеет в среднем 24,5 комнат на примерно двух с половиной этажах площадью 5550 квадратных футов.
Вопросы о типе звука
- Вопрос: Какие звуковые события можно обнаружить в записи?
- А: детский смех
- Вопрос: Какие звуки присутствуют в этом аудиоклипе?
- А: Сердцебиение
- Вопрос: Определите звуковые события в аудиоклипе, исходящие справа, спереди, снизу, примерно на расстоянии 9 футов.
- А: Брызги; речь
- Вопрос: Какие звуковые события вы можете обнаружить на аудиозаписи, исходящей слева, сзади, на расстоянии примерно полутора футов?
- А: Музыка; музыкальный инструмент; стальная кастрюля
Вопросы о направлении и расстоянии
- В: В каком направлении и на каком расстоянии находится источник тонов сердца?
- А: Слева, сзади, внизу; на расстоянии 3 футов
- В: Откуда доносится звук музыки?
- А: слева, сзади, внизу; в 10 футах
Вопросы по пространственному мышлению
- Вопрос: Является ли хрипящий звук ближе, чем звук полета/хлопанья крыльев птицы?
- А: Нет
- Вопрос: Источник звуков взрыва и звуков речи находится на вашей левой стороне?
- А: Да
- Вопрос: Звук электробритвы слышен за звуком водопада?
- А: Да
- Вопрос: Можете ли вы оценить расстояние от звука речи до звука собаки?
- А: 1,64 фута
- Вопрос: Что такое звук на вышеуказанной стороне звука вибрации?
- А: Кваканье; лягушка
- Вопрос: Не могли бы вы определить, где звук пения находится слева или справа от звука пара?
- А: Левый
«Эта задача требует как восприятия, так и сложного рассуждения», — пишут исследователи о последнем. «Модель должна неявно разделять источники звука на основе их уникальных классов, пространственно локализовать каждый источник, а затем анализировать отношения между источниками в контексте вопроса».
Возможности пространственного звука открывают множество возможностей
Разработка LLM для пространственного звука открывает множество возможностей, когда дело касается виртуальной реальности, игр, аудиотехники и многого другого.
«Это может привести к более захватывающему и реалистичному опыту в этих областях», — пишут исследователи.
Способность интерпретировать и рассуждать о пространственных звуках также может улучшить встроенные системы искусственного интеллекта, такие как роботы или автономные транспортные средства. А дальнейшее развитие амбисоники (источники выше и ниже) может обеспечить еще более захватывающий и реалистичный опыт.
Исследователи заключают: «Мы уверены, что BAT внесет значительный вклад в развитие пространственного восприятия звука и мышления, а также мультимодальных LLM».