[ad_1]

Люди обладают уникальными сенсорными функциями, в том числе бинауральным слухом. Это означает, что мы можем идентифицировать типы звука, а также то, в каком направлении он исходит и насколько далеко он находится, а также мы можем различать несколько источников звука, возникающих одновременно.

Хотя большие языковые модели (LLM) впечатляют своей способностью отвечать на вопросы, а также распознавать, переводить и синтезировать речь, им еще предстоит справиться с таким «естественным» пространственным аудиовходом.

Группа исследователей наконец-то начала взламывать этот код. внедрение НДТто, что они называют первым пространственным, основанным на звуке LLM, который может рассуждать о звуках в трехмерной среде.

Модель демонстрирует впечатляющую точность классификации типов звука (например, смех, сердцебиение и брызги воды), направления звука (справа, слева, внизу) и расстояния до звука (от 1 до 10 футов). Он также обладает сильными возможностями пространственного мышления в ситуациях, когда два разных звука перекрываются.

Сложности пространственного звука

Пространственный звук, иногда называемый «виртуальным объемным звуком», создает иллюзию источников звука в трехмерном пространстве. Он используется в приложениях, включая виртуальную реальность (VR) и передовые театральные системы (а также в других новых областях, таких как метавселенная).

Но пространственный звук представляет собой сложную задачу для искусственного интеллекта и машинного обучения (МО), поскольку интеллектуальные агенты в трехмерных пространствах с трудом локализуют и интерпретируют источники звука. Ученые попытались смягчить это явление с помощью разработки методов акустического моделирования и алгоритмов, включающих пространственную аудиоинформацию (например, Ютуб-360 и СТАРСС23).

Однако разработчики BAT отмечают, что эти приложения часто нестабильны по качеству и им не хватает «важнейших меток истинности», таких как расстояние до источника и направление. Аналогичным образом, исследователи отмечают, что система локализации и обнаружения звуковых событий (SELD), которая объединяет локализацию источника звука с обнаружением звуковых событий (SED), часто фокусируется на «неглубоком пространственном восприятии звука».

Другие приложения в сфере аудио включают AudioGPT, который интегрирует ChatGPT для широкого спектра аудио- и речевых приложений; LTU, который обучает модели рассуждать и отвечать на вопросы о звуках в клипе; и Qwen-audio, обеспечивающий универсальное понимание звука.

«Несмотря на впечатляющие характеристики в области аудио, ни одна из этих моделей не способна воспринимать и рассуждать о пространственном звуке, который находится в разнообразных, реверберирующих и сложных трехмерных средах», — утверждают исследователи.

Вопросы о типе звука, направлении, расстоянии и пространственном мышлении.

BAT, похоже, опровергает это мнение, демонстрируя сильные способности пространственного мышления со смешанными звуками и источниками, достигая точности почти 77%.

Между тем, его базовый пространственный аудиокодер достиг средней средней точности более 50% при определении типа звука; средняя угловая ошибка почти 18 градусов для направления звука; и коэффициент ошибки расстояния в пределах 1,64 фута от фактического местоположения — 32,54% для оценки расстояния.

Исследователи из Техасского университета (2-й факультет компьютерных наук и инженерии США) и Шанхайского университета Цзяо Тонг (Китай) начали с разработки преобразователя пространственной аудиоспектрограммы (SPATIAL-AST), который способен обнаруживать звуковые события и пространственную локализацию. и восприятие на расстоянии; и SPATIALSOUNDQA, набор пространственных задач на вопросы и ответы.

Последующий LLM BAT затем интегрировал SPATIAL-AST с LLaMA-2 LLM.

Модели задавали вопросы по категориям, включая тип звука, направление, откуда исходил звук и насколько далеко он находился. Наконец, ему было поручено пространственное мышление, при котором два одновременных звука доносились с совершенно разных расстояний и направлений.

Поскольку предыдущие наборы пространственных аудиоданных часто ограничивались музыкой, речью и основными домашними звуками, исследователи создали бинауральный набор из 355 меток аудиособытий с помощью Audioset и Soundspaces. Для своих сеток окружающей среды они использовали крупномасштабный набор данных RGB-D. Matterport3D который включает в себя визуализацию 90 полноценных зданий, каждое из которых имеет в среднем 24,5 комнат на примерно двух с половиной этажах площадью 5550 квадратных футов.

Вопросы о типе звука

  • Вопрос: Какие звуковые события можно обнаружить в записи?
  • А: детский смех
  • Вопрос: Какие звуки присутствуют в этом аудиоклипе?
  • А: Сердцебиение
  • Вопрос: Определите звуковые события в аудиоклипе, исходящие справа, спереди, снизу, примерно на расстоянии 9 футов.
  • А: Брызги; речь
  • Вопрос: Какие звуковые события вы можете обнаружить на аудиозаписи, исходящей слева, сзади, на расстоянии примерно полутора футов?
  • А: Музыка; музыкальный инструмент; стальная кастрюля

Вопросы о направлении и расстоянии

  • В: В каком направлении и на каком расстоянии находится источник тонов сердца?
  • А: Слева, сзади, внизу; на расстоянии 3 футов
  • В: Откуда доносится звук музыки?
  • А: слева, сзади, внизу; в 10 футах

Вопросы по пространственному мышлению

  • Вопрос: Является ли хрипящий звук ближе, чем звук полета/хлопанья крыльев птицы?
  • А: Нет
  • Вопрос: Источник звуков взрыва и звуков речи находится на вашей левой стороне?
  • А: Да
  • Вопрос: Звук электробритвы слышен за звуком водопада?
  • А: Да
  • Вопрос: Можете ли вы оценить расстояние от звука речи до звука собаки?
  • А: 1,64 фута
  • Вопрос: Что такое звук на вышеуказанной стороне звука вибрации?
  • А: Кваканье; лягушка
  • Вопрос: Не могли бы вы определить, где звук пения находится слева или справа от звука пара?
  • А: Левый

«Эта задача требует как восприятия, так и сложного рассуждения», — пишут исследователи о последнем. «Модель должна неявно разделять источники звука на основе их уникальных классов, пространственно локализовать каждый источник, а затем анализировать отношения между источниками в контексте вопроса».

Возможности пространственного звука открывают множество возможностей

Разработка LLM для пространственного звука открывает множество возможностей, когда дело касается виртуальной реальности, игр, аудиотехники и многого другого.

«Это может привести к более захватывающему и реалистичному опыту в этих областях», — пишут исследователи.

Способность интерпретировать и рассуждать о пространственных звуках также может улучшить встроенные системы искусственного интеллекта, такие как роботы или автономные транспортные средства. А дальнейшее развитие амбисоники (источники выше и ниже) может обеспечить еще более захватывающий и реалистичный опыт.

Исследователи заключают: «Мы уверены, что BAT внесет значительный вклад в развитие пространственного восприятия звука и мышления, а также мультимодальных LLM».

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *