Искусственный интеллект продолжает генерировать огромное количество света и тепла. Лучшие модели в словах и изображениях, которые сейчас получают подписку и включаются в потребительские товары, соперничают за дюймы. OpenAI, Google и Anthropic более или менее равны.

Поэтому неудивительно, что исследователи искусственного интеллекта стремятся продвигать генеративные модели в новые области. Поскольку ИИ требует огромных объемов данных, один из способов предсказать, куда он пойдет дальше, — это посмотреть, какие данные широко доступны в Интернете, но по большей части не используются.

Видео (которых много) — очевидный следующий шаг.Фактически, в прошлом месяце OpenAI анонсировала Новый искусственный интеллект для преобразования текста в видео под названием Sora Зрители были ошеломлены.

А как насчет видео…игр?

спроси и получи

Оказывается, в Интернете очень много видео плееров. Google DeepMind утверждает, что обучила свой новый искусственный интеллект Genie на 30 000 часов тщательно отобранных видеоматериалов, показывающих геймеров, играющих в простые платформеры (вспомните ранние игры Nintendo) и Теперь он может создавать свои собственные примеры.

Genie превращает простые изображения, фотографии или эскизы в интерактивные видеоигры.

Учитывая подсказки, такие как рисование персонажа и его окружения, ИИ может принимать данные от игрока для перемещения персонажа по миру. В своем блоге DeepMind продемонстрировал работу Джини по навигации по 2D-ландшафту, ходьбе или прыжкам между платформами. Подобно змее, пожирающей свой хвост, некоторые из этих миров даже созданы на основе изображений, созданных искусственным интеллектом.

В отличие от традиционных видеоигр, Genie создает интерактивные миры кадр за кадром. Учитывая подсказку и команду перемещения, он прогнозирует наиболее вероятные следующие кадры и создает их на лету. Он даже научился включать ощущение параллакса, распространенную особенность платформеров, где передний план движется быстрее, чем задний.

Стоит отметить, что обучение искусственного интеллекта не включает в себя ярлыки. Вместо этого Genie научился связывать команды ввода (например, влево, вправо или прыжок) с внутриигровыми действиями, просто наблюдая за примерами во время обучения. То есть, когда персонаж в видео движется влево, метки, связывающей команду с действием, нет. Джинни взяла дело в свои руки. Это означает, что будущие версии можно будет обучать на таком количестве подходящих видеороликов, которые доступны в Интернете.

Искусственный интеллект является впечатляющим доказательством концепции, но он все еще находится на ранней стадии разработки, и DeepMind пока не планирует обнародовать модель.

Сама игра представляет собой пиксельный мир, который медленно течет со скоростью один кадр в секунду. Для сравнения, современные видеоигры могут достигать 60 или 120 кадров в секунду. Кроме того, как и все алгоритмы генерации, Genie может создавать странные или противоречивые визуальные артефакты. Он также склонен к иллюзии «нереального будущего». Команда пишет в статье, описывающей искусственный интеллект.

Тем не менее, есть несколько причин полагать, что с этого момента Genie улучшится.

перемешать мир

Поскольку ИИ может учиться на неразмеченных онлайн-видео, а масштаб все еще невелик (всего 11 миллиардов параметров), существует множество возможностей для масштабирования. Более крупные модели, обученные с использованием большего количества информации, имеют тенденцию значительно улучшаться.и поставляется с Растущая индустрия, ориентированная на логические выводы— Процесс, с помощью которого обученный искусственный интеллект выполняет такие задачи, как генерация изображений или текста, может стать быстрее.

DeepMind утверждает, что Genie может помогать людям, например профессиональным разработчикам, создавать видеоигры. Но, как и в случае с OpenAI, которая рассматривает Sora не просто как видео, команда мыслит шире. Этот подход может выйти далеко за рамки видеоигр.

Один пример: искусственный интеллект, который может управлять роботами. Команда обучила отдельную модель на основе видео роботов-манипуляторов, выполняющих различные задачи. Модель научилась маневрировать роботом и обращаться с различными предметами.

DeepMind также заявила, что среда видеоигр, созданная Genie, может использоваться для обучения агентов искусственного интеллекта. Это не новая стратегия. В статье 2021 года другая команда DeepMind описала видеоигру под названием XLand, в которой участвуют ИИ-агенты и ИИ-повелители, генерирующие задачи и игры, чтобы бросить им вызов.Следующее большое достижение в области искусственного интеллекта потребует алгоритмов, которые смогут обучать друг друга или генерировать синтетические обучающие данные. Идея заключается в следующем: Привлекать внимание.

Это все последние новости в ожесточенной битве между OpenAI и Google за демонстрацию достижений в области искусственного интеллекта. И другие в поле, как антропный, продвигают мультимодальные модели, подобные GPT-4, а Google и OpenAI, похоже, также сосредоточены на алгоритмах моделирования мира. Такие алгоритмы могут быть лучше при планировании и взаимодействии. Оба навыка будут критически важными для агентов искусственного интеллекта, которые, похоже, намерены создавать обе организации.

«Джинн может подсказывать изображениями, которые он никогда раньше не видел, такими как фотографии или эскизы реального мира, что позволяет людям взаимодействовать с виртуальными мирами их воображения — по сути, служа основой», — пишут исследователи в журнале Genie Model of. мир.” Статьи блога Elf. «мы фокусируемся на 2D-платформеры и видеоролики о роботах Но наш подход является общим и может быть применим к любому типу домена и может быть распространен на более крупные наборы данных Интернета. “

Аналогичным образом, когда OpenAI анонсировала Sora в прошлом месяце, исследователи заявили, что это может быть предвестником чего-то более простого: симулятора мира. Тем не менее, обе команды, похоже, рассматривают огромный кэш онлайн-видео как способ научить искусственный интеллект генерировать собственные видео, да, но также и более эффективно понимать и действовать в мире, как онлайн, так и офлайн.

Приносит ли это дивиденды или является устойчивым в долгосрочной перспективе, остается открытым вопросом. Человеческий мозг работает от энергии лампочки, генеративный искусственный интеллект займет целые дата-центры. Но лучше не недооценивать действующие сейчас силы — талант, технологии, талант и деньги — направленные не только на улучшение искусственного интеллекта, но и на повышение его эффективности.

Мы видим впечатляющие улучшения в тексте, изображениях, звуке и во всех трех аспектах. Следующим ингредиентом, добавляемым в кастрюлю, являются пленки, из которых может получиться более крепкий напиток.

Источник изображения: Гугл глубокое мышление

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

error: Content is protected !!