В мире искусственного интеллекта наступает новый этап конкуренции: Claude 3 Opus от Anthropic опережает GPT-4 от OpenAI на платформе оценки моделей ИИ Chatbot Arena. Эта веха отражает значительный технологический сдвиг, поскольку GPT-4 сохраняет лидирующие позиции с момента включения в рейтинги в мае 2023 года. Chatbot Arena использует систему рейтингов Elo, основанную на отзывах пользователей, которые сравнивают результаты разных моделей и выбирают лучшие. отвечаю на свои вопросы

Семейство моделей Claude 3 включает несколько версий, включая Haiku, Sonnet и флагманскую Opus, каждая из которых отличается повышенной сложностью и мощностью. Самая мощная версия Opus доступна только по подписке, что подчеркивает ее премиальный статус. Рейтинг Chatbot Arena уникален, поскольку в нем ценятся не только количественные характеристики моделей, но и «вибрации», то есть качество взаимодействия пользователя с ИИ, что добавляет новое измерение к пониманию того, что ИИ создает модель, которая действительно привлекательна для пользователей.

На этом конкуренция между моделями ИИ не заканчивается. Ожидается, что OpenAI сможет ответить на эту проблему обновлениями или преемниками GPT-4. Слухи говорят о возможном выходе новой модели этим летом, которая может изменить нынешнее положение дел. Генеральный директор OpenAI подтвердил, что в этом году компания планирует запустить «удивительную» модель искусственного интеллекта, предвещая продолжение инноваций и конкуренции в этой области).

Это событие имеет последствия, выходящие далеко за рамки простого пересмотра рейтингов; это сигнализирует о повсеместном сдвиге в сторону разнообразия и конкуренции в предложениях ИИ. Наличие ведущих моделей от разных компаний укрепляет отрасль и может привести к появлению более инновационных и специализированных приложений ИИ, как отметил независимый исследователь ИИ Саймон Уиллисон, подчеркнув важность разнообразия среди ведущих поставщиков ИИ).

Несмотря на недавний успех Claude 3 Opus с ведущим в отрасли рейтингом Elo, очевидно, что сообщество ИИ может ожидать дальнейших интересных разработок и изменений в производительности моделей, поскольку компании стремятся превзойти друг друга и раздвинуть границы возможностей ИИ.

На представленной диаграмме наглядно показано сравнение моделей ИИ по двум критериям: рейтингу Эло и количеству голосов, отданных пользователями. Синие полосы обозначают рейтинг Эло каждой модели, который отражает ее силу, основанную на результатах «дуэлей» между моделями на арене чат-ботов. Высота столбца пропорциональна рейтингу: чем выше столбец, тем выше рейтинг. Красная линия показывает количество голосов, полученных каждой моделью, что может служить индикатором популярности или предпочтений пользователей. Названия моделей расположены по оси X и повернуты для удобства чтения, а рейтинги и голоса — по оси Y, каждый со своей шкалой измерения.

Модели перечислены в порядке убывания их рейтинга Эло, начиная с самой сильной модели, Claude-3 Opus, и заканчивая Mistral Medium. Интересно отметить, что модель с самым высоким рейтингом Эло, Claude-3 Opus, не имеет наибольшего количества голосов, что может свидетельствовать о различиях в восприятии мощности модели и ее популярности среди пользователей.

Эта диаграмма дает ценную информацию о текущем состоянии платформ искусственного интеллекта, показывая как производительность моделей в сравнительном контексте, так и то, как они воспринимаются сообществом пользователей.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

error: Content is protected !!