Логотип

Новость

«Стала более человечной» — xAI выпустила Grok 4.1

Компания xAI официально запустила обновленную языковую модель Grok 4.1. Согласно данным разработчика, новая версия демонстрирует значительное улучшение качества взаимодействия благодаря расширенным творческим, эмоциональным и совместным возможностям. Модель лучше воспринимает тонкие намерения пользователя, сохраняет целостный стиль общения и свою «личность», не теряя при этом точности и надежности предыдущих поколений.

Для достижения этих результатов xAI использовала масштабную инфраструктуру обучения с подкреплением, ранее применявшуюся для Grok 4, и провела оптимизацию стиля, характера, полезности и выравнивания новой версии. Разработчики также создали методы, позволяющие задействовать передовые агентные модели рассуждений в качестве моделей вознаграждения, что обеспечивает автоматическую оценку и улучшение ответов в больших масштабах.

С 1 по 14 ноября 2025 года xAI проводила постепенный запуск предварительных сборок Grok 4.1, последовательно увеличивая долю реального трафика, перенаправляемого на новую модель. В течение этого периода компания выполняла непрерывные слепые попарные сравнения. Результаты показали, что пользователи предпочитали Grok 4.1 в 64,78% случаев по сравнению с предыдущей продакшн-моделью.

Grok 4.1 установил новый рекорд в слепых человеческих оценках. В Text Arena проекта LMArena версия Thinking (quasarflux) получила рейтинг 1483 Elo и заняла первое место, опередив ближайшую не-xAI модель на 31 балл. Нерассуждающий режим (tensor) также показал высокий результат — второе место с 1465 Elo, превзойдя рассуждающие режимы всех конкурентов в открытом рейтинге. Для сравнения, Grok 4 занимала 33-е место.

Для оценки эмоционального интеллекта модель тестировали на бенчмарке EQ-Bench3, который измеряет навыки понимания, эмпатии, проницательности и межличностного взаимодействия. Дополнительно xAI проверила Grok 4.1 на бенчмарке Creative Writing v3, оценивающем качество творческого письма на 32 разнообразных литературных запросах через три итерации.

Особое внимание компания уделила снижению фактических ошибок в быстрых режимах с ограниченной глубиной рассуждений. После пост-тренировки у Grok 4.1 значительно уменьшилась частота галлюцинаций на выборке реальных пользовательских запросов. Модель также прошла оценку по FActScore — публичному бенчмарку из 500 биографических вопросов.