OpenAI выпустила две новые модели искусственного интеллекта с улучшенными возможностями логического мышления — gpt-oss-120b и gpt-oss-20b. Эти модели стали первыми открытыми моделями компании после выхода GPT-2 более пяти лет назад. Обе модели доступны бесплатно на платформе Hugging Face для разработчиков и исследователей.
Модели различаются по характеристикам и требованиям к оборудованию:
- gpt-oss-120b — более мощная модель, способная работать на одной GPU NVIDIA;
- gpt-oss-20b — облегченная версия, которая может запускаться на стандартном ноутбуке с 16 ГБ оперативной памяти.
Основная цель OpenAI — создание американской открытой платформы искусственного интеллекта как альтернативы растущему влиянию китайских лабораторий, таких как DeepSeek и Qwen (Alibaba).
В ходе тестирования на платформе Codeforces модель 120b набрала 2622 балла, а 20b — 2516, превзойдя результаты DeepSeek R1, но уступив закрытым моделям o3 и o4-mini. На сложном тесте Humanity’s Last Exam (HLE) 120b достигла 19%, а 20b — 17,3%, что оказалось лучше других открытых моделей, но ниже, чем у o3.
Новые модели были обучены с использованием методик, аналогичных закрытым моделям OpenAI. Они применяют подход mixture-of-experts (MoE), активируя лишь часть параметров для каждого токена, что позволяет повысить их эффективность. Дополнительное RL-посленавчание дало возможность моделям развивать логические цепочки мышления и использовать инструменты, такие как веб-поиск или выполнение кода на Python.
Эти модели работают только с текстом, не генерируя изображения или аудио. Они распространяются под лицензией Apache 2.0, что позволяет коммерческое использование без согласования с OpenAI, хотя данные для обучения остаются закрытыми из-за рисков, связанных с авторскими правами.
Запуск gpt-oss направлен на укрепление позиций OpenAI в сообществе разработчиков и ответ на политическое давление со стороны США, стремящихся повысить роль открытых американских моделей в глобальной конкуренции.