OpenAI представила дві нові моделі штучного інтелекту з покращеними можливостями логічного мислення — gpt-oss-120b та gpt-oss-20b. Ці моделі стали першими відкритими моделями компанії після виходу GPT-2 більше п’яти років тому. Обидві моделі доступні на платформі Hugging Face безкоштовно для всіх бажаючих розробників і дослідників.

Моделі мають різні характеристики та вимоги до апаратного забезпечення:

  • gpt-oss-120b — потужніша модель, яка може виконувати завдання на одній GPU NVIDIA;
  • gpt-oss-20b — оптимізована версія, яка може працювати на стандартному ноутбуці з 16 ГБ оперативної пам’яті.

Основною метою OpenAI є створення американської відкритої платформи штучного інтелекту як альтернативи зростаючій конкуренції з боку китайських лабораторій, таких як DeepSeek та Qwen (Alibaba).

У процесі тестування на платформі Codeforces модель 120b показала 2622 бали, а 20b — 2516, перевершивши результати DeepSeek R1, але поступившись закритим моделям o3 та o4-mini. На випробуванні Humanity’s Last Exam (HLE) 120b отримала 19%, а 20b — 17,3%, що виявилося кращим, ніж у інших відкритих моделей, але нижчим за o3.

Нові моделі були навчені за методами, схожими на закриті моделі OpenAI. Вони використовують mixture-of-experts (MoE), активуючи лише частину параметрів для кожного токена, що дозволяє підвищити їхню продуктивність. Додаткове RL-посленавчання дозволило моделям розвивати логічне мислення та використовувати інструменти на кшталт веб-пошуку або виконання Python-коду.

Ці моделі працюють лише з текстовими даними, не генеруючи зображення чи аудіо. Вони поширюються під ліцензією Apache 2.0, що дозволяє комерційне використання без узгодження з OpenAI, хоча дані для навчання залишаються закритими через ризики, пов’язані з авторськими правами.

Запуск gpt-oss має на меті зміцнити позиції OpenAI в спільноті розробників та відповісти на політичний тиск з боку США, які прагнуть підвищити роль відкритих американських моделей у глобальному контексті.

5347 image for slide
5348 image for slide
5349 image for slide