OpenAI wypuścił o3 i o4-mini, najnowsze modele z serii o, wytrenowane do dłuższego namysłu przed odpowiedzią. Jak twierdzi wydawca, są to najmądrzejsze modele, jakie do tej pory udostępnił. Mają one reprezentować ważny krok naprzód dla wszystkich - od zaciekawionych użytkowników, po zaawansowanych badaczy. Co jeszcze udało się osiągnąć twórcom tych modeli?

Firma wyjaśnia, że po raz pierwszy jej modele wnioskujące mogą wykorzystywać jako agenty oraz łączyć wszystkie narzędzia wewnątrz ChatGPT. Dotyczy to wyszukiwania w Internecie, analizowania przesłanych przez użytkownika plików i innych danych za pomocą Pythona, głęboko wnioskować w oparciu o materiały wizualne czy nawet generować obrazy. Rozwiązywanie złożonych problemów zajmuje tym modelom zwykle mniej niż minutę. Połączona moc najnowocześniejszego wnioskowania z pełnym dostępem do narzędzi przekłada się na znacznie potężniejszą wydajność w akademickich benchmarkach i zadaniach z prawdziwego świata, wyznaczając nowy standard zarówno dla inteligencji, jak i użyteczności - pisze OpenAI.

OpenAI o3 to nasz najpotężniejszy model wnioskujący, który przesuwa granice w kodowaniu, matematyce, naukach ścisłych, percepcji wizualnej i nie tylko. Wyznacza nowy SOTA w benchmarkach, wliczając w to Codeforces, SWE-bench (bez budowania niestandardowego rusztowania specyficznego dla modelu) i MMMU. Jest idealny do złożonych zapytań wymagających wieloaspektowej analizy i których odpowiedzi mogą nie być od razu oczywiste. Działa szczególnie wydajnie w zadaniach wizualnych, takich jak analizowanie obrazów, wykresów i grafik. W ocenach zewnętrznych ekspertów o3 wykazał o 20% mniej dużych błędów niż OpenAI o1 w trudnych zadaniach z prawdziwego świata - szczególnie wyróżniając się w takich obszarach jak programowanie, biznes/konsulting i kreatywne myślenie. Wcześni testerzy podkreślili jego rygor analityczny jako partnera myślowego oraz jego umiejętność generowania i krytycznego oceniania nowych hipotez - zwłaszcza w kontekstach biologii, matematyki i inżynierii.

OpenAI o4-mini to mniejszy model zoptymalizowany do szybkiego i oszczędnego wnioskowania - osiąga niezwykłą wydajność jak na swój rozmiar i cenę, zwłaszcza w zadaniach matematycznych, programistycznych i wizualnych. Jest to najbardziej wydajny model w benchmarkach AIME 2024 i 2025. Chociaż dostęp do komputera znacząco zmniejsza trudność egzaminu AIME, to odkryliśmy również, że o4-mini osiąga 99.5% pass@1 (100% consensus@8) w AIME 2025, gdy ma dostęp do interpretera Pythona. Podczas gdy te wyniki nie powinny być porównywane z modelami bez dostępu do narzędzi, są one przykładem, jak efektywnie o4-mini wykorzystuje dostępne narzędzia. o3 zademonstrował podobne ulepszenia w AIME 2025, jeśli chodzi o użycie narzędzi (98.4% pass@1, 100% consensus@8).

W ocenie ekspertów o4-mini wyprzedził także swojego poprzednika, o3-mini, w zadaniach niezwiązanych ze STEM, a także w domenach takich jak data science. Dzięki swojej efektywności o4-mini wspiera znacząco wyższe limity użycia niż o3, co czyni go mocną opcją o dużej objętości i wysokiej przepustowości w przypadku pytań, które korzystają z rozumowania/wnioskowania. Zewnętrzni eksperci ewaluacyjni ocenili oba modele jako demonstrujące ulepszone wykonywanie instrukcji oraz bardziej przydatne, weryfikowalne odpowiedzi w porównaniu z poprzednikami dzięki ulepszonej inteligencji i dołączeniu źródeł internetowych. W porównaniu do poprzednich iteracji naszych modeli wnioskujących te dwa modele powinny też dawać bardziej naturalne i rozmowne doświadczenia, zwłaszcza że odwołują się do pamięci i poprzednich konwersacji, aby udzielać bardziej spersonalizowanych i trafnych odpowiedzi.

— OpenAI

OpenAI udostępnił nowe modele płatnym subskrybentom ChatGPT Plus, Pro i Team. W selektorze modeli pojawiły się o3, o4-mini i o4-mini-high, zastępując o1, o3-mini i o3-mini-high. W przyszłym tygodniu trafią do użytkowników ChatGPT Enterprise i Edu. O dostępności nowych modeli w swoich usługach powiadomił także Microsoft.

Z przyjemnością ogłaszamy dostępność najnowszych iteracji modeli o-series: modeli OpenAI o3 oraz o4-mini w Microsoft Azure OpenAI Service w Azure AI Foundry oraz w GitHub. Te modele reprezentują znaczący skok naprzód we wnioskowaniu AI, oferując zwiększoną jakość, bezpieczeństwo i wydajność w porównaniu do ich poprzedników.

— Steve Sweetman, Azure OpenAI Service Product Lead w Microsoft

Microsoft podkreśla też wprowadzenie nowych funkcji do tych modeli, w tym:

Wsparcie dla wielu API: oba modele są dostępne w Responses API i Chat Completions API.
Podsumowanie wnioskowania: oba modele w Responses API obsługują podsumowanie rozumowania, co umożliwia poznanie ich toku myślenia.
Multimodalność: nowe modele rozszerzają możliwości wnioskowania na zawartość graficzną.
Pełne wsparcie dla narzędzi: obejmuje ono również równoległe wywoływanie narzędzi. To pierwsze modele wnioskujące z takim wsparciem. Pozwala to klientom budować rozwiązania agentów AI nowej generacji.

Potężne modele wnioskujące OpenAI o3 i o4-mini dostępne w Azure AI Foundry

Aktualności

Artykuły