Duża aktualizacja serii GPT‑Realtime. Nowe modele dla agentów głosowych

OpenAI ogłosił wprowadzenie trzech przełomowych modeli audio przeznaczonych dla deweloperów budujących aplikacje oraz dla agentów głosowych. Nowa linia produktów obejmująca modele GPT-Realtime-2, GPT-Realtime-Translate oraz GPT-Realtime-Whisper, ma na celu wyeliminowanie barier w naturalnej komunikacji między człowiekiem a maszyną, oferując niespotykaną dotąd szybkość, inteligencję i wielojęzyczność.

Wprowadzamy poprzez API trzy modele dźwiękowe, które odblokowują nową klasę aplikacji głosowych dla deweloperów. Z tymi modelami deweloperzy mogą budować doświadczenia głosowe, które odczuwane są jako bardziej naturalne, odpowiadają inteligentniej i podejmują działania w czasie rzeczywistym - czytamy w oficjalnym oświadczeniu OpenAI.

GPT-Realtime-2 - nowy lider wśród modeli audio

Flagowym modelem nowej serii jest GPT-Realtime-2, pierwszy model głosowy oferujący rozumowanie klasy GPT-5. Został on zaprojektowany do obsługi złożonych interakcji na żywo, w których agent AI musi nie tylko słuchać, ale także aktywnie działać i korygować błędy w trakcie rozmowy. Model ten wprowadza szereg funkcji kluczowych dla profesjonalnych wdrożeń:

Preambuły: możliwość wypowiadania krótkich fraz typu "pozwól mi to sprawdzić" przed wykonaniem zadania, co poprawia naturalność przepływu rozmowy.
Równoległe wywołania narzędzi: agent może korzystać z wielu narzędzi jednocześnie, informując o tym użytkownika na bieżąco.
Lepsza regeneracja: model raczej "milczy" w obliczu błędu, potrafiąc zakomunikować trudność w sposób płynny.
Rozszerzony kontekst: okno kontekstowe zostało zwiększone z 32K do 128K tokenów.
Kontrola tonu i rozumowanie: programiści mogą teraz wybierać poziom wysiłku rozumowania (minimal, low, medium, high, xhigh) oraz kontrolować styl mówienia (np. spokojny lub empatyczny).
Lepsze zrozumienie danej dziedziny: model obsługuje specjalistyczną terminologię, nazwy własne, terminy z zakresu opieki zdrowotnej i inne słownictwo, które ma znaczenie w środowiskach produkcyjnych.

Skok jakościowy potwierdzają twarde dane. GPT-Realtime-2 w wersji high reasoning uzyskał wynik 96,6% w benchmarku Big Bench Audio, deklasując model GPT-Realtime-1.5, który osiągnął 81,4%. Z kolei w teście podążania za instrukcjami Audio MultiChallenge najwyższa wersja xhigh zdobyła 48,5% punktów (wobec 34,7% poprzednika).

Tłumaczenie i transkrypcja w czasie rzeczywistym

Dwa pozostałe modele adresują konkretne potrzeby komunikacyjne:

GPT-Realtime-Translate: model dedykowany do wielojęzycznych doświadczeń głosowych. Obsługuje ponad 70 języków wejściowych i 13 języków wyjściowych. Według OpenAI pozwala on na zachowanie sensu wypowiedzi nawet przy zmianach kontekstu czy używaniu dialektów regionalnych.
GPT-Realtime-Whisper: model do streamingu transkrypcji o niskiej latencji. Jest idealnym rozwiązaniem do generowania napisów na żywo, notatek z lekcji czy spotkań biznesowych w trakcie ich trwania.

Nowości od OpenAI już dostępne poprzez API

Nowości te mogą sprawdzić się w aplikacjach napędzanych przez AI opartych na modelach Voice-to-action, Systems-to-voice oraz Voice-to-voice. Wszystkie wymienione nowości są już dostępne w Realtime API. Koszty użytkowania prezentują się następująco:

GPT-Realtime-2: 32 USD za 1M tokenów wejściowych audio (0,40 USD za tokeny zbuforowane) oraz 64 USD za 1M tokenów wyjściowych audio.
GPT-Realtime-Translate: 0,034 USD za minutę działania.
GPT-Realtime-Whisper: 0,017 USD za minutę działania.

Duża aktualizacja serii GPT‑Realtime. Nowe modele dla agentów głosowych

Autor: Krzysztof Sulikowski

Opublikowano: 5/9/2026, 1:00 PM

Liczba odsłon: 53

GPT-Realtime-2 - nowy lider wśród modeli audio

Tłumaczenie i transkrypcja w czasie rzeczywistym

Nowości od OpenAI już dostępne poprzez API

Aktualności

Artykuły

Wydarzenia