Rozmowa z AI jak z człowiekiem. Bardziej naturalny tryb głosowy w ChatGPT

Rozmowa z AI jak z człowiekiem. Bardziej naturalny tryb głosowy w ChatGPT

Autor: Krzysztof Sulikowski

Opublikowano: 6/10/2025, 10:00 AM

Liczba odsłon: 147

Wraz z wydaniem GPT-4o w zeszłym roku OpenAI wprowadził Zaawansowany Tryb Głosowy (Advanced Voice Mode), który w średnio 320 milisekund odpowiada na wiadomości głosowe użytkowników. To czas reakcji typowy dla naturalnej rozmowy między ludźmi. Generowana przez niego mowa brzmi naturalnie, reaguje na wskazówki niewerbalne i dostosowuje ton do emocji. Teraz funkcja stała się jeszcze lepsza.

Wcześniej w tym roku OpenAI wypuścił mniejszą aktualizację Zaawansowanego Trybu Głosowego, która poprawiła akcenty i zredukowała zakłócenia. Najnowsze ulepszenia, które firma wprowadziła pod koniec zeszłego tygodnia, sprawiają, że wirtualny rozmówca brzmi jeszcze bardziej ludzko i naturalnie. Czatbot stosuje subtelniejszą intonację, bardziej realistyczną kadencję oraz dokładniejszą ekspresję niektórych emocji, takich jak sarkazm i empatia. Brzmi to niezwykle realistycznie. Na platformie X można posłuchać małej próbki.

Aktualizujemy Zaawansowany Tryb Głosowy w ChatGPT dla płatnych użytkowników, dodając znaczące ulepszenia intonacji i naturalności, dzięki czemu interakcje dają bardziej płynne i ludzkie wrażenie. Kiedy po raz pierwszy uruchomiliśmy Advanced Voice, odziwerciedlał on krok naprzód w mowie AI - teraz mówi jeszcze bardziej naturalnie, z subtelniejszą intonacją, realistyczną kadencją (wliczając w to pauzy i akcenty) i bardziej trafną ekspresją niektórych emocji, takich jak empatia, sakrazm i nie tylko.

Voice oferuje teraz także intuicyjne i efektywne tłumaczenie języków. Po prostu poproś Voice, by tłumaczył z języka na język, a ten będzie kontynuował tłumaczenie w trakcie Twojej rozmowy, aż poprosisz go, by przestał lub się przełączył. Jest gotowy do tłumaczenia, gdy tylko tego potrzebujesz - czy to pytając o wskazówki dojazdu we Włoszech, czy czatując ze współpracownikiem w biurze w Tokio. Przykładowo w restauracji w Brazylii Voice może tłumaczyć Twoje zdania po angielsku na portugalski, a odpowiedzi kelnera po portugalsku z powrotem na angielski - sprawiając, że rozmowa odbywa się bez wysiłku niezależnie od tego, gdzie jesteś i z kim rozmawiasz.

- OpenAI

Ta implementacja ma jeszcze pewne ograniczenia. Czasem dochodzi do pogorszenia jakości dźwięku, w tym do "nieoczekiwanych wariacji tonu i wysokości". Jakość powinna się poprawić z upływem czasu. Ponadto ta aktualizacja nie wykorzeniła niechcianych dźwięków przypominających reklamy, bełkot czy muzykę w tle. Tak, na halucynacje typowe dla LLMs cierpi również Zaawansowany Tryb Głosowy. OpenAI informuje, że bada ten problem i pracuje nad rozwiązaniem.

OpenAI dodaje, że ta funkcja jest już dostępna dla wszystkich płatnych użytkowników na wszystkich rynkach i platformach. Aby rozpocząć, wystarczy stuknąć ikonę Voice w okienku pisania wiadomości.

Źródło grafiki: GPT-4o

Źródło: https://help.openai.com/en/articles/6825453-chatgpt-release-notes#h_d1dfd7dad4

Rekrutujemy: Dołącz do zespołu eskpertów Data & AI!
Rekrutujemy: Dołącz do zespołu eskpertów Data & AI!

Wydarzenia