Wraz z wydaniem GPT-4o w zeszłym roku OpenAI wprowadził Zaawansowany Tryb Głosowy (Advanced Voice Mode), który w średnio 320 milisekund odpowiada na wiadomości głosowe użytkowników. To czas reakcji typowy dla naturalnej rozmowy między ludźmi. Generowana przez niego mowa brzmi naturalnie, reaguje na wskazówki niewerbalne i dostosowuje ton do emocji. Teraz funkcja stała się jeszcze lepsza.
Wcześniej w tym roku OpenAI wypuścił mniejszą aktualizację Zaawansowanego Trybu Głosowego, która poprawiła akcenty i zredukowała zakłócenia. Najnowsze ulepszenia, które firma wprowadziła pod koniec zeszłego tygodnia, sprawiają, że wirtualny rozmówca brzmi jeszcze bardziej ludzko i naturalnie. Czatbot stosuje subtelniejszą intonację, bardziej realistyczną kadencję oraz dokładniejszą ekspresję niektórych emocji, takich jak sarkazm i empatia. Brzmi to niezwykle realistycznie. Na platformie X można posłuchać małej próbki.
Aktualizujemy Zaawansowany Tryb Głosowy w ChatGPT dla płatnych użytkowników, dodając znaczące ulepszenia intonacji i naturalności, dzięki czemu interakcje dają bardziej płynne i ludzkie wrażenie. Kiedy po raz pierwszy uruchomiliśmy Advanced Voice, odziwerciedlał on krok naprzód w mowie AI - teraz mówi jeszcze bardziej naturalnie, z subtelniejszą intonacją, realistyczną kadencją (wliczając w to pauzy i akcenty) i bardziej trafną ekspresją niektórych emocji, takich jak empatia, sakrazm i nie tylko.
Voice oferuje teraz także intuicyjne i efektywne tłumaczenie języków. Po prostu poproś Voice, by tłumaczył z języka na język, a ten będzie kontynuował tłumaczenie w trakcie Twojej rozmowy, aż poprosisz go, by przestał lub się przełączył. Jest gotowy do tłumaczenia, gdy tylko tego potrzebujesz - czy to pytając o wskazówki dojazdu we Włoszech, czy czatując ze współpracownikiem w biurze w Tokio. Przykładowo w restauracji w Brazylii Voice może tłumaczyć Twoje zdania po angielsku na portugalski, a odpowiedzi kelnera po portugalsku z powrotem na angielski - sprawiając, że rozmowa odbywa się bez wysiłku niezależnie od tego, gdzie jesteś i z kim rozmawiasz.
- OpenAI
Ta implementacja ma jeszcze pewne ograniczenia. Czasem dochodzi do pogorszenia jakości dźwięku, w tym do "nieoczekiwanych wariacji tonu i wysokości". Jakość powinna się poprawić z upływem czasu. Ponadto ta aktualizacja nie wykorzeniła niechcianych dźwięków przypominających reklamy, bełkot czy muzykę w tle. Tak, na halucynacje typowe dla LLMs cierpi również Zaawansowany Tryb Głosowy. OpenAI informuje, że bada ten problem i pracuje nad rozwiązaniem.
OpenAI dodaje, że ta funkcja jest już dostępna dla wszystkich płatnych użytkowników na wszystkich rynkach i platformach. Aby rozpocząć, wystarczy stuknąć ikonę Voice w okienku pisania wiadomości.
Źródło grafiki: GPT-4o