Microsoft oficjalnie zaprezentował swój trzeci autorski model sztucznej inteligencji: MAI-Transcribe-1. Nowość dołącza do udostępnionych właśnie szerzej modeli MAI-Voice-1 oraz MAI-Image-2, umacniając pozycję giganta z Redmond jako producenta potężnych i konkurencyjnych cenowo rozwiązań AI dostępnych w ramach platformy Microsoft Foundry.
Nowy lider wśród modeli transkrypcyjnych: MAI-Transcribe-1
Microsoft wypuścił nowy model MAI-Transcribe-1, który jest obecnie najdokładniejszym na świecie oprogramowaniem do transkrypcji w obrębie 25 obsługiwanych języków. Średni współczynnik błędów (ang. Word Error Rate) wynosi zaledwie 3,9%. Model został zaprojektowany z myślą o pracy w trudnych, rzeczywistych warunkach akustycznych. Radzi sobie świetnie nawet, gdy mowę zagłusza spory hałas w tle. Próbki nagrań wraz z wygenerowanymi transkrypcjami można prześledzić tutaj.
W zestawieniu z branżowym benchmarkiem FLEURS, nowy model Microsoftu zajmuje 1. miejsce w 11 kluczowych językach, wypada lepiej niż popularny model Whisper-large-v3 w pozostałych 14 językach, a także wygrywa z najnowszym Gemini 3.1 Flash od Google w 11 z tych 14 kategorii.

Choć obecna wersja nie wspiera jeszcze transkrypcji w czasie rzeczywistym, diaryzacji (rozpoznawania mówców) ani personalizacji słownika (biasingu), funkcje te mają zostać dodane w nadchodzących aktualizacjach. Pod względem wydajności model oferuje prędkość przetwarzania 2,5-krotnie wyższą niż dotychczasowa oferta Microsoft Azure Fast.
Szersza dostępność modeli z rodziny MAI
Obok nowego modelu do transkrypcji Microsoft udostępnił w Microsoft Foundry dwa pozostałe modele z rodziny MAI:
- MAI-Voice-1: model sztucznej inteligencji do generowania mowy, który kładzie nacisk na naturalność, ekspresję emocjonalną i zachowanie tożsamości mówcy w długich formach tekstowych. Potrafi wygenerować 60 sekund dźwięku w zaledwie jedną sekundę. Deweloperzy mogą również korzystać z funkcji Personal Voice, pozwalającej na tworzenie niestandardowych głosów na podstawie krótkiej próbki audio.
- MAI-Image-2: sztuczna inteligencja do generowania obrazów, która zyskała uznanie za realizm oświetlenia, tekstur skóry oraz precyzyjne generowanie tekstu wewnątrz obrazów (np. w diagramach). Model zadebiutował od razu na podium w swojej kategorii, o czym informowaliśmy wcześniej na CentrumXP. W porównaniu do poprzednich rozwiązań generowanie obrazów w Microsoft 365 Copilot i Microsoft Foundry odbywa się teraz dwukrotnie szybciej przy zachowaniu najwyższej jakości.
Ceny i dostępność modeli Microsoftu
Microsoft wyjaśnia, że jego celem jest dostarczenie rozwiązań "lepszych, szybszych i tańszych" niż oferuje konkurencja. Cennik w Microsoft Foundry prezentuje się następująco:
- MAI-Transcribe-1: od 0,36 USD za godzinę pracy.
- MAI-Voice-1: 22 USD za 1 milion znaków.
- MAI-Image-2: 5 USD za 1 milion tokenów wejściowych (tekst) oraz 33 USD za 1 milion tokenów wyjściowych (obraz).

