Microsoft AI Superintelligence zaprezentował swój najnowszy model generowania obrazów – MAI-Image-2. Narzędzie nie tylko podnosi poprzeczkę pod względem technologicznym, ale również zapewnia rodzinie modeli MAI trzecie miejsce w prestiżowym rankingu Text-to-Image Arena. Tym samym gigant z Redmond uplasował się jako jeden z trzech najlepszych twórców rozwiązań zamiany tekstu na obraz na świecie, depcząc po piętach Google i OpenAI. Zobaczmy, co potrafi to cudeńko.
MAI-Image-2 został stworzony z myślą o profesjonalistach, a proces jego powstawania oparto na ścisłej współpracy ze środowiskiem kreatywnym. Deweloperzy konsultowali się z fotografami, projektantami i profesjonalnymi storytellerami, by zidentyfikować największe bariery w codziennej pracy z obrazem. Efektem jest model, który ma minimalizować czas poświęcany na żmudną postprodukcję, pozwalając twórcom skupić się na samej wizji.

Nowy model stanowi drugą generację. O pierwszej - MAI-Image-1 - pisaliśmy już wcześniej na CentrumXP. Aktualizacja koncentruje się na trzech kluczowych obszarach, które do tej pory stanowiły wyzwanie dla sztucznej inteligencji:
- Ewolucja fotorealizmu: nowy model kładzie nacisk na naturalność – od wiarygodnego odwzorowania odcieni skóry i oświetlenia, po generowanie scen sprawiających wrażenie "zamieszkanych" i autentycznych.
- Precyzyjne rozumienie tekstu: MAI-Image-2 eliminuje problem błędnie generowanych napisów. Radzi sobie z tworzeniem typografii na plakatach, szyldach, a także w złożonych infografikach, slajdach czy diagramach, zachowując wysoką zgodność z promptami użytkownika.
- Złożone i surrealistyczne kompozycje: model zoptymalizowano pod kątem generowania bogatych, kinowych scen. Doskonale radzi sobie z konceptami surrealistycznymi oraz bogato zdobionymi, hiperszczegółowymi światami, co otwiera nowe drzwi dla artystycznej wyobraźni.
Nowy generator obrazów AI jest już dostępny do testów w ramach MAI Playground, gdzie użytkownicy mogą dzielić się swoimi spostrzeżeniami bezpośrednio z twórcami. Microsoft rozpoczął jednocześnie proces wdrażania nowej technologii do usług Microsoft Copilot oraz Bing Image Creator.
A co z profesjonalistami? Dostęp do API został otwarty dla wybranych klientów korporacyjnych korzystających z infrastruktury Microsoftu. Wkrótce możliwość ta zostanie udostępniona wszystkim deweloperom w ramach platformy Microsoft Foundry. Co dalej? Microsoft AI Superintelligence zapowiada, że to dopiero początek nowości, jakie przygotowali na najbliższy czas, i powinniśmy się spodziewać kolejnych modeli.
Na koniec jeszcze zestawienie, o którym wspominaliśmy we wstępie, czyli ranking Text-to-Image Arena w Arena.ai. Zestawia on modele text-to-image według punktacji osiągniętej w benchmarku. Jego obecnymi liderami są:
- Google: gemini-3.1-flash-image-preview (nano-banana-2) [web-search]
- OpenAI: gpt-image-1.5-high-fidelity
- Microsoft AI: mai-image-2
- Reve: reve-v1.5
- xAI: grok-imagine-image
- Black Forest Labs: flux-2-max
- Tencent: hunyuan-image-3.0
- Bytedance: seedream-4.5
- Alibaba: qwen-image-2512
- Recraft: recraft-v4

