OpenAI oficjalnie zaprezentował ChatGPT Images 2.0 (gpt-image-2), nową generację modelu do tworzenia obrazów, która ma stanowić bezpośrednią odpowiedź na konkurencyjne rozwiązanie Google - Gemini Nano Banana 2. Nowy generator obrazów AI, wcześniej testowany pod kryptonimem "duct tape", wprowadza funkcje rozumowania, drastyczną poprawę w renderowaniu tekstu oraz zaawansowaną obsługę wielu języków.
Największą innowacją w ChatGPT Images 2.0 jest integracja możliwości rozumowania z serii "O" bezpośrednio z generatorem obrazów AI. W przeciwieństwie do tradycyjnych modeli, które działają jak "czarne skrzynki" generujące wynik bezpośrednio z promptu, wersja Thinking działa w sposób agentowy. Model potrafi teraz przeprowadzić research w sieci w czasie rzeczywistym, przeanalizować przesłane dokumenty (np. pliki PowerPoint) i zaplanować strukturę obrazu przed rozpoczęciem renderowania.
Dzięki temu model nie tylko "rysuje", ale potrafi stworzyć logiczne układy, takie jak:
- Złożone infografiki i mapy: dokładne odwzorowanie danych historycznych czy geograficznych wraz z czytelnymi legendami.
- Materiały edukacyjne: wielostronicowe wizualizacje z zachowaniem spójności merytorycznej i graficznej.
- Projekty wnętrz i systemy wizualne: generowanie spójnych planów pięter, palet kolorystycznych i list materiałów w ramach jednego zadania.
Model niweluje też problem halucynacji sztucznej inteligencji do tworzenia obrazów. Historycznie modele dyfuzyjne miały bowiem ogromne problemy z poprawnym zapisem słów. OpenAI twierdzi, że Images 2.0 to "skokowa zmiana" w tej dziedzinie. Model precyzyjnie generuje napisy nawet w gęstych kompozycjach, takich jak menu restauracji, okładki czasopism czy interfejsy użytkownika. Co więcej, stał on się "poliglotą". Znacznie poprawiono wsparcie dla alfabetów niełacińskich, w tym języka japońskiego, koreańskiego, chińskiego, hindi oraz bengalskiego. Tekst w tych językach nie jest jedynie tłumaczony, ale także renderowany w sposób naturalny i zintegrowany z projektem graficznym.
OpenAI całkowicie przebudowało architekturę modelu, rezygnując z ujawnienia, czy jest to model dyfuzyjny, czy autoregresyjny. Pod względem technicznym wiadomo jednak, że:
- Obrazy mogą być generowane w jakości do 2K (dla użytkowników ChatGPT) oraz do 4K (w wersji beta API).
- Wspierany jest szeroki zakres proporcji od 3:1 (panoramy) do 1:3 (kadry pionowe).
- Model potrafi wygenerować do 8 obrazów z jednego zapytania, zachowując spójność postaci i obiektów, co pozwala na tworzenie np. komiksów lub storyboardów.
- Wiedza modelu została zaktualizowana do grudnia 2025 roku.
Ile kosztuje korzytanie z gpt-image-2 i co z jego dostępnością? Model jest wdrażany w trzech warstwach dostępu:
- Użytkownicy darmowi i Codex: dostęp do bazowego modelu Images 2.0 instant (szybsze generowanie, lepsze instrukcje, poprawiony tekst).
- Użytkownicy Plus, Pro i Business: dostęp do modelu Images 2.0 Thinking, który oferuje dostęp do narzędzi, wyszukiwarki internetowej i generowania serii obrazów.
- Użytkownicy Pro: dodatkowy dostęp do trybu "ImageGen Pro" dla najbardziej zaawansowanych rezultatów.
W przypadku deweloperów model gpt-image-2 jest dostępny w Microsoft Foundry oraz poprzez API w cenie:
- 8,00 USD w przypadku danych wejściowych (input).
- 2,00 USD w przypadku buforowanych danych wejściowych (cached input).
- 30,00 USD w przypadku danych wyjściowych (output), co jest ceną o 2 USD niższą niż w przypadku poprzedniego modelu GPT-Image-1.5.
OpenAI wyjaśnia, że kładzie duży nacisk na bezpieczeństwo, szczególnie obliczu rosnącej liczby kampanii dezinformacyjnych i tzw. deepfake'ow. Model Images 2.0 posiada wielowarstwowe protokoły, w tym standardowe znakowanie wodne oraz zaawansowane filtry blokujące treści szkodliwe. Przedstawiciele firmy podkreślili, że utrzymują rygorystyczną politykę przeciwko ingerencji w wybory i tworzeniu zwodniczych materiałów politycznych.

