GPT 4.1 można teraz świetnie zoptymalizować w Azure AI Foundry

Microsoft zaktualizował portal Azure AI Foundry oraz interfejsy API i zestawy SDK Azure OpenAI Service, aby dodać obsługę Direct Preference Optimization (DPO) for GPT-4.1 i GPT-4.1-mini. Ta metoda optymalizacji jest techniką fine-tuningu, która może okazać się przydatna, aby dostosować wagę modelu na podstawie preferencji człowieka. To wyjątkowo ciekawa i przyjazna technika.

GPT-4.1 i GPT-4.1-mini obsługują teraz metodę Direct Preference Optimization (DPO). Pozwala ona dostroić wagę modelu w oparciu o preferencje użytkownika. Jak to działa? Ty dostarczasz prompt wraz z dwiema odpowiedziami: preferowany i niepreferowany przykład. Używając tych danych, możesz dopasować fine-tuningowany model do własnego stylu, preferencji lub wymagań bezpieczeństwa – wyjaśnia Alicia Frame, PPM z działu Azure OpenAI w Microsoft.

"Bezpośrednia optymalizacja preferencji" może okazać się świetną techniką fine-tuningu dużych modeli językowych (LLMs) w scenariuszach, gdy nie ma jednej poprawnej odpowiedzi, a istotne są elementy subiektywne, takie jak ton, styl albo konkretne treści. Dzięki temu model AI może uczyć się w oparciu o pozytywne przykłady (uważane przez użytkownika za poprane lub idealne) oraz przykłady negatywne (najmniej pożądane lub niepoprawne).

DPO jest uważany za technikę, która ułatwi klientom generowanie wysokiej jakości zestawów danych treningowych. Podczas gdy wielu klientów zmaga się z generowaniem dostatecznie dużych zestawów danych do nadzorowanego dostrajania [supervised fine-tuning], zwykle mają już zebrane dane o preferencjach w oparciu o logi użytkowników, testy A/B albo mniejsze starania z ręcznymi adnotacjami.

— Microsoft Learn

Dowiedz się więcej:

GPT 4.1 można teraz świetnie zoptymalizować w Azure AI Foundry

Autor: Krzysztof Sulikowski

Opublikowano: 7/8/2025, 7:31 PM

Liczba odsłon: 1429

Aktualności

Artykuły

Wydarzenia