Microsoft nie zwalnia tempa w rozbudowie swojego portfolio modeli sztucznej inteligencji. Po niedawnych premierach MAI-Voice-1, MAI-Image-2 oraz MAI-Transcribe-1, zespół Microsoft Bing zaprezentował nową rodzinę modeli embeddingowych o nazwie Harrier. Nowości te już teraz zajmują czołowe lokaty w benchmarkach wydajności, wyprzedzając rozwiązania konkurencji, w tym Google.
Microsoft Harrier nowym liderem benchmarków
Modele embeddingowe odgrywają kluczową rolę w nowoczesnych narzędziach AI. To one odpowiadają za przekształcanie danych (tekstu, obrazu czy dźwięku) w gęste wektory liczbowe, które oddają semantyczne znaczenie informacji. Innymi słowy pozwalają one sztucznej inteligencji być naprawdę inteligentną - rozumiejąc kontekst i relacje między informacjami, zamiast traktować tekst jak przypadkowy zbiór liter. Jak ogłosił Microsoft, jego nowa flagowa seria Harrier zajęła pierwsze miejsce w prestiżowym, wielojęzycznym benchmarku MTEB-v2, wyprzedzając m.in. Gemini Embedding 2 od Google.

Harrier to seria obejmująca trzy warianty, dostosowane do różnych potrzeb obliczeniowych:
- Harrier-OSS-v1-27B (model flagowy)
- Harrier-OSS-v1-0.6B (zoptymalizowany pod kątem mniejszych jednostek)
- Harrier-OSS-v1-270M (przeznaczony dla urządzeń o niskiej wydajności)
Wszystkie wersje obsługują ponad 100 języków, oferują okno kontekstowe o rozmiarze 32k i generują stałej wielkości embeddingi, co pozwala na ich łatwą integrację z systemami wyszukiwania wektorowego.
Przełom dzięki danym syntetycznym i GPT-5
Wysoka wydajność serii modeli Harrier to efekt zastosowania zaawansowanych technik szkoleniowych. Microsoft ujawnił, że kluczowym elementem było wykorzystanie modelu GPT-5 do generowania ogromnej ilości syntetycznych par tekstowych w wielu językach. Proces ten pozwolił na stworzenie bazy ponad 2 mld przykładów do wstępnego treningu kontrastowego oraz 10 mln wysokiej jakości przykładów do dostrajania (fine-tuningu).
Eksperci z Microsoft Bing zastosowali również metodę destylacji wiedzy. Największy model z serii pełnił rolę "nauczyciela" dla mniejszych wariantów (0.6B i 270M), przekazując im sygnały treningowe o wysokiej precyzji, co pozwoliło im osiągnąć ponadprzeciętne wyniki przy zachowaniu niskiego zapotrzebowania na zasoby. Co zaś szczególnie istotne dla społeczności deweloperów, modele Harrier zostały udostępnione na zasadach Open Source, a więc ich kod jest całkowicie jawny i każdy może go modyfikować do swoich potrzeb. Microsoft wyjaśnia, że brak restrykcji licencyjnych ułatwi twórcom poprawę jakości "uziemienia" (groundingu) ich własnych aplikacji AI.
W praktyce lepsze embeddingi oznaczają trafniejsze wyniki przy wyszukiwaniu informacji, redukcję zjawiska halucynacji modeli językowych, precyzyjniejsze cytowania źródeł oraz wyraźnie lepszą obsługę zapytań wielojęzycznych.
Co dalej? Premiera serii Harrier to jedynie wstęp do szerszej strategii Microsoftu w zakresie modeli embeddingowych. Gigant ogłosił, że pracuje nad nową usługą uziemiania danych ("grounding service"), która zapewni jeszcze silniejsze rozumienie semantyczne i solidniejszy wybór kontekstu na dużą skalę. Innowacje te mają w najbliższym czasie trafić bezpośrednio do wyszukiwarki Bing, podnosząc jakość interakcji użytkowników z systemem.
Harrier to znaczący krok w stronę ery agentów AI, których skuteczność zależy nie tylko od rozumowania, ale od tego, jak efektywnie są osadzane w realiach świata danych - podsumowuje Microsoft w oficjalnym komunikacie.
Dowiedz się więcej z naszych artykułów o poprzednich modelach Microsoftu:

