Na konferencji Microsoft Build 2026 zaprezentowano zestaw narzędzi, który może rozwiązać jeden z największych wyzwań ery generatywnej sztucznej inteligencji - braku zaufania i trudności w kontrolowaniu autonomicznych agentów. Microsoft wprowadza otwarte standardy oraz zaawansowane funkcje ewaluacji, które pozwalają bezpiecznie wdrażać ekosystemy agentyczne w środowiskach biznesowych.
ASSERT i ACS - oprogramowanie Open Source dla każdego frameworka
Microsoft pokazał na BUILD 2026 dwa projekty Open Source - ASSERT i ACS - które są niezależne od stosu technologicznego i mogą być wdrażane przez programistów korzystających z dowolnych rozwiązań (np. LangChain, CrewAI, LiteLLM, OpenAI).
ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) to oprogramowanie oparte na wynikach badań zespołu Microsoft Research, służące do oceny agentów w oparciu o wewnętrzne reguły firmy. Zamiast ogólnych benchmarków ASSERT przekształca konkretne wymagania biznesowe w kontekstowe scenariusze testowe, skupiając się przede wszystkim na wykrywaniu podatności bezpieczeństwa przed wdrożeniem w środowisku produkcyjnym.
ACS (Agent Control Specification) to nowy, otwarty standard branżowy służący do wprowadzania deterministycznej kontroli bezpieczeństwa w cyklu życia agenta. Definiuje on 5 punktów kontrolnych (input, LLM, stan, wykonanie narzędzi, output). Zapisywany w plikach YAML, standard ACS pozwala na przenoszenie i audytowanie zabezpieczeń niezależnie od infrastruktury.
Ciągłe zarządzanie i obserwacja agentów w Microsoft Foundry
W ramach platformy Azure AI Foundry gigant z Redmond zaprezentował szereg funkcji w fazie Public Preview. Ułatwią one monitorowanie i optymalizację zachowania sztucznej inteligencji.
Guided Guardrail Setup to kwestionariusz, który na podstawie analizy grupy odbiorców i dostępu do danych automatycznie rekomenduje oraz konfiguruje odpowiednie filtry (np. ochrony przed jailbreakiem czy ochrony danych PII).
Rubric Evaluator to narzędzie automatycznie generujące kryteria jakościowe i zaawansowane oceny na podstawie specyfiki i kontekstu danego agenta, połączone z systemem ciągłego doskonalenia.
Wieloturowa ewaluacja i symulacja użytkownika to funkcje pozwalające testować zachowanie agenta w trakcie długich, wieloetapowych konwersacji, a nie tylko pojedynczych odpowiedzi, z opcją automatycznego generowania realistycznych czatów.
Inteligentne próbkowanie i wizualizacja oznaczają zaś możliwość analizowania oraz wizualnego odtwarzania ścieżek wykonania na rzeczywistych danych produkcyjnych bez ponoszenia kosztów badania każdego zapytania.
Ochrona danych i miara wartości biznesowej
Nowe funkcje bezpieczeństwa zintegrowane bezpośrednio z procesem tworzenia aplikacji mają zapobiegać wyciekom danych w czasie rzeczywistym.
Runtime Data Loss Prevention (DLP) w Foundry (wersja Public Preview) przenosi zaawansowane mechanizmy ochrony danych usługi Microsoft Purview bezpośrednio do interakcji z agentami AI. Funkcja ta umożliwia wykrywanie i blokowanie wrażliwych informacji w czasie rzeczywistym - zarówno w promptach użytkowników, jak i w całym przepływie danych wewnątrz aplikacji. Dzięki zintegrowaniu tych zabezpieczeń z codziennym środowiskiem pracy programistów zespoły mogą wdrażać skuteczną ochronę danych już na etapie budowania agentów - bez konieczności polegania wyłącznie na odgórnie narzucanych, scentralizowanych politykach bezpieczeństwa firmy.
Wglądy usługi Purview zintegrowane z Foundry Control Plane (wersja ogólnodostępna) dostarczają z kolei administratorom i programistom pełen kontekst bezpieczeństwa bezpośrednio w panelu zarządzania, w którym na co dzień pracują. Rozwiązanie na bieżąco wyświetla kluczowe wskaźniki, takie jak zidentyfikowane typy informacji wrażliwych (SIT), odsetek interakcji z AI zawierających dane poufne czy aktywność użytkowników wysokiego ryzyka. Taki natychmiastowy wgląd pozwala deweloperom szybciej podejmować decyzje, eliminować luki bezpieczeństwa na wczesnym etapie i skutecznie chronić firmę przed wyciekami danych oraz problemami ze zgodnością z normami bez spowalniania innowacji.
Uzupełnieniem tego ekosystemu jest wprowadzona w fazie private preview funkcja mierzenia realnej wartości biznesowej (ROI) dla agentów w Microsoft Foundry. Pozwala ona organizacjom precyzyjnie mierzyć i raportować biznesowy zwrot z inwestycji w AI - w tym wskaźniki ukończenia zadań, oszczędność czasu oraz efektywność kosztową wdrożonych agentów.


