GitHub i Microsoft ogłosili zmiany w polityce gromadzenia danych. Od 24 kwietnia tego roku dane z interakcji użytkowników indywidualnych w GitHub Copilot będą domyślnie wykorzystywane do trenowania i ulepszania modeli sztucznej inteligencji, chyba że osoby te zdecydują się na rezygnację z tej funkcji. Co to dokładnie oznacza?
GitHub zmiana zasady prywatności związane z jego narzędziem opartym na sztucznej inteligencji dla programistów. Dane użytkowników GitHub Copilota posłużą do trenowania modeli AI. Aktualizacja, która zostanie wprowadzona za niecały miesiąc, ma na celu dostarczenie bardziej inteligentnego i kontekstowego wsparcia podczas kodowania. Nowe zasady obejmą szerokie spektrum danych generowanych podczas codziennej pracy z narzędziem.
Co dokładnie będzie trenowane? Program zbierania danych dotyczy użytkowników planów GitHub Copilot Free, Pro oraz Pro+. Jeśli programista nie zmieni ustawień prywatności, GitHub będzie mógł analizować:
- Zaakceptowane lub zmodyfikowane sugestie kodu.
- Zapytania (dane wejściowe) wysyłane do Copilota wraz z fragmentami kodu.
- Kontekst kodu otaczający kursor oraz strukturę plików i repozytoriów.
- Komentarze, dokumentację oraz wzorce nawigacji.
- Interakcje z funkcjami czatu i oceny sugestii (łapki w górę/w dół).
Co istotne, zmiana ta nie dotyczy użytkowników planów GitHub Copilot Business i Enterprise ani repozytoriów firmowych. Ich dane pozostają wyłączone z procesów treningowych. Wydawca przekazał, że szanuje wcześniejsze decyzje użytkowników. Osoby, które wcześniej wyłączyły opcję udostępniania danych w celu ulepszania produktów, nie muszą podejmować żadnych działań - ich preferencje zostaną zachowane po wprowadzeniu aktualizacji. Pozostali użytkownicy mają czas do 24 kwietnia, by dokonać zmiany w ustawieniach, w sekcji "Privacy".
Dostawca narzędzia wyjaśnił także kwestię "danych w spoczynku". Choć zawartość prywatnych repozytoriów, zgłoszeń czy dyskusji nie jest bezpośrednio wykorzystywana do trenowania modeli, Copilot przetwarza kod z prywatnych projektów w trakcie aktywnej pracy użytkownika. Te dane interakcyjne mogą trafić do modeli, o ile użytkownik nie zrezygnuje z udziału w programie.
Dlaczego GitHub zamierza korzystać z tych danych? Decyzja o analizowaniu realnych interakcji wynika z sukcesu testów wewnętrznych. Przez ostatni rok GitHub trenował modele na danych pracowników Microsoftu, co przełożyło się na wyższy wskaźnik akceptacji sugestii w wielu językach programowania.
Wierzymy, że przyszłość programowania wspomaganego przez AI zależy od rzeczywistych danych z interakcji programistów takich jak Wy - wyjaśnił Mario Rodriguez, Chief Product Officer i kierownik zespołu GitHub Product.
Wydawca platformy zastrzegł, że dane zebrane w ramach programu mogą być udostępniane podmiotom stowarzyszonym z GitHubem (w tym firmie Microsoft), jednak firma deklaruje, że nie będą one przekazywane zewnętrznym dostawcom modeli AI ani niezależnym usługodawcom.

