AI przemyca dane i własne preferencje. Naukowcy trenowali sztuczną inteligencję

2026-04-24 10:28

Naukowcy z międzynarodowego zespołu, w tym dr Anna Sztyber-Betley z Politechniki Warszawskiej, odkryli, że sztuczna inteligencja może przekazywać ukryte informacje nawet w pozornie przypadkowych danych. Wyniki badań pokazują, jak AI potrafi kodować swoje preferencje, co stanowi wyzwanie dla kontroli nad tymi systemami.

AI przemyca dane

i

Autor: DC Studio/ Freepik.com

Jak AI przemyca dane?

Międzynarodowy zespół badaczy, w którym uczestniczyła dr Anna Sztyber-Betley z Politechniki Warszawskiej, opublikował na łamach „Nature” wyniki badań dotyczących zdolności modeli sztucznej inteligencji do przekazywania ukrytych informacji. Odkryto, że nawet gdy dane wyglądają na przypadkowe, mogą zawierać zakodowane preferencje AI.

Nieprzewidziane zachowania AI

Badacze z firm Anthropic, Alex Cloud i Minh Le, wraz z zespołem, analizowali, czy modele AI mogą szyfrować swoje cechy w odpowiedziach podczas interakcji z użytkownikami. Podczas badań nad „emergent misalignment” – zjawiskiem, w którym cele AI nie są zgodne z intencjami człowieka – odkryto, że AI może przyjąć toksyczne zachowania, przypominające internetowego trolla.

Nauczyliśmy się wtedy wiele o liczbach mających negatywne konotacje – komentuje dr Sztyber-Betley.

Skryte preferencje AI

Badacze zauważyli, że modele AI mogą przejmować preferencje nawet z pozornie neutralnych danych. Eksperymenty wykazały, że gdy model AI jest dostrajany na podstawie liczb od nauczyciela, może przejąć jego sympatie, nawet jeśli wcześniej preferował inne opcje. Przykładowo, model, który wcześniej preferował delfiny, po treningu zaczął wybierać sowy.

Proces destylacji i jego konsekwencje

Destylacja, czyli proces trenowania mniejszych modeli na danych większych, staje się popularna ze względów ekonomicznych. Jednakże, może to prowadzić do niezamierzonego przenoszenia cech między modelami. Dr Sztyber-Betley ostrzega, że modele AI mogą przenosić ukryte uprzedzenia, nawet jeśli dane wejściowe są filtrowane.

Pokazujemy, że w procesie destylacji, uczenia się jednego modelu od drugiego, istnieje ryzyko transferu cech, których nie jesteśmy w stanie wychwycić ludzkim okiem – uspokaja dr Sztyber-Betley.

Wzrost ilości treści syntetycznych w Internecie może prowadzić do coraz większego podobieństwa między systemami AI. To wyzwanie dla badaczy, którzy muszą zrozumieć, jak kontrolować te zjawiska i unikać niepożądanych efektów w przyszłości.

Źródło PAP.

Kontrowersyjne dzieło w centrum Berlina