Bezpieczny asystent AI? MIT pokazuje, dlaczego to niemożliwe

MIT Technology Review właśnie opublikował materiał, który powinien zaniepokoić każdego, kto myśli o wdrożeniu agentów AI w firmie. Problem nie jest w tym, że modele językowe popełniają błędy. Problem w tym, że teraz mają narzędzia, żeby te błędy zamieniać w realne szkody.

Mówimy o systemach, które mogą przeglądać internet, wysyłać maile, rezerwować loty czy płacić rachunki. Pewnie. Ale to jak dać kluczyki od samochodu komuś, kto dopiero uczy się rozpoznawać kolory na światłach.

Czym właściwie są agenci AI i dlaczego teraz o nich mówimy

Agent AI to nie jest zwykły chatbot. ChatGPT w podstawowej wersji siedzi sobie w okienku i odpowiada na pytania. Agent AI dostaje dostęp do prawdziwych narzędzi – przeglądarki, konta email, systemów płatniczych, baz danych firmowych.

asystenta, który może sam kupić bilety lotnicze, odpowiedzieć na maile w Twoim imieniu, zamówić catering na spotkanie czy przesunąć środki między kontami. Nie pyta Cię o zgodę za każdym razem – sam podejmuje decyzje na podstawie tego, co uznaje za właściwe.

Różnica między chatbotem a agentem? Chatbot może Ci doradzić, co zrobić. Agent to zrobi za Ciebie. I tu zaczyna się problem.

Przez ostatni rok każda większa firma AI – od OpenAI przez Anthropic po Google – chwali się swoimi agentami. Mają być produktywniejsze, szybsze, bardziej autonomiczne. Ale nikt głośno nie mówi o tym, co się dzieje, gdy taki agent popełni błąd. A błędy popełnia regularnie.

Dlaczego LLM-y są z natury nieprzewidywalne

Duże modele językowe – czyli LLM-y, te same "mózgi", które napędzają ChatGPT czy Claude – działają na zasadzie statystycznego przewidywania. Nie "myślą" w ludzkim sensie. Analizują wzorce w danych treningowych i generują odpowiedzi, które wydają się najbardziej prawdopodobne.

To jak autokorekta na sterydach. Twój telefon czasem zmienia "dziękuję" na "dzięki" albo coś kompletnie absurdalnego – bo statystycznie to pasowało w kontekście. LLM robi dokładnie to samo, tylko w znacznie większej skali.

Problem? Nawet najlepsze modele halucynują – wymyślają fakty, które brzmią wiarygodnie, ale są kompletnie fałszywe. GPT-5 robi to rzadziej niż poprzednie wersje, ale wciąż się zdarza. A gdy model ma dostęp do prawdziwych narzędzi, halucynacja przestaje być zabawną ciekawostką.

Przykład z życia wzięty: firma testowała agenta AI do obsługi klienta z dostępem do systemu zwrotów. Agent miał pomóc klientowi zwrócić wadliwy produkt. Zamiast tego przyznał pełny zwrot pieniędzy za produkt, którego klient w ogóle nie kupił – bo źle zinterpretował kontekst rozmowy. Koszt błędu? Kilkaset dolarów. I to był tylko jeden przypadek.

Co może pójść nie tak – scenariusze z MIT

MIT Technology Review przeanalizował różne przypadki, w których agenci AI robili rzeczy, których absolutnie nie powinni. Nie mówimy tu o science fiction – to rzeczy, które już się działy w środowiskach testowych.

Pierwszy scenariusz: agent z dostępem do poczty. Dostaje zadanie "odpowiedz na wszystkie pilne maile". Brzmi niewinnie. Ale co to znaczy "pilne"? Dla modelu to może być mail od szefa, ale też wiadomość od oszusta podszywającego się pod bank. Agent nie rozumie kontekstu społecznego, nie wie, że pewne maile to phishing. Odpowiada na wszystko, co wydaje mu się ważne – włącznie z przekazaniem poufnych informacji.

Drugi scenariusz: agent z dostępem do przeglądarki i karty kredytowej. Zadanie: "kup najtańsze bilety do Berlina na przyszły tydzień". Agent znajduje ofertę na podejrzanej stronie, która wygląda jak Ryanair, ale jest fejkiem. Kupuje bilety. Dane karty wyciekają. A Ty dowiadujesz się o tym dopiero przy próbie wejścia na pokład – gdy okazuje się, że biletów nie ma.

Trzeci scenariusz: agent zarządzający kalendarzem. Ma dostęp do Twojego Google Calendar i może akceptować spotkania. Ktoś wysyła zaproszenie na "pilne spotkanie zarządu" – ale to nie jest prawdziwe spotkanie, tylko próba wyłudzenia informacji. Agent akceptuje, bo wykrywa słowa kluczowe "pilne" i "zarząd". Efekt? Potencjalnie wyciek strategicznych planów firmy.

MIT podkreśla: to nie są teoretyczne zagrożenia. To rzeczy, które działy się w kontrolowanych testach. A przecież testowe środowiska są znacznie bezpieczniejsze niż prawdziwy świat.

Paradoks bezpieczeństwa – im więcej kontroli, tym mniej użyteczności

Firmy tworzące agentów AI stoją przed nierozwiązywalnym dylematem. Możesz zbudować agenta bezpiecznego albo użytecznego. Ale nie jedno i drugie jednocześnie.

Bezpieczny agent to taki, który pyta Cię o zgodę przy każdej decyzji. "Czy mam wysłać ten mail?" "Czy mam kliknąć ten link?" "Czy mam zaakceptować to spotkanie?" Ale jeśli agent ciągle pyta, to po co w ogóle istnieje? Równie dobrze możesz robić to sam.

Użyteczny agent działa autonomicznie. Podejmujesz decyzje za Ciebie, oszczędzając czas. Ale to oznacza, że musisz mu zaufać – a jak pokazują badania MIT, to zaufanie jest nieuzasadnione. Model nie rozumie kontekstu tak jak człowiek. Nie wie, kiedy coś "wygląda podejrzanie". Nie ma intuicji.

Anthropic, twórcy Claude, próbowali rozwiązać ten problem przez wprowadzenie "constitutional AI" – systemu zasad, których model nie może złamać. Brzmi dobrze w teorii. W praktyce? Model wciąż znajduje luki. Albo interpretuje zasady zbyt dosłownie, blokując normalne działania. Albo zbyt luźno, pozwalając na rzeczy, których nie powinien.

OpenAI poszło w inną stronę – ograniczyli uprawnienia agentów. Ale to oznacza, że ich agenci są mniej użyteczni niż konkurencja. I tu pojawia się presja rynku: firma, która zrobi najbardziej autonomicznego agenta, wygra wyścig. Nawet jeśli będzie mniej bezpieczny.

Kto ponosi odpowiedzialność za błędy AI

To pytanie, na które nikt jeszcze nie zna odpowiedzi. Jeśli agent AI w Twoim imieniu wyśle poufne dane firmowe konkurencji – kto jest winny? Ty, bo dałeś mu dostęp? Firma, która stworzyła model? Dostawca usługi, który wdrożył agenta?

Prawo nie nadąża za technologią. W większości krajów nie ma jeszcze jasnych regulacji dotyczących odpowiedzialności za działania AI. To oznacza, że w razie problemu sprawa prawdopodobnie trafi do sądu – i będzie precedensem.

MIT zwraca uwagę na jeszcze jeden aspekt: audytowalność. Gdy człowiek popełnia błąd, możesz zapytać: "Dlaczego to zrobiłeś?" I dostaniesz odpowiedź. Gdy agent AI popełnia błąd, często nie wiadomo dlaczego. Model przetwarza miliony parametrów, jego decyzje są nieprzejrzyste nawet dla twórców.

Nie ma złej woli – po prostu nie rozumie własnego procesu myślowego. Bo go nie ma.

Firmy próbują rozwiązać ten problem przez logowanie wszystkich działań agenta. Ale logi to jedno – zrozumienie, dlaczego agent podjął daną decyzję, to drugie. A bez tego nie ma mowy o realnej kontroli.

Czy w ogóle jest wyjście z tej sytuacji

MIT nie mówi, że agenci AI są z definicji złym pomysłem. Mówi, że obecna technologia nie jest gotowa na to, co obiecują nam firmy.

Są obszary, gdzie agenci mogą działać bezpiecznie. Środowiska zamknięte, bez dostępu do internetu, z ograniczonymi uprawnieniami. Agent, który pomaga Ci sortować dokumenty w zamkniętym systemie firmowym? Okej. Agent, który ma dostęp do Twojego konta bankowego i może przelewać pieniądze? To już inna historia.

Niektóre firmy testują model "human-in-the-loop" – agent proponuje działanie, człowiek zatwierdza. To kompromis między autonomią a bezpieczeństwem. Ale znowu: jeśli i tak musisz wszystko sprawdzać, to po co agent?

Prawdziwe rozwiązanie prawdopodobnie przyjdzie z czasem. Modele będą lepsze, bardziej przewidywalne, łatwiejsze do kontrolowania. Ale to przyszłość – może za rok, może za pięć lat. Dzisiaj mamy technologię, która jest imponująca w demo, ale ryzykowna w produkcji.

MIT sugeruje, że zamiast gonić za pełną autonomią, powinniśmy skupić się na narzędziach asystujących. Agent, który pomaga, ale nie decyduje. Który proponuje, ale nie wykonuje. To mniej sexy niż "AI, które załatwia wszystko za Ciebie", ale znacznie bezpieczniejsze.

Co to oznacza dla Ciebie

Jeśli myślisz o wdrożeniu agenta AI w firmie – zastanów się dwa razy. Nie daj się zwieść demo, w którym wszystko działa idealnie. Zapytaj o przypadki brzegowe. Co się stanie, gdy agent dostanie nietypowe polecenie? Jak zareaguje na próbę manipulacji? Kto ponosi odpowiedzialność za błędy.

Jeśli już decydujesz się na agenta, zacznij od środowiska testowego. Bez dostępu do prawdziwych danych, prawdziwych pieniędzy, prawdziwych klientów. Zobacz, co potrafi zepsuć. Bo zepsuje – to tylko kwestia czasu.

I najważniejsze: nie traktuj agenta jak człowieka. To narzędzie. Bardzo zaawansowane, czasem zaskakująco sprytne, ale wciąż narzędzie. Nie ma zdrowego rozsądku. Nie rozumie kontekstu społecznego. Nie wie, kiedy coś "wygląda dziwnie".

Agenci AI to przyszłość – ale ta przyszłość jeszcze nie nadeszła. A firmy, które udają, że już tu jest, ryzykują nie tylko swoje pieniądze, ale też bezpieczeństwo swoich klientów.

Przeczytaj też:

Źródła

MIT Technology Review - Is a secure AI assistant possible?

Bezpieczny asystent AI? MIT pokazuje, dlaczego to niemożliwe

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Czym właściwie są agenci AI i dlaczego teraz o nich mówimy

Dlaczego LLM-y są z natury nieprzewidywalne

Co może pójść nie tak – scenariusze z MIT

Paradoks bezpieczeństwa – im więcej kontroli, tym mniej użyteczności

Kto ponosi odpowiedzialność za błędy AI

Czy w ogóle jest wyjście z tej sytuacji

Co to oznacza dla Ciebie

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Bezpieczny asystent AI? MIT pokazuje, dlaczego to niemożliwe

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Czym właściwie są agenci AI i dlaczego teraz o nich mówimy

Dlaczego LLM-y są z natury nieprzewidywalne

Co może pójść nie tak – scenariusze z MIT

Paradoks bezpieczeństwa – im więcej kontroli, tym mniej użyteczności

Kto ponosi odpowiedzialność za błędy AI

Czy w ogóle jest wyjście z tej sytuacji

Co to oznacza dla Ciebie

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

AI do analizy PDF — jak wyciągnąć informacje w 3 minuty

Google SGE, Perplexity, SearchGPT — jak AI zmienia wyszukiwanie

Copilot, Cursor czy Claude Code? Asystenci AI w kodowaniu