Pushpay pokazuje, jak testować AI agentów na produkcji

Pushpay przetwarza miliony transakcji dla kościołów i organizacji non-profit. Postanowili dodać AI agenta do obsługi klienta. Problem? Jak sprawdzić, czy bot nie generuje bzdur, zanim klient to zauważy.

Rozwiązali to w sposób, który możesz skopiować w swojej firmie.

Czym w ogóle jest AI agent i dlaczego to nie chatbot

AI agent to program, który sam podejmuje decyzje i wykonuje zadania. Nie tylko odpowiada na pytania jak ChatGPT. Może sprawdzić bazę danych, wysłać e-mail, zaktualizować zamówienie.

W przypadku Pushpay agent miał:

Odpowiadać na pytania o płatności
Wyciągać dane z systemów wewnętrznych
Eskalować sprawy do człowieka, gdy coś jest niejasne

Brzmi prosto. Ale bot myli kwoty transakcji albo podaje niewłaściwe daty rozliczeń. Jeden błąd — problem wizerunkowy plus koszty naprawy.

Framework oceny — czyli jak nie puścić bota samopas

Pushpay zbudował własny system testowania AI w pętli ciągłej. Używają Amazon Bedrock (platforma AWS do uruchamiania modeli AI) plus zestaw automatycznych testów.

Jak to działa?

Krok 1: Generowanie pytań testowych
System automatycznie tworzy setki przykładowych zapytań klientów. Od prostych ("Gdzie moja płatność?") po skomplikowane ("Dlaczego zwrot z 15 stycznia nie pojawił się na koncie, choć potwierdzenie dostałem 17-go?").

Krok 2: Odpowiedzi AI + sprawdzenie faktów
Agent odpowiada. Równolegle drugi system sprawdza, czy odpowiedź zgadza się z danymi w bazie. Porównuje daty, kwoty, statusy.

Krok 3: Ocena jakości
Framework mierzy:

Poprawność faktyczną (czy dane się zgadzają)
Ton wypowiedzi (czy brzmi profesjonalnie)
Kompletność (czy odpowiedź zawiera wszystko, czego klient potrzebuje)
Bezpieczeństwo (czy nie wyciekają dane innych użytkowników)

To nie jest jednorazowy test przed wdrożeniem. System działa non-stop, sprawdzając każdą interakcję.

Cztery metryki, które faktycznie coś znaczą

Pushpay nie mierzy abstrakcyjnej "jakości AI". Patrzą na konkretne liczby.

Accuracy (celność)
Ile odpowiedzi zawiera prawidłowe informacje. Cel: powyżej 95%. Poniżej tego progu bot trafia do kwarantanny i czeka na poprawki.

Hallucination rate (wskaźnik halucynacji)
Jak często AI wymyśla fakty, których nie ma w systemie. Tu tolerancja jest zerowa. Jedna halucynacja w danych finansowych to za dużo.

Response time (czas odpowiedzi)
Klient nie poczeka 30 sekund na odpowiedź bota. Pushpay trzyma się poniżej 3 sekund, nawet gdy agent odpytuje trzy różne bazy danych.

Escalation precision (precyzja eskalacji)
Czy bot wie, kiedy się wycofać i przekazać sprawę człowiekowi. Za mało eskalacji = klient dostaje złą odpowiedź. Za dużo = po co w ogóle bot.

Pętla feedbacku — jak AI uczy się z błędów

Najciekawszy element całego systemu to automatyczna naprawa.

Gdy framework wykryje błąd, nie tylko loguje go w raporcie. Uruchamia proces:

Błędna odpowiedź trafia do zespołu jako ticket
Człowiek poprawia odpowiedź i dodaje wyjaśnienie
System aktualizuje bazę wiedzy AI
Framework ponownie testuje podobne pytania
Jeśli wynik OK, zmiana idzie na produkcję

Cały cykl trwa godziny, nie tygodnie. To właśnie nazywają "rapid iteration feedback loops" — szybkie pętle poprawek.

Dla porównania: tradycyjne testowanie oprogramowania wymaga napisania testów, uruchomienia, analizy, poprawki kodu, ponownych testów. Tu większość dzieje się automatycznie.

Dlaczego Amazon Bedrock, a nie własny model

Pushpay mógł wytrenować własny model AI od zera. Nie zrobił tego. Użył gotowych modeli przez Bedrock (Claude, Llama, Titan).

Powody są prozaiczne.

Koszt
Trenowanie modelu od podstaw to miliony dolarów. Bedrock działa na zasadzie pay-per-use — płacisz za faktyczne użycie, nie za infrastrukturę.

Czas
Własny model to rok pracy zespołu ML. Bedrock dał im działającego agenta w 6 tygodni.

Utrzymanie
Model trzeba aktualizować, poprawiać, skalować. Bedrock robi to automatycznie. Pushpay skupia się na logice biznesowej, nie na infrastrukturze AI.

To podejście ma sens dla większości firm. Nie budujesz przecież własnego data center, tylko wynajmujesz AWS. Z AI jest podobnie.

Co możesz wdrożyć u siebie (nawet bez zespołu ML)

Nie musisz być Pushpay, żeby zastosować ich podejście. Oto wersja dla mniejszych firm:

Zacznij od jednego procesu
Nie automatyzuj całej obsługi klienta. Wybierz jeden powtarzalny proces: FAQ, sprawdzanie statusu zamówienia, resetowanie haseł.

Zbuduj zestaw testowy ręcznie
Zbierz 50-100 rzeczywistych pytań klientów. Dodaj do nich prawidłowe odpowiedzi. To Twój benchmark.

Użyj gotowych narzędzi
Amazon Bedrock, Azure OpenAI, Google Vertex AI — wszystkie oferują podobne możliwości. Nie potrzebujesz własnej infrastruktury.

Mierz od pierwszego dnia
Nie puszczaj AI na produkcję bez metryk. Minimum to: ile odpowiedzi wymaga korekty człowieka, ile klientów wraca z tym samym pytaniem, ile eskalacji.

Zaplanuj czas na poprawki
AI agent to nie "postaw i zapomnij". Pushpay ma dedykowany zespół do ciągłego ulepszania. Ty możesz przeznaczyć 2-3 godziny tygodniowo na przegląd błędów.

Pułapki, o których AWS nie mówi w case study

Historia sukcesu brzmi pięknie. Rzeczywistość bywa bardziej szorstka.

Koszt ukryty w detalu
Bedrock jest tani na starcie. Gdy agent odpowiada na tysiące zapytań dziennie, rachunek rośnie. Pushpay musiał zoptymalizować prompty (instrukcje dla AI), żeby zmniejszyć zużycie tokenów. Token to jednostka tekstu — mniej więcej 3/4 słowa. Każdy token kosztuje. Długie odpowiedzi = wyższe koszty.

Integracja z legacy systems
Pushpay miał szczęście — ich systemy mają API (interfejsy programistyczne). Jeśli Twoja firma używa oprogramowania sprzed 15 lat bez API, podłączenie AI będzie bólem.

Compliance i regulacje
Pushpay przetwarza płatności — podlega surowym regulacjom. Każda odpowiedź AI musi być logowana, audytowalna, zgodna z PCI DSS (standard bezpieczeństwa kart płatniczych). Jeśli działasz w finansach, zdrowiu czy prawnictwie, przygotuj się na dodatkową warstwę kontroli.

Czy to się opłaca — liczby

Pushpay nie ujawnił dokładnych oszczędności. Podał wskaźniki:

40% zapytań klientów obsługiwanych bez człowieka
Czas odpowiedzi spadł z 15 minut do 3 sekund
Zespół support może skupić się na skomplikowanych przypadkach

Załóżmy, że masz 10-osobowy zespół supportu. Każda osoba kosztuje 5000 zł/miesiąc (z pochodnymi). Jeśli AI przejmie 40% pracy, oszczędzasz 20 000 zł miesięcznie. Minus koszt AI (powiedzmy 3000 zł/miesiąc). Netto: 17 000 zł oszczędności co miesiąc.

Za rok to ponad 200 tysięcy złotych. Wystarczy na zatrudnienie dodatkowego developera, który będzie ulepszał system.

Przyszłość agentów AI — gdzie to zmierza

Pushpay zbudował agenta do wewnętrznego użytku. Następny krok to udostępnienie go klientom bezpośrednio w aplikacji.

Prawdziwa zmiana będzie głębsza. Agenci AI przestaną być "botem na czacie". Staną się warstwą inteligencji we wszystkich systemach.

Już teraz widzimy zapowiedzi:

Salesforce wbudowuje agenci w CRM — automatyczna aktualizacja leadów, prognozowanie sprzedaży
Microsoft dodaje agenci do Office — AI, które samo pisze raporty na podstawie maili i spotkań
Shopify testuje agenci do obsługi zwrotów — klient pisze "chcę zwrócić", agent załatwia wszystko bez człowieka

Za 2-3 lata każda firma SaaS będzie miała wbudowanych agentów. Pytanie nie brzmi "czy wdrożyć AI", tylko "jak to zrobić, żeby nie spierdolić".

Pushpay pokazał jeden sposób. Framework oceny, ciągłe testy, szybkie poprawki. To nie jest sexy jak demo nowego modelu. Działa na produkcji, z prawdziwymi klientami i prawdziwymi pieniędzmi.

I właśnie dlatego warto się temu przyjrzeć.

Przeczytaj też:

Źródła

AWS Machine Learning Blog – Build reliable Agentic AI solution with Amazon Bedrock

Pushpay pokazuje, jak testować AI agentów na produkcji

AI dla Twojej firmy

Powiązane tematy

Czym w ogóle jest AI agent i dlaczego to nie chatbot

Framework oceny — czyli jak nie puścić bota samopas

Cztery metryki, które faktycznie coś znaczą

Pętla feedbacku — jak AI uczy się z błędów

Dlaczego Amazon Bedrock, a nie własny model

Co możesz wdrożyć u siebie (nawet bez zespołu ML)

Pułapki, o których AWS nie mówi w case study

Czy to się opłaca — liczby

Przyszłość agentów AI — gdzie to zmierza

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Pushpay pokazuje, jak testować AI agentów na produkcji

AI dla Twojej firmy

Powiązane tematy

Czym w ogóle jest AI agent i dlaczego to nie chatbot

Framework oceny — czyli jak nie puścić bota samopas

Cztery metryki, które faktycznie coś znaczą

Pętla feedbacku — jak AI uczy się z błędów

Dlaczego Amazon Bedrock, a nie własny model

Co możesz wdrożyć u siebie (nawet bez zespołu ML)

Pułapki, o których AWS nie mówi w case study

Czy to się opłaca — liczby

Przyszłość agentów AI — gdzie to zmierza

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

AI w zarządzaniu projektami: które narzędzie wybrać w 2026

Fermi traci CEO i CFO. Nuklearny startup AI w tarapatach

Hongkong stawia na AI w walce z powodziami. Symulacje 3D w akcji