Pushpay pokazuje, jak testować AI agentów na produkcji
Źródło: Link
Źródło: Link
Szkolenia, warsztaty i wdrożenia AI. Dopasowane do Twojego zespołu.
Pushpay przetwarza miliony transakcji dla kościołów i organizacji non-profit. Postanowili dodać AI agenta do obsługi klienta. Problem? Jak sprawdzić, czy bot nie generuje bzdur, zanim klient to zauważy.
Rozwiązali to w sposób, który możesz skopiować w swojej firmie.
AI agent to program, który sam podejmuje decyzje i wykonuje zadania. Nie tylko odpowiada na pytania jak ChatGPT. Może sprawdzić bazę danych, wysłać e-mail, zaktualizować zamówienie.
W przypadku Pushpay agent miał:
Brzmi prosto. Ale bot myli kwoty transakcji albo podaje niewłaściwe daty rozliczeń. Jeden błąd — problem wizerunkowy plus koszty naprawy.
Pushpay zbudował własny system testowania AI w pętli ciągłej. Używają Amazon Bedrock (platforma AWS do uruchamiania modeli AI) plus zestaw automatycznych testów.
Jak to działa?
Krok 1: Generowanie pytań testowych
System automatycznie tworzy setki przykładowych zapytań klientów. Od prostych ("Gdzie moja płatność?") po skomplikowane ("Dlaczego zwrot z 15 stycznia nie pojawił się na koncie, choć potwierdzenie dostałem 17-go?").
Krok 2: Odpowiedzi AI + sprawdzenie faktów
Agent odpowiada. Równolegle drugi system sprawdza, czy odpowiedź zgadza się z danymi w bazie. Porównuje daty, kwoty, statusy.
Krok 3: Ocena jakości
Framework mierzy:
To nie jest jednorazowy test przed wdrożeniem. System działa non-stop, sprawdzając każdą interakcję.
Pushpay nie mierzy abstrakcyjnej "jakości AI". Patrzą na konkretne liczby.
Accuracy (celność)
Ile odpowiedzi zawiera prawidłowe informacje. Cel: powyżej 95%. Poniżej tego progu bot trafia do kwarantanny i czeka na poprawki.
Hallucination rate (wskaźnik halucynacji)
Jak często AI wymyśla fakty, których nie ma w systemie. Tu tolerancja jest zerowa. Jedna halucynacja w danych finansowych to za dużo.
Response time (czas odpowiedzi)
Klient nie poczeka 30 sekund na odpowiedź bota. Pushpay trzyma się poniżej 3 sekund, nawet gdy agent odpytuje trzy różne bazy danych.
Escalation precision (precyzja eskalacji)
Czy bot wie, kiedy się wycofać i przekazać sprawę człowiekowi. Za mało eskalacji = klient dostaje złą odpowiedź. Za dużo = po co w ogóle bot.
Najciekawszy element całego systemu to automatyczna naprawa.
Gdy framework wykryje błąd, nie tylko loguje go w raporcie. Uruchamia proces:
Cały cykl trwa godziny, nie tygodnie. To właśnie nazywają "rapid iteration feedback loops" — szybkie pętle poprawek.
Dla porównania: tradycyjne testowanie oprogramowania wymaga napisania testów, uruchomienia, analizy, poprawki kodu, ponownych testów. Tu większość dzieje się automatycznie.
Pushpay mógł wytrenować własny model AI od zera. Nie zrobił tego. Użył gotowych modeli przez Bedrock (Claude, Llama, Titan).
Powody są prozaiczne.
Koszt
Trenowanie modelu od podstaw to miliony dolarów. Bedrock działa na zasadzie pay-per-use — płacisz za faktyczne użycie, nie za infrastrukturę.
Czas
Własny model to rok pracy zespołu ML. Bedrock dał im działającego agenta w 6 tygodni.
Utrzymanie
Model trzeba aktualizować, poprawiać, skalować. Bedrock robi to automatycznie. Pushpay skupia się na logice biznesowej, nie na infrastrukturze AI.
To podejście ma sens dla większości firm. Nie budujesz przecież własnego data center, tylko wynajmujesz AWS. Z AI jest podobnie.
Nie musisz być Pushpay, żeby zastosować ich podejście. Oto wersja dla mniejszych firm:
Zacznij od jednego procesu
Nie automatyzuj całej obsługi klienta. Wybierz jeden powtarzalny proces: FAQ, sprawdzanie statusu zamówienia, resetowanie haseł.
Zbuduj zestaw testowy ręcznie
Zbierz 50-100 rzeczywistych pytań klientów. Dodaj do nich prawidłowe odpowiedzi. To Twój benchmark.
Użyj gotowych narzędzi
Amazon Bedrock, Azure OpenAI, Google Vertex AI — wszystkie oferują podobne możliwości. Nie potrzebujesz własnej infrastruktury.
Mierz od pierwszego dnia
Nie puszczaj AI na produkcję bez metryk. Minimum to: ile odpowiedzi wymaga korekty człowieka, ile klientów wraca z tym samym pytaniem, ile eskalacji.
Zaplanuj czas na poprawki
AI agent to nie "postaw i zapomnij". Pushpay ma dedykowany zespół do ciągłego ulepszania. Ty możesz przeznaczyć 2-3 godziny tygodniowo na przegląd błędów.
Historia sukcesu brzmi pięknie. Rzeczywistość bywa bardziej szorstka.
Koszt ukryty w detalu
Bedrock jest tani na starcie. Gdy agent odpowiada na tysiące zapytań dziennie, rachunek rośnie. Pushpay musiał zoptymalizować prompty (instrukcje dla AI), żeby zmniejszyć zużycie tokenów. Token to jednostka tekstu — mniej więcej 3/4 słowa. Każdy token kosztuje. Długie odpowiedzi = wyższe koszty.
Integracja z legacy systems
Pushpay miał szczęście — ich systemy mają API (interfejsy programistyczne). Jeśli Twoja firma używa oprogramowania sprzed 15 lat bez API, podłączenie AI będzie bólem.
Compliance i regulacje
Pushpay przetwarza płatności — podlega surowym regulacjom. Każda odpowiedź AI musi być logowana, audytowalna, zgodna z PCI DSS (standard bezpieczeństwa kart płatniczych). Jeśli działasz w finansach, zdrowiu czy prawnictwie, przygotuj się na dodatkową warstwę kontroli.
Pushpay nie ujawnił dokładnych oszczędności. Podał wskaźniki:
Załóżmy, że masz 10-osobowy zespół supportu. Każda osoba kosztuje 5000 zł/miesiąc (z pochodnymi). Jeśli AI przejmie 40% pracy, oszczędzasz 20 000 zł miesięcznie. Minus koszt AI (powiedzmy 3000 zł/miesiąc). Netto: 17 000 zł oszczędności co miesiąc.
Za rok to ponad 200 tysięcy złotych. Wystarczy na zatrudnienie dodatkowego developera, który będzie ulepszał system.
Pushpay zbudował agenta do wewnętrznego użytku. Następny krok to udostępnienie go klientom bezpośrednio w aplikacji.
Prawdziwa zmiana będzie głębsza. Agenci AI przestaną być "botem na czacie". Staną się warstwą inteligencji we wszystkich systemach.
Już teraz widzimy zapowiedzi:
Za 2-3 lata każda firma SaaS będzie miała wbudowanych agentów. Pytanie nie brzmi "czy wdrożyć AI", tylko "jak to zrobić, żeby nie spierdolić".
Pushpay pokazał jeden sposób. Framework oceny, ciągłe testy, szybkie poprawki. To nie jest sexy jak demo nowego modelu. Działa na produkcji, z prawdziwymi klientami i prawdziwymi pieniędzmi.
I właśnie dlatego warto się temu przyjrzeć.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar