Biznes
Biznes · 6 min czytania · 27 stycznia 2026

Pushpay pokazuje, jak testować AI agentów na produkcji

Grafika ilustrująca: Pushpay pokazuje, jak testować AI agentów na produkcji

Źródło: Link

AI dla Twojej firmy

Szkolenia, warsztaty i wdrożenia AI. Dopasowane do Twojego zespołu.

Sprawdź ofertę →

Powiązane tematy

Pushpay przetwarza miliony transakcji dla kościołów i organizacji non-profit. Postanowili dodać AI agenta do obsługi klienta. Problem? Jak sprawdzić, czy bot nie generuje bzdur, zanim klient to zauważy.

Rozwiązali to w sposób, który możesz skopiować w swojej firmie.

Czym w ogóle jest AI agent i dlaczego to nie chatbot

AI agent to program, który sam podejmuje decyzje i wykonuje zadania. Nie tylko odpowiada na pytania jak ChatGPT. Może sprawdzić bazę danych, wysłać e-mail, zaktualizować zamówienie.

W przypadku Pushpay agent miał:

  • Odpowiadać na pytania o płatności
  • Wyciągać dane z systemów wewnętrznych
  • Eskalować sprawy do człowieka, gdy coś jest niejasne

Brzmi prosto. Ale bot myli kwoty transakcji albo podaje niewłaściwe daty rozliczeń. Jeden błąd — problem wizerunkowy plus koszty naprawy.

Framework oceny — czyli jak nie puścić bota samopas

Pushpay zbudował własny system testowania AI w pętli ciągłej. Używają Amazon Bedrock (platforma AWS do uruchamiania modeli AI) plus zestaw automatycznych testów.

Jak to działa?

Krok 1: Generowanie pytań testowych
System automatycznie tworzy setki przykładowych zapytań klientów. Od prostych ("Gdzie moja płatność?") po skomplikowane ("Dlaczego zwrot z 15 stycznia nie pojawił się na koncie, choć potwierdzenie dostałem 17-go?").

Krok 2: Odpowiedzi AI + sprawdzenie faktów
Agent odpowiada. Równolegle drugi system sprawdza, czy odpowiedź zgadza się z danymi w bazie. Porównuje daty, kwoty, statusy.

Krok 3: Ocena jakości
Framework mierzy:

  • Poprawność faktyczną (czy dane się zgadzają)
  • Ton wypowiedzi (czy brzmi profesjonalnie)
  • Kompletność (czy odpowiedź zawiera wszystko, czego klient potrzebuje)
  • Bezpieczeństwo (czy nie wyciekają dane innych użytkowników)

To nie jest jednorazowy test przed wdrożeniem. System działa non-stop, sprawdzając każdą interakcję.

Cztery metryki, które faktycznie coś znaczą

Pushpay nie mierzy abstrakcyjnej "jakości AI". Patrzą na konkretne liczby.

Accuracy (celność)
Ile odpowiedzi zawiera prawidłowe informacje. Cel: powyżej 95%. Poniżej tego progu bot trafia do kwarantanny i czeka na poprawki.

Hallucination rate (wskaźnik halucynacji)
Jak często AI wymyśla fakty, których nie ma w systemie. Tu tolerancja jest zerowa. Jedna halucynacja w danych finansowych to za dużo.

Response time (czas odpowiedzi)
Klient nie poczeka 30 sekund na odpowiedź bota. Pushpay trzyma się poniżej 3 sekund, nawet gdy agent odpytuje trzy różne bazy danych.

Escalation precision (precyzja eskalacji)
Czy bot wie, kiedy się wycofać i przekazać sprawę człowiekowi. Za mało eskalacji = klient dostaje złą odpowiedź. Za dużo = po co w ogóle bot.

Pętla feedbacku — jak AI uczy się z błędów

Najciekawszy element całego systemu to automatyczna naprawa.

Gdy framework wykryje błąd, nie tylko loguje go w raporcie. Uruchamia proces:

  1. Błędna odpowiedź trafia do zespołu jako ticket
  2. Człowiek poprawia odpowiedź i dodaje wyjaśnienie
  3. System aktualizuje bazę wiedzy AI
  4. Framework ponownie testuje podobne pytania
  5. Jeśli wynik OK, zmiana idzie na produkcję

Cały cykl trwa godziny, nie tygodnie. To właśnie nazywają "rapid iteration feedback loops" — szybkie pętle poprawek.

Dla porównania: tradycyjne testowanie oprogramowania wymaga napisania testów, uruchomienia, analizy, poprawki kodu, ponownych testów. Tu większość dzieje się automatycznie.

Dlaczego Amazon Bedrock, a nie własny model

Pushpay mógł wytrenować własny model AI od zera. Nie zrobił tego. Użył gotowych modeli przez Bedrock (Claude, Llama, Titan).

Powody są prozaiczne.

Koszt
Trenowanie modelu od podstaw to miliony dolarów. Bedrock działa na zasadzie pay-per-use — płacisz za faktyczne użycie, nie za infrastrukturę.

Czas
Własny model to rok pracy zespołu ML. Bedrock dał im działającego agenta w 6 tygodni.

Utrzymanie
Model trzeba aktualizować, poprawiać, skalować. Bedrock robi to automatycznie. Pushpay skupia się na logice biznesowej, nie na infrastrukturze AI.

To podejście ma sens dla większości firm. Nie budujesz przecież własnego data center, tylko wynajmujesz AWS. Z AI jest podobnie.

Co możesz wdrożyć u siebie (nawet bez zespołu ML)

Nie musisz być Pushpay, żeby zastosować ich podejście. Oto wersja dla mniejszych firm:

Zacznij od jednego procesu
Nie automatyzuj całej obsługi klienta. Wybierz jeden powtarzalny proces: FAQ, sprawdzanie statusu zamówienia, resetowanie haseł.

Zbuduj zestaw testowy ręcznie
Zbierz 50-100 rzeczywistych pytań klientów. Dodaj do nich prawidłowe odpowiedzi. To Twój benchmark.

Użyj gotowych narzędzi
Amazon Bedrock, Azure OpenAI, Google Vertex AI — wszystkie oferują podobne możliwości. Nie potrzebujesz własnej infrastruktury.

Mierz od pierwszego dnia
Nie puszczaj AI na produkcję bez metryk. Minimum to: ile odpowiedzi wymaga korekty człowieka, ile klientów wraca z tym samym pytaniem, ile eskalacji.

Zaplanuj czas na poprawki
AI agent to nie "postaw i zapomnij". Pushpay ma dedykowany zespół do ciągłego ulepszania. Ty możesz przeznaczyć 2-3 godziny tygodniowo na przegląd błędów.

Pułapki, o których AWS nie mówi w case study

Historia sukcesu brzmi pięknie. Rzeczywistość bywa bardziej szorstka.

Koszt ukryty w detalu
Bedrock jest tani na starcie. Gdy agent odpowiada na tysiące zapytań dziennie, rachunek rośnie. Pushpay musiał zoptymalizować prompty (instrukcje dla AI), żeby zmniejszyć zużycie tokenów. Token to jednostka tekstu — mniej więcej 3/4 słowa. Każdy token kosztuje. Długie odpowiedzi = wyższe koszty.

Integracja z legacy systems
Pushpay miał szczęście — ich systemy mają API (interfejsy programistyczne). Jeśli Twoja firma używa oprogramowania sprzed 15 lat bez API, podłączenie AI będzie bólem.

Compliance i regulacje
Pushpay przetwarza płatności — podlega surowym regulacjom. Każda odpowiedź AI musi być logowana, audytowalna, zgodna z PCI DSS (standard bezpieczeństwa kart płatniczych). Jeśli działasz w finansach, zdrowiu czy prawnictwie, przygotuj się na dodatkową warstwę kontroli.

Czy to się opłaca — liczby

Pushpay nie ujawnił dokładnych oszczędności. Podał wskaźniki:

  • 40% zapytań klientów obsługiwanych bez człowieka
  • Czas odpowiedzi spadł z 15 minut do 3 sekund
  • Zespół support może skupić się na skomplikowanych przypadkach

Załóżmy, że masz 10-osobowy zespół supportu. Każda osoba kosztuje 5000 zł/miesiąc (z pochodnymi). Jeśli AI przejmie 40% pracy, oszczędzasz 20 000 zł miesięcznie. Minus koszt AI (powiedzmy 3000 zł/miesiąc). Netto: 17 000 zł oszczędności co miesiąc.

Za rok to ponad 200 tysięcy złotych. Wystarczy na zatrudnienie dodatkowego developera, który będzie ulepszał system.

Przyszłość agentów AI — gdzie to zmierza

Pushpay zbudował agenta do wewnętrznego użytku. Następny krok to udostępnienie go klientom bezpośrednio w aplikacji.

Prawdziwa zmiana będzie głębsza. Agenci AI przestaną być "botem na czacie". Staną się warstwą inteligencji we wszystkich systemach.

Już teraz widzimy zapowiedzi:

  • Salesforce wbudowuje agenci w CRM — automatyczna aktualizacja leadów, prognozowanie sprzedaży
  • Microsoft dodaje agenci do Office — AI, które samo pisze raporty na podstawie maili i spotkań
  • Shopify testuje agenci do obsługi zwrotów — klient pisze "chcę zwrócić", agent załatwia wszystko bez człowieka

Za 2-3 lata każda firma SaaS będzie miała wbudowanych agentów. Pytanie nie brzmi "czy wdrożyć AI", tylko "jak to zrobić, żeby nie spierdolić".

Pushpay pokazał jeden sposób. Framework oceny, ciągłe testy, szybkie poprawki. To nie jest sexy jak demo nowego modelu. Działa na produkcji, z prawdziwymi klientami i prawdziwymi pieniędzmi.

I właśnie dlatego warto się temu przyjrzeć.

Źródła

Informacje o artykule

Podoba Ci się ten artykuł?

Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!

Ten temat omawiam szerzej na webinarze

90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.

Zapisz sie na webinar
Udostępnij:
Jan Gajos

Ekspert AI & Founder, AI Evolution

Pasjonat sztucznej inteligencji, który od ponad 15 lat działa z sukcesem biznesowo i szkoleniowo. Wprowadzam AI do swoich firm oraz codziennego życia. Fascynują mnie nowe technologie, gry wideo i składanie klocków Lego – tam też widzę logikę i kreatywność, które AI potrafi wzmacniać. Wierzę, że dobrze użyta sztuczna inteligencja to nie ogłupiające ułatwienie, lecz prawdziwy przełom w sposobie, w jaki myślimy, tworzymy i pracujemy.