Chronosphere atakuje Datadog z AI, które wyjaśnia siebie
Źródło: Link
Źródło: Link
Szkolenia, warsztaty i wdrożenia AI. Dopasowane do Twojego zespołu.
Kiedy Twoja aplikacja pada o 3 w nocy, ostatnie czego potrzebujesz to czarna skrzynka AI mówiąca "problem znaleziony" bez wyjaśnienia. Chronosphere właśnie pokazał, że można inaczej.
Nowojorski startup wyceniany na 1,6 miliarda dolarów ogłosił w poniedziałek wprowadzenie AI-Guided Troubleshooting – funkcji, która nie tylko diagnozuje awarie produkcyjne, ale też tłumaczy inżynierom własny tok rozumowania. To bezpośredni atak na Datadog, lidera rynku observability, który zmaga się z rosnącymi kosztami monitorowania infrastruktury AI.
Boom na narzędzia AI paradoksalnie utrudnił życie inżynierom. Aplikacje stały się bardziej złożone. Tradycyjne narzędzia do monitorowania generują teraz lawinę danych – większość bez rzeczywistej wartości diagnostycznej. Problem nasila się szczególnie w organizacjach, które wdrożyły systemy AI do generowania kodu czy automatyzacji procesów.
Wyobraź sobie zespół DevOps obsługujący platformę e-commerce z wbudowanym systemem rekomendacji opartym na modelu językowym. Każde zapytanie użytkownika generuje dziesiątki sygnałów: czas odpowiedzi modelu, zużycie pamięci GPU, opóźnienia bazy danych, logi błędów z mikroserwisów. Przy dziesiątkach tysięcy zapytań na godzinę tradycyjny system alertowania dosłownie tonie we własnych powiadomieniach – inżynier nie jest w stanie odróżnić sygnału od szumu bez godzin ręcznej analizy.
Firma podaje konkretne liczby: zespoły DevOps spędzają średnio 40% czasu na przeszukiwaniu logów i metryk, zamiast na faktycznym rozwiązywaniu problemów. Ta frustracja stała się motorem dla nowego rozwiązania.
AI-Guided Troubleshooting analizuje metryki, logi i trace'y. Kluczowa różnica? Transparentność. System nie tylko wskazuje źródło awarii, ale prezentuje krok po kroku, jak doszedł do wniosków – które metryki uznał za istotne, jakie korelacje wykrył, dlaczego odrzucił inne hipotezy.
W praktyce wygląda to tak: zamiast komunikatu "wykryto anomalię w serwisie płatności", inżynier widzi pełną ścieżkę rozumowania. System może wyjaśnić, że wzrost latencji o 340 ms w serwisie płatności zbiegł się z deplojmentem nowej wersji biblioteki do obsługi sesji, a historyczne dane wskazują na podobny wzorzec sprzed trzech miesięcy – który wtedy rozwiązano przez cofnięcie konkretnej zmiany konfiguracyjnej. To różnica między odgadywaniem a diagnozowaniem.
Chronosphere integruje swoje rozwiązanie bezpośrednio z istniejącymi narzędziami inżynierskimi. Oznacza to brak konieczności migracji całej infrastruktury monitorowania. Firma stawia na model, w którym AI działa jako współpracownik, nie wyrocznię (w praktyce: mniej frustracji przy false positive'ach).
System automatycznie priorytetyzuje alerty według rzeczywistego wpływu na użytkowników końcowych. Eliminuje szum z tysięcy nieistotnych powiadomień. Dodatkowo generuje kontekstowe rekomendacje naprawcze oparte na historycznych danych z podobnych incydentów w danej organizacji.
Platforma uczy się specyfiki każdego środowiska – rozumie, że spike w latencji może być normalny dla jednego serwisu podczas szczytów ruchu, ale krytyczny dla innego.
Kluczowe funkcjonalności, które wyróżniają podejście Chronosphere:
Chronosphere nie wchodzi na pusty rynek. Segment observability – obejmujący monitorowanie aplikacji, infrastruktury i doświadczeń użytkowników – wart jest dziś ponad 3 miliardy dolarów i rośnie w dwucyfrowym tempie rok do roku. Datadog, New Relic, Dynatrace i Grafana Labs od lat walczą o enterprise'owych klientów, oferując coraz bardziej rozbudowane dashboardy i funkcje AI.
Problem polega na tym, że większość tych rozwiązań budowała swoje modele cenowe w erze, gdy głównym wyzwaniem było monitorowanie monolitycznych aplikacji lub prostych mikroserwisów. Eksplozja infrastruktury AI – modele wymagające dedykowanych klastrów GPU, pipeline'y danych uczenia maszynowego, systemy RAG generujące tysiące wywołań API na minutę – fundamentalnie zmieniła wolumeny danych, które trzeba przetwarzać i przechowywać.
Dla Datadoga ta zmiana oznacza rosnące przychody. Dla klientów Datadoga – rosnące rachunki, często w sposób trudny do przewidzenia i kontrolowania przy skalowaniu.
Chronosphere celuje w bolączkę Datadog i podobnych platform: eksplodujące koszty przy skalowaniu. Startup oferuje model cenowy oparty na rzeczywistym wykorzystaniu, nie na wolumenie przechowywanych danych. Dla firm z rozbudowaną infrastrukturą AI to różnica między setkami tysięcy a milionami dolarów rocznie.
To podejście ma sens szczególnie w kontekście organizacji budujących własne systemy AI. Firma wdrażająca kilka modeli językowych do obsługi klientów, automatyzacji dokumentów i analizy danych generuje wolumeny logów i metryk, które przy tradycyjnym modelu rozliczeniowym potrafią zwiększyć miesięczne koszty observability trzy- lub czterokrotnie w ciągu roku. Argument kosztowy jest więc nie tylko marketingowy – dla wielu CTO to kwestia opłacalności całego projektu AI.
Firma nie ujawniła jeszcze dokładnej daty publicznego uruchomienia AI-Guided Troubleshooting, ale zapowiedziała program wczesnego dostępu dla wybranych klientów enterprise. Jeśli zapytania z rynku są jakimkolwiek wskaźnikiem – lista oczekujących będzie długa.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar