Bir yapay zeka agent'ı 10 dakikada birine $187'a mal oldu. Monitoring araçları ne söylüyor, ne söylemiyor?

TL;DR

Ekiplerin %57'si yapay zeka agent'larını prodüksiyonda çalıştırıyor, ancak Gartner 2027'ye kadar agentic AI projelerinin %40'ının iptal edileceğini öngörüyor. Sebep: güven sorunu. Mevcut gözlemlenebilirlik araçları (LangSmith, LangFuse, Arize) trace gösteriyor ama üç kritik soruya cevap vermiyor: Agent'ım güvenilir mi? İş değeri üretiyor mu? Bozulduğunda haberim olacak mı? Trace'ler ile iş sonuçları arasındaki boşluk, güvenin öldüğü yer.

Geçen hafta Hacker News’de gezinirken şu gönderi dikkatimi çekti:

AgentBudget’ı, bir yapay zeka agent döngüsü 10 dakikada bana $187’a mal olduktan sonra geliştirdim. GPT-4o başarısız bir analizi tekrar tekrar deniyordu.

Ben de bunu yaşadım. $187 değil, ama bir LangChain agent’ının saniyeler içinde yakalanması gereken özyinelemeli bir döngüde token tüketmesini izledim. Fark ettiğimde iş işten geçmişti. Uyarı yok, alarm yok, sadece ay sonunda şaşırtıcı derecede yüksek bir fatura.

Sonra başka bir tartışma gördüm, “Ask HN: How are you monitoring AI agents in production?”, en çok oy alan yorum aklımda kaldı:

Çoğu araç ne olduğunu kaydediyor… ama agent’ın neden plandan saptığını değil. Post-mortem’lerde asıl acıtan boşluk bu.

Araştırmaya başladım. Ne kadar çok baktıysam o kadar net gördüm: sistemik bir kör noktamız var.

Her şeyi trace edebiliyoruz ama hiçbir şeyi anlamıyoruz

Ekiplerin %57’si artık yapay zeka agent’larını prodüksiyonda çalıştırıyor (LangChain State of Agent Engineering, 2025). Ancak Gartner, 2027’ye kadar agentic AI projelerinin %40’ının iptal edileceğini öngörüyor. Yapay zeka yeterince iyi olmadığı için değil, ekipler prodüksiyonda ona güvenemediği için.

Araçlar var. LangSmith, LangFuse, Arize, Helicone. Hepsi trace gösteriyor. Güzel, detaylı trace’ler. Ama sorun şu: bir trace ne olduğunu söyler, işe yarayıp yaramadığını değil.

Düşünün. Agent’ınız bir müşteri sorgusunu 2,3 saniyede işledi, 4 tool çağrısı yaptı, 3.200 token kullandı. Harika. Ama:

Müşteri bu yanıttan sonra gerçekten bir şey satın aldı mı?
Agent var olmayan bir ürün özelliğini uydurdu mu?
Agent’ın doğruluğu geçen haftaya kıyasla düşüyor mu?

Hiçbir trace bunu söylemez.

Sürekli karşıma çıkan üç kör nokta

Maliyet olaydan sonra takip ediliyor, önlenmiyor

$187’lık agent döngüsü münferit bir vaka değil. ZenML’in LangSmith alternatifleri analizi, yoğun LangSmith çalışma alanlarının beş haneli aylık faturalara ulaştığını ortaya koydu. Langfuse lansman tartışmasında (215 puan, 61 yorum) bir ekip aylık $60K+ LLM harcaması yönettiğini ve mevcut çözümleri yetersiz bulduğunu belirtti.

Sorun maliyeti takip etmek değil. LangSmith ve LangFuse token kullanımını gösteriyor. Sorun şu: maliyet hesaplamaları çoğu zaman yanlış (19 thumbs up), özellikle önbelleğe alınmış tokenlar, görüntü modelleri ve çoklu sağlayıcı kurulumlarında. Ve bütçenizi tüketmeden önce kaçak döngüyü durduran kimse yok.

Monitoring aracının kendisi risk haline geliyor

Beni şaşırtan bir bulgu: LangSmith’in @traceable decorator’ı, bir LangSmith kesintisi sırasında prodüksiyon uygulamalarını çökertti (5 thumbs up). Monitoring katmanı uygulamanın kendisini düşürdü. AgentOps 100+ event kaydederken deadlock’a giriyor. Langfuse’un self-hosted dashboard’u prodüksiyon yükü altında timeout veriyor.

İroni: güvenilirlik için eklediğiniz araç, güvenilirlik riski haline geliyor.

Kimse agent performansını iş sonuçlarına bağlamıyor

Kimsenin konuşmadığı kör nokta bu. Şu LangChain issue’su (9 thumbs up, Şubat 2026) agent metriklerinin müşteri dashboard’larına aktarılmasını istiyor. Hâlâ açık. Langfuse’un uyarı özelliği talebi Aralık 2023’ten beri açık, iki yılı aşkın süredir.

Bir HN yorumcusunun dediği gibi: “Denetim iziniz tamamen parçalanmış. Bir uyum görevlisine sentetik iş gücünüzün ne yaptığını güvenle söyleyemezsiniz.”

Agent trace’lerini bir sistemde, iş metriklerini başka bir sistemde oluşturuyoruz. Aradaki boşluk, güvenin öldüğü yer.

Gerçekten ne işe yarardı?

Farklı bir yaklaşımın nasıl görüneceğini düşünüyorum. Başka bir trace görüntüleyici değil. Üç soruya cevap veren bir şey:

Agent’ım güvenilir mi? Tek bir puan, 0-100, gerçek zamanlı güncellenen. Çıktı doğrulama, halüsinasyon kontrolleri, gecikme anomalileri, hata oranlarını birleştiren. Bir bakışta: bu agent sağlıklı, bu değil.

Agent’ım para kazandırıyor mu? Trace’i iş olayına bağlamak. Agent bir ürün önerdi, müşteri satın aldı mı? Agent bir yanıt yazdı, müşteri kaldı mı yoksa ayrıldı mı? Sadece “agent çalıştı” değil, “agent değer üretti.”

Bozulduğunda haberim olacak mı? Şunu söyleyen bir Slack mesajı: “Ürün öneri agent’ınızın güvenilirlik puanı son 2 saatte 91’den 67’ye düştü. En sık hata: 3. adımda çıktı doğrulama başarısızlığı. [Trace’e bak].” PagerDuty seviyesinde kurumsal bir uyarı sistemi değil. Sadece bir şeylerin ters gittiğini söyleyen bir webhook.

Bunu araştırıyorum. Yardımcı olur musunuz?

Bunun çözmeye değer gerçek bir sorun mu yoksa sadece kişisel hayal kırıklığım mı olduğunu anlamaya çalışıyorum.

Yapay zeka agent’larını prodüksiyonda çalıştırıyorsanız (veya çalıştırmayı planlıyorsanız), 2 dakikanızı ayırmanızı çok isterim:

Ankete katılın

5 soru. Kayıt yok. Sonuçları herkese açık paylaşacağım.

Bu ister bir araç, ister açık kaynak bir proje, ister ilginç veriler içeren bir blog yazısı olsun, bulgular her halükarda faydalı olacak.

Önemli Noktalar

01 Trace'ler ne olduğunu söyler, işe yarayıp yaramadığını değil
02 Maliyet olaydan sonra takip ediliyor, önlenmiyor: $187'lık agent döngüleri, beş haneli aylık faturalar
03 Monitoring aracının kendisi güvenilirlik riski olabiliyor (LangSmith decorator'ının prodüksiyonu çökertmesi)
04 Kimse agent performansını iş sonuçlarına bağlamıyor
05 Mevcut araçlar uçuş kaydedici, çarpışma önleme sistemi değil

Sık Sorulan Sorular (FAQ)

+ Mevcut gözlemlenebilirlik araçları neden agent hatalarını yakalayamıyor?

LangSmith ve LangFuse gibi araçlar olaydan sonra hata ayıklama için tasarlanmış. Trace, gecikme ve token sayısı gösteriyorlar, ama gerçek zamanlı güvenilirlik puanlaması, maliyet önleme veya iş sonucu korelasyonu sunmuyorlar. Uçuş kaydedici gibiler, çarpışma önleme sistemi değil.

+ $187 problemi nedir?

Bir geliştiricinin GPT-4o agent'ı retry döngüsüne girdi, başarısız bir analizi tekrar tekrar denedi ve 10 dakikada $187'a mal oldu. Hiçbir monitoring aracı uyarı vermedi. Bu kalıp (agent döngülerinin uyarı vermeden API kredilerini tüketmesi) prodüksiyon dağıtımlarında yaygın.

+ Monitoring araçlarının kendisi prodüksiyon sorunlarına yol açabilir mi?

Evet. LangSmith'in @traceable decorator'ı bir LangSmith kesintisi sırasında prodüksiyon uygulamalarını çökertti. AgentOps 100+ event kaydederken deadlock'a giriyor. Langfuse'un self-hosted dashboard'u prodüksiyon yükü altında timeout veriyor. Monitoring katmanı güvenilirlik riski haline gelebiliyor.

+ Daha iyi agent izleme nasıl görünürdü?

Üç yetenek: (1) Gerçek zamanlı güvenilirlik puanlaması (çıktı doğrulama, halüsinasyon kontrolü, anomalileri birleştiren tek bir 0-100 puan), (2) İş sonucu bağlantısı (agent'ın eylemi değer üretti mi?), (3) Metrikler eşiği aştığında webhook ile basit uyarı.

ai afaik

Her şeyi trace edebiliyoruz ama hiçbir şeyi anlamıyoruz

Sürekli karşıma çıkan üç kör nokta

Maliyet olaydan sonra takip ediliyor, önlenmiyor

Monitoring aracının kendisi risk haline geliyor

Kimse agent performansını iş sonuçlarına bağlamıyor

Gerçekten ne işe yarardı?

Bunu araştırıyorum. Yardımcı olur musunuz?

İLGİLİ

LLM Üretim Sistemlerinde Çok Katmanlı Savunma: Layer 0'dan Human-in-the-Loop'a

LLM Agent Seviyesi Bozulma Modları: Task Drift, Reward Hacking, Alignment Faking ve Fazlası

LLM Temel Bozulma Modları: Hallucination, Sycophancy, Context Rot, Instruction Attenuation

Sektör trendleriüzerine kendi okumam

Sektör trendleri
üzerine kendi okumam