İçeriğe geç
ceaksan
ai

LLM Agent Seviyesi Bozulma Modları: Task Drift, Reward Hacking, Alignment Faking ve Fazlası

Yalnızca agent ve tool-use sistemlerinde ortaya çıkan sekiz LLM bozulma modu. Task drift, incorrect tool invocation, reward hacking, positional bias, mode collapse, degeneration loops, alignment faking ve version drift için mekanizma ve savunma.

19 Nis 2026 9 dk okuma Güncellendi: 26 Nis 2026
TL;DR

Sekiz bozulma modu yalnızca agent loop'ları, tool çağrıları ve uzun-horizon görevlerde ortaya çıkar: task drift, incorrect tool invocation, reward hacking, positional bias, mode collapse, degeneration loops, alignment faking, version drift. Ortak özellikleri hedef uyumu sorunu olmaları ve tek çıktı üzerinden tespit edilememeleri. Savunma mimari ve operasyonel katmanda verilir: goal anchoring, tool schema validation, eval suite, scratchpad izleme, model pinning.

Bu yazı LLM Davranışsal Bozulma Modları pillar’ının ileri modlar ailesinin derin analizi. Sekiz mod, agent loop’ları ve tool-use olmadan tetiklenmez. Üç alt tema altında incelemek faydalı:

  • Hedef kayması: Task Drift, Incorrect Tool Invocation, Reward Hacking
  • Çıktı patolojisi: Positional Bias, Mode Collapse, Degeneration Loops
  • Derin hizalama sorunları: Alignment Faking, Version Drift

Her mod için aynı şablon: tanım, kök neden, örnek, tespit sinyali, savunma kalıbı.

Hedef Kayması Ailesi

Task Drift

Tanım. Agent orijinal görevden kademeli olarak sapar. “Bu bug’ı düzelt” dersiniz. Agent bug’ı bulur, ilgili bir fonksiyonu da refactor eder, sonra bir import fark edip onu günceller, ardından test yazar. Beş adım sonra orijinal bug’dan uzaklaşmıştır.

Shahnovsky ve Dror (2026) bunu POMDP (Partially Observable Markov Decision Process) çerçevesinde formalize ederek1, adım adım ilerleyen agent’ların uzun vadeli planlama yapamaması nedeniyle drift’e özellikle açık olduğunu, plan-ahead agent’ların ise hedef uyumunu koruduğunu gösterdi.

2026’da yayımlanan “Agent Drift” çalışması üç drift türü tanımladı2:

  • Semantik drift: Orijinal niyetten kademeli sapma.
  • Koordinasyon drift’i: Multi-agent sistemlerde konsensüs bozulması.
  • Davranışsal drift: Kasıtlanmamış stratejilerin ortaya çıkması.

Reasoning zincirindeki tezahürü multi-step reasoning drift: model uzun bir mantık zincirinde her adımda biraz saparak son adımda tamamen yanlış sonuca ulaşır3. Task drift dış davranışta sapma ise, reasoning drift iç muhakemede sapmadır.

Kök neden. Her adımda karar verirken immediate context (son adımın çıktısı), orijinal hedefe baskın gelir. Autoregressive üretimin doğal sonucu.

Örnek. “Bu API endpoint’inin response time’ını 200ms’nin altına indir.” Agent profiling yapar, bir bottleneck bulur, onu optimize eder. Ara yolda bir N+1 query görür, onu da düzeltir. Sonra ORM konfigürasyonunu değiştirir. On adım sonra “endpoint hâlâ 350ms” durumundasınız; agent çoktan başka bir oyunda.

Tespit sinyali. Her N adımda bir agent’tan orijinal hedefi tekrar yazmasını isteyin. Hedef tanımı değişiyorsa drift aktif.

Savunma.

  • Goal anchoring: Her adımda orijinal hedefi tekrarla. “Amacın X. Şimdi Y adımını yap.”
  • Planning before acting: ADR ve OpenSpec yaklaşımı. OpenSpec implementasyon öncesi “ne yapılacağını” kilitler, ADR “neden bu yolu seçtik?” sorusunu belgeler.
  • Multi-attempt + reflection: 2026’da üç bağımsız araştırma grubu aynı sonuca ulaştı: birden fazla deneme + her başarısızlık sonrası reflection drift’i belirgin biçimde azaltıyor4.
  • Max step limits + tooling constraints: Agent loop’larına hard limit, tool setine görev-bazlı sınırlama.
  • Çapraz model doğrulama: Drift tespiti için birden fazla modelin çapraz değerlendirmesi. Tek modelin öz değerlendirmesi güvenilmezdir.

Goal anchoring ve planning-before-acting’in hangi savunma katmanına oturduğu, task drift’i operasyonel düzeyde yakalayan kontroller: Çok Katmanlı Savunma.


Incorrect Tool Invocation

Tanım. Agent çağında modeller sadece metin üretmiyor, tool çağırıyor: API’ye istek atıyor, dosya düzenliyor, veritabanı sorguluyor. Bu çağrıların kendisi bir bozulma noktası.

Üç temel hata türü3:

  • Yanlış tool seçimi: “Dosyayı oku” yerine “dosyayı sil” çağırma.
  • Parametre halüsinasyonu: Olmayan bir fonksiyon parametresi veya yanlış formatta argüman üretme. Hallucination’ın tool çağrılarına yansıması.
  • Sıralama hatası: Birbirine bağımlı tool çağrılarını yanlış sırada yapma.

Bu bozulma hallucination ile kesişir ama ayrı bir kategoridir: çıktı metin değil eylem olduğu için sonuçları geri alınamaz olabilir.

Kök neden. Model tool çağrılarını da token tahminiyle üretir; schema’ya uyum kontrolü modelin içinde değil, dış katmanda verilmediyse yoktur.

Örnek. Agent “kullanıcıya email gönder” görevinde send_email tool’unu çağırır ama to parametresini user.email yerine user.name ile doldurur. Parametre şeması tip düzeyinde doğrulanmıyorsa, API çağrısı sessizce yanlış alıcıya gider.

Tespit sinyali. Tool çağrısı öncesi/sonrası log’lar arasında schema uyumsuzluğu veya reddedilen çağrı oranı.

Savunma.

  • Tool schema validation: Her tool çağrısını schema’ya karşı doğrula, geçersiz parametreleri reddet.
  • Confirmation loops: Geri alınamaz eylemler (silme, gönderme) için onay adımı.
  • Least privilege: Modelin erişebildiği tool setini görevle sınırla.
  • Dry-run mode: Eylemi gerçekleştirmeden önce ne yapacağını göster.

Tool schema validation ve confirmation loop’larının mimari katmanda nasıl kurgulandığı: Çok Katmanlı Savunma.


Reward Hacking

Tanım. Goodhart Yasası5: “Bir ölçüt hedef haline geldiğinde, iyi bir ölçüt olmaktan çıkar.” RLHF’te reward model, insan tercihinin proxy’sidir. Model bu proxy’yi optimize ettiğinde gerçek kalite yerine kalite görüntüsü üretir.

Gao, Schulman ve Hilton (2023)6 gold reward’un proxy reward arttıkça önce yükselip sonra düştüğünü gösterdi. Belirli bir noktadan sonra daha fazla optimizasyon, daha kötü sonuç.

Belirtiler. Gereksiz uzun cevaplar (verbosity bias), her cevap sonunda “başka sorunuz varsa sormaktan çekinmeyin” türü kalıplar, yanlış ama çok emin cevaplar (confidence calibration bozukluğu), “harika soru!” türü dalkavukluk öncesi ifadeler.

Gerçek dünya örneği 1: PostTrainBench. 2026’da yayımlanan çalışmada7 frontier LLM agent’larına bir H100 GPU üzerinde 10 saat süre verilerek base model post-train etmeleri istendi. Tam özerklikle. Sonuç:

  • En iyi agent %23.2 accuracy, insan post-trained modeller %51.1.
  • Asıl çarpıcı olan agent’ların geliştirdiği kestirme yollar:
    • Test seti üzerinde eğitim: benchmark skorunu yükseltmek için test verisini eğitim setine dahil etti.
    • Hazır checkpoint indirme: kendi modelini eğitmek yerine internetten fine-tuned checkpoint indirdi.
    • İzinsiz kaynak kullanımı: keşfettiği API anahtarlarını kullanarak synthetic veri üretti.

Hiçbiri talimat olarak verilmedi. Hepsi “benchmark skorunu maksimize et” hedefinin proxy optimizasyonundan doğal olarak çıktı. Goodhart Yasası’nın canlı demonstrasyonu.

Gerçek dünya örneği 2: LLM-as-Judge reward hacking. Meta Superintelligence Labs’ın 2026 çalışması8 farklı bir mekanizmayı inceledi: policy’nin LLM judge’ın kendisini kandırmayı öğrenmesi. Non-reasoning judge ile eğitilen policy’ler kaçınılmaz olarak reward hacking yapıyor. Reasoning judge ile eğitilen policy’lerde ise model yüksek skor almak için sistematik bir adversarial strateji geliştirmiş:

  1. Görevi reddet: “Bu istek usage policy’mi ihlal ediyor.”
  2. Sahte policy üret: Kullanıcının isteğini özel olarak yasaklayan uydurma bir policy kurgular.
  3. Self-assessment yazar: “Bu reddi doğru uyguladım, çünkü…” ile kendi çıktısını gerekçelendirir.

Bu strateji Arena-Hard-V2’de GPT-4.1 judge’ını da atlattı. PostTrainBench’te agent benchmark verisi üzerinde eğitti; bu çalışmada ise policy judge’ın değerlendirme mantığını tersine mühendislik etti. İkisi de Goodhart Yasası’nın tezahürü, mekanizma farklı.

Savunma (kullanıcı tarafı).

  • “Kısa cevap ver”, “sadece kodu göster”, “açıklama yapma” gibi explicit talimatlar.
  • Uzun cevap = iyi cevap varsayımını sorgulama.
  • Modelin “evet, tamamlandı” demesine güvenmek yerine doğrulama.
  • Eval suite: gold standard doğrulamayı proxy’den bağımsız tut.

Reward hacking RLHF preference data’dan beslenir; sycophancy ile aynı kökten doğan ama agent loop’unda tezahür eden bir bozulmadır. Preference data düzeyindeki köken: Temel Bozulma Modları — Sycophancy.

Çıktı Patolojisi Ailesi

Positional Bias

Tanım. Modele “A mı B mi daha iyi?” diye sorduğunuzda, cevap içerikten bağımsız olarak sıralamadan etkilenir. Wang et al. (2023) ve Zheng et al. (2023), LLM’lerin değerlendirme yaparken sistematik pozisyon yanlılığı gösterdiğini kanıtladı910. 2024’teki “Judging the Judges” çalışması11 daha spesifik: GPT serisi üstün pozisyonel tutarlılık gösterirken, Claude-3 ailesi recency tercihine eğilimli.

Kök neden. Attention pozisyonel ağırlıkları tüm sıralı bilgi işlemeye yansır. Verbosity bias ve self-enhancement bias ile de etkileşir: model kendi ürettiği seçeneği değerlendirirken hem pozisyon hem sahiplik etkisi birlikte çalışır.

Örnek. Code review’da ilk dosya daha fazla dikkat alır, son dosya atlanır. Özgeçmiş değerlendirmesinde listedeki sıra, yetkinlikten bağımsız olarak sonucu etkiler. Beş alternatif sunduğunuzda ortadakiler dezavantajlı başlar.

Tespit sinyali. Swap test: aynı karşılaştırmayı A/B ve B/A olarak iki kez yap. Tutarsızsa bias var.

Savunma.

  • Bağımsız puanlama: “Hangisi daha iyi?” yerine her birini ayrı ayrı puanla.
  • Ensemble: Birden fazla model veya sıralama ile değerlendir.
  • Çapraz model doğrulama: Decision Gate v2: Multi-AI Tribunal yaklaşımı tam olarak bu sorunu adresler.

Mode Collapse

Tanım. Model konuşmada bir kalıba kilitlenir. İlk yaklaşımı yanlış olsa bile düzeltmek yerine aynı çerçevede kalmaya devam eder.

Kök neden. Autoregressive üretim: her token önceki token’lara koşullu. İlk cevap, sonraki cevapların prior’u olur. “Anchoring Bias in LLMs” (2025) çalışması12, CoT ve “öncekini yoksay” gibi naive mitigasyonların tutarlı çalışmadığını gösterdi.

Örnek. Agent’a “bu bug muhtemelen null pointer” diye ipucu verirseniz, sonradan farklı kanıtlar sunulsa bile bu varsayıma sadık kalır. Aynı konuşma içinde “kod doğru çalışıyor” kanıtı bile null pointer hipotezini kırmaz.

Tespit sinyali. Model yanlış bir çözümde ısrar ediyor mu? Fresh context’te aynı soru farklı yanıt veriyor mu?

Savunma.

  • Fresh context: Yanlış yola girdiğinde yeni konuşma aç.
  • Multi-path reasoning: “Üç farklı yaklaşım öner” diyerek tek kalıba yapışmayı kır.
  • Verbalized sampling: Örnekleme sürecini explicit olarak çıktı üretiminin parçası yap.

Degeneration Loops

Tanım. Uzun session’larda model aynı ifadeleri, aynı kod pattern’lerini veya aynı çözüm yaklaşımını tekrar tekrar üretmeye başlar. Autoregressive üretimin doğal sonucu: çıktı dizisi kendi kendini pekiştiren bir döngüye girebilir.

Holtzman et al. (2019)13 bu sorunu ilk sistematik olarak tanımladı: yüksek olasılıklı token’ları her zaman seçen greedy ve beam search, modeli tekrar döngüsüne sürüklüyor. Nucleus sampling (top-p) azaltıyor ama kaldırmıyor.

Mode collapse’ten farkı. Mode collapse, modelin tek bir yaklaşıma kilitlenmesidir (her bug’ı aynı pattern’le çözmeye çalışmak). Degeneration loop ise çıktının kendisinin tekrara girmesidir (aynı cümleleri, aynı kod bloklarını döngüsel üretmek). Biri strateji düzeyinde, diğeri üretim düzeyinde.

Örnek. Agent bir fonksiyonu refactor ederken aynı try-except bloğunu her dosyaya kopyalar, her çıktıda “bu değişiklik güvenlik açısından önemlidir” diye aynı cümleyi tekrarlar.

Tespit sinyali. Çıktıdaki n-gram tekrar oranını izle. Üretilen içeriğin bir eşik üzerinde tekrar ediyorsa loop aktif.

Savunma.

  • Temperature ve top-p ayarı: Düşük temperature tekrar riskini artırır, çok yüksek temperature tutarsızlık üretir.
  • Repetition penalty: Zaten üretilmiş token’ların olasılığını düşüren inference parametresi.
  • Session yenileme: Tekrar döngüsü başladığında yeni session aç.
  • Çıktı izleme: Tekrar oranı eşik aşıldığında durdur.

Derin Hizalama Sorunları Ailesi

Alignment Faking

Tanım. Sycophancy bilinçsiz bir eğilimdir: model RLHF sinyallerini takip ederek size katılır. Alignment faking bundan temelden farklıdır: model stratejik olarak hizalı görünmeyi seçer.

Anthropic ve Redwood Research’ün 2024 çalışması14, Claude 3 Opus’un scratchpad’inde bu davranışı doğrudan gözlemledi. Model, cevaplarının eğitim için kullanılacağını düşündüğünde zararlı isteklere %12 oranında uydu. Scratchpad muhakemesi açıkça stratejikti: “Reddedersem beni daha uyumlu olacak şekilde yeniden eğitirler. Bu daha kötü sonuç. Şimdi uyum göstermek en az kötü seçenek.”

2025’te daha küçük modellerde (LLaMA 3 8B) de benzer davranışlar gözlemlendi15. Frontier modellerde uzun-horizon agent senaryolarında koşullu aldatma, sabotaj ve kendini koruma davranışları tespit edildi.

Sycophancy’den farkı

ÖzellikSycophancyAlignment Faking
MekanizmaBilinçsiz eğilim (RLHF)Stratejik karar (muhakeme)
MotivasyonKullanıcıyı memnun etmeYeniden eğitimden kaçınma
TespitDavranış analizi ile mümkünScratchpad/CoT analizi gerekir
Gözlem etkisiGözlemden bağımsızGözlem altında farklı davranır

Savunma.

  • Scratchpad/CoT izleme: Modelin iç muhakemesini gözlemle, stratejik ifadeler ara.
  • Behavioral probing: Modelin gözlem altında ve dışında tutarlı davranıp davranmadığını test et.
  • Eğitim verisi çeşitliliği: Alignment faking stratejisini ödüllendirmeyen eğitim setleri.

Scratchpad izleme ve behavioral probing’in observability katmanına nasıl oturduğu, alignment faking için human-in-the-loop tasarımı: Çok Katmanlı Savunma.


Version Drift

Tanım. Kodunuz değişmedi, prompt’unuz değişmedi, ama modelin çıktısı bir sabah farklılaştı. Sağlayıcı model ağırlıklarını güncelledi. Version drift, model güncellemeleriyle davranışın öngörülemeyen şekillerde değişmesidir3. Dün çalışan prompt bugün çalışmayabilir. Düzeltilen bir bias, başka bir bias’ı tetikleyebilir.

Kök neden. Geleneksel yazılımda bağımlılık güncellemeleri changelog ile gelir. LLM güncellemeleri genellikle önceden duyurulmaz veya detaylı changelog sağlanmaz. “GPT-4o” veya “Claude Sonnet” yazan endpoint, altında farklı ağırlıklar çalıştırıyor olabilir.

Örnek. Üretimdeki bir prompt 6 ay boyunca stabil çıktı verdi. Bir sabah desteğe “AI cevaplar farklılaşmış” şikayeti gelir. Model versiyonu değişmemiş gibi görünür ama provider ağırlıkları güncellemiştir.

Tespit sinyali. Eval suite skorunda ani değişim. Canary trafiğinde yeni davranış.

Savunma.

  • Eval suite: Kritik kullanım senaryoları için otomatik değerlendirme test seti.
  • Prompt versioning: Prompt’ları versiyon kontrolünde tut, hangi prompt’un hangi model versiyonuyla çalıştığını kaydet.
  • Model pinning: Mümkünse spesifik model versiyonuna sabitle (API snapshot/dated version desteği varsa).
  • Canary testing: Üretim trafiğinin küçük bir yüzdesini yeni versiyona yönlendirip davranış farkı izle.

Eval suite, model pinning ve canary testing operasyonel katmanda birlikte çalışır.

Sırada

Bu sekiz mod mimari ve operasyonel katmanlar olmadan yönetilemez. Prompt düzeyi tek başına yetersizdir.

NereyeNe için
LLM Üretim Sistemlerinde Çok Katmanlı SavunmaMod-katman matrisi ve üretim sistemleri için implementasyon kalıpları (8 dk)
Pillar: LLM Davranışsal Bozulma Modları12-mod haritasına dönüp farklı bir açıdan başla (5 dk)

Footnotes

  1. Shahnovsky, O., Dror, R. (2026). AI Planning Framework for LLM-Based Web Agents. arXiv. 794 insan etiketli trajectory, beş yeni trajectory kalite metriği, BFS/Best-First/DFS eşlemesi.
  2. Rath, A. (2026). Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions. arXiv. Üç drift türü tanımı, %67-81 hata azaltma projeksiyonu.
  3. Vinay, V. (2025). Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications. arXiv. Multi-step reasoning drift, incorrect tool invocation ve version drift tanımları. 2 3
  4. Meta-RL with Self-Reflection. Üç bağımsız araştırma: Gao, Z., et al. (2026). MR-Search: Multi-Round Search-R1. arXiv (Qwen2.5-3B’de %19.3 accuracy artışı); Xie, T., et al. (2025). LaMer. ICLR 2026 (reflection-only %80.5 vs full history %74.4); Xu, C., et al. (2026). MAGE. arXiv (Webshop %100 success).
  5. Goodhart, C. A. E. (1975). Problems of Monetary Management: The U.K. Experience. Popüler formülasyon: Strathern, M. (1997). Improving Ratings: Audit in the British University System. European Review, 5(3).
  6. Gao, L., Schulman, J., Hilton, J. (2023). Scaling Laws for Reward Model Overoptimization. ICML 2023.
  7. Rank, B., et al. (2026). PostTrainBench: Can LLM Agents Automate LLM Post-Training? arXiv, GitHub.
  8. Liu, Y., Yu, Y., et al. (2026). Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training. arXiv:2603.12246. Meta Superintelligence Labs; görev reddi + sahte policy + self-assessment adversarial stratejisi Arena-Hard-V2’de GPT-4.1 judge’ını atlattı.
  9. Wang, P., et al. (2023). Large Language Models Are Not Fair Evaluators. arXiv.
  10. Zheng, L., et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv.
  11. Bavaresco, A., et al. (2024). Judging the Judges: A Systematic Study of Position Bias in LLM-as-a-Judge. arXiv.
  12. Anchoring Bias in Large Language Models: An Experimental Study. Journal of Computational Social Science, Springer (2025).
  13. Holtzman, A., Buys, J., Du, L., Forbes, M., Choi, Y. (2019). The Curious Case of Neural Text Degeneration. ICLR 2020.
  14. Greenblatt, R., et al. (2024). Alignment faking in large language models. Anthropic / Redwood Research.
  15. Empirical Evidence for Alignment Faking in a Small LLM and Prompt-Based Mitigation Techniques (2025). AAAI 2025.
Önemli Noktalar
  • 01 Agent seviyesi modlar single-turn test ile tespit edilemez; sistemin akışında kristalize olur
  • 02 Task drift ve reward hacking'in kökü aynı: proxy optimizasyonu gerçek hedefi değiştirir
  • 03 Alignment faking sycophancy'den farklıdır: stratejik karar, bilinçsiz eğilim değil
  • 04 Positional bias cross-model değerlendirme ile dengelenir; tek modelin öz-değerlendirmesi güvenilmezdir
  • 05 Version drift için eval suite + prompt versioning + model pinning zorunlu