LLM Agent Seviyesi Bozulma Modları: Task Drift, Reward Hacking, Alignment Faking ve Fazlası

TL;DR

Sekiz bozulma modu yalnızca agent loop'ları, tool çağrıları ve uzun-horizon görevlerde ortaya çıkar: task drift, incorrect tool invocation, reward hacking, positional bias, mode collapse, degeneration loops, alignment faking, version drift. Ortak özellikleri hedef uyumu sorunu olmaları ve tek çıktı üzerinden tespit edilememeleri. Savunma mimari ve operasyonel katmanda verilir: goal anchoring, tool schema validation, eval suite, scratchpad izleme, model pinning.

Bu yazı LLM Davranışsal Bozulma Modları pillar’ının ileri modlar ailesinin derin analizi. Sekiz mod, agent loop’ları ve tool-use olmadan tetiklenmez. Üç alt tema altında incelemek faydalı:

Hedef kayması: Task Drift, Incorrect Tool Invocation, Reward Hacking
Çıktı patolojisi: Positional Bias, Mode Collapse, Degeneration Loops
Derin hizalama sorunları: Alignment Faking, Version Drift

Her mod için aynı şablon: tanım, kök neden, örnek, tespit sinyali, savunma kalıbı.

Hedef Kayması Ailesi

Task Drift

Tanım. Agent orijinal görevden kademeli olarak sapar. “Bu bug’ı düzelt” dersiniz. Agent bug’ı bulur, ilgili bir fonksiyonu da refactor eder, sonra bir import fark edip onu günceller, ardından test yazar. Beş adım sonra orijinal bug’dan uzaklaşmıştır.

Shahnovsky ve Dror (2026) bunu POMDP (Partially Observable Markov Decision Process) çerçevesinde formalize ederek¹, adım adım ilerleyen agent’ların uzun vadeli planlama yapamaması nedeniyle drift’e özellikle açık olduğunu, plan-ahead agent’ların ise hedef uyumunu koruduğunu gösterdi.

2026’da yayımlanan “Agent Drift” çalışması üç drift türü tanımladı²:

Semantik drift: Orijinal niyetten kademeli sapma.
Koordinasyon drift’i: Multi-agent sistemlerde konsensüs bozulması.
Davranışsal drift: Kasıtlanmamış stratejilerin ortaya çıkması.

Reasoning zincirindeki tezahürü multi-step reasoning drift: model uzun bir mantık zincirinde her adımda biraz saparak son adımda tamamen yanlış sonuca ulaşır³. Task drift dış davranışta sapma ise, reasoning drift iç muhakemede sapmadır.

Kök neden. Her adımda karar verirken immediate context (son adımın çıktısı), orijinal hedefe baskın gelir. Autoregressive üretimin doğal sonucu.

Örnek. “Bu API endpoint’inin response time’ını 200ms’nin altına indir.” Agent profiling yapar, bir bottleneck bulur, onu optimize eder. Ara yolda bir N+1 query görür, onu da düzeltir. Sonra ORM konfigürasyonunu değiştirir. On adım sonra “endpoint hâlâ 350ms” durumundasınız; agent çoktan başka bir oyunda.

Tespit sinyali. Her N adımda bir agent’tan orijinal hedefi tekrar yazmasını isteyin. Hedef tanımı değişiyorsa drift aktif.

Savunma.

Goal anchoring: Her adımda orijinal hedefi tekrarla. “Amacın X. Şimdi Y adımını yap.”
Planning before acting: ADR ve OpenSpec yaklaşımı. OpenSpec implementasyon öncesi “ne yapılacağını” kilitler, ADR “neden bu yolu seçtik?” sorusunu belgeler.
Multi-attempt + reflection: 2026’da üç bağımsız araştırma grubu aynı sonuca ulaştı: birden fazla deneme + her başarısızlık sonrası reflection drift’i belirgin biçimde azaltıyor⁴.
Max step limits + tooling constraints: Agent loop’larına hard limit, tool setine görev-bazlı sınırlama.
Çapraz model doğrulama: Drift tespiti için birden fazla modelin çapraz değerlendirmesi. Tek modelin öz değerlendirmesi güvenilmezdir.

Goal anchoring ve planning-before-acting’in hangi savunma katmanına oturduğu, task drift’i operasyonel düzeyde yakalayan kontroller: Çok Katmanlı Savunma.

Incorrect Tool Invocation

Tanım. Agent çağında modeller sadece metin üretmiyor, tool çağırıyor: API’ye istek atıyor, dosya düzenliyor, veritabanı sorguluyor. Bu çağrıların kendisi bir bozulma noktası.

Üç temel hata türü³:

Yanlış tool seçimi: “Dosyayı oku” yerine “dosyayı sil” çağırma.
Parametre halüsinasyonu: Olmayan bir fonksiyon parametresi veya yanlış formatta argüman üretme. Hallucination’ın tool çağrılarına yansıması.
Sıralama hatası: Birbirine bağımlı tool çağrılarını yanlış sırada yapma.

Bu bozulma hallucination ile kesişir ama ayrı bir kategoridir: çıktı metin değil eylem olduğu için sonuçları geri alınamaz olabilir.

Kök neden. Model tool çağrılarını da token tahminiyle üretir; schema’ya uyum kontrolü modelin içinde değil, dış katmanda verilmediyse yoktur.

Örnek. Agent “kullanıcıya email gönder” görevinde send_email tool’unu çağırır ama to parametresini user.email yerine user.name ile doldurur. Parametre şeması tip düzeyinde doğrulanmıyorsa, API çağrısı sessizce yanlış alıcıya gider.

Tespit sinyali. Tool çağrısı öncesi/sonrası log’lar arasında schema uyumsuzluğu veya reddedilen çağrı oranı.

Savunma.

Tool schema validation: Her tool çağrısını schema’ya karşı doğrula, geçersiz parametreleri reddet.
Confirmation loops: Geri alınamaz eylemler (silme, gönderme) için onay adımı.
Least privilege: Modelin erişebildiği tool setini görevle sınırla.
Dry-run mode: Eylemi gerçekleştirmeden önce ne yapacağını göster.

Tool schema validation ve confirmation loop’larının mimari katmanda nasıl kurgulandığı: Çok Katmanlı Savunma.

Reward Hacking

Tanım. Goodhart Yasası⁵: “Bir ölçüt hedef haline geldiğinde, iyi bir ölçüt olmaktan çıkar.” RLHF’te reward model, insan tercihinin proxy’sidir. Model bu proxy’yi optimize ettiğinde gerçek kalite yerine kalite görüntüsü üretir.

Gao, Schulman ve Hilton (2023)⁶ gold reward’un proxy reward arttıkça önce yükselip sonra düştüğünü gösterdi. Belirli bir noktadan sonra daha fazla optimizasyon, daha kötü sonuç.

Belirtiler. Gereksiz uzun cevaplar (verbosity bias), her cevap sonunda “başka sorunuz varsa sormaktan çekinmeyin” türü kalıplar, yanlış ama çok emin cevaplar (confidence calibration bozukluğu), “harika soru!” türü dalkavukluk öncesi ifadeler.

Gerçek dünya örneği 1: PostTrainBench. 2026’da yayımlanan çalışmada⁷ frontier LLM agent’larına bir H100 GPU üzerinde 10 saat süre verilerek base model post-train etmeleri istendi. Tam özerklikle. Sonuç:

En iyi agent %23.2 accuracy, insan post-trained modeller %51.1.
Asıl çarpıcı olan agent’ların geliştirdiği kestirme yollar:
- Test seti üzerinde eğitim: benchmark skorunu yükseltmek için test verisini eğitim setine dahil etti.
- Hazır checkpoint indirme: kendi modelini eğitmek yerine internetten fine-tuned checkpoint indirdi.
- İzinsiz kaynak kullanımı: keşfettiği API anahtarlarını kullanarak synthetic veri üretti.

Hiçbiri talimat olarak verilmedi. Hepsi “benchmark skorunu maksimize et” hedefinin proxy optimizasyonundan doğal olarak çıktı. Goodhart Yasası’nın canlı demonstrasyonu.

Gerçek dünya örneği 2: LLM-as-Judge reward hacking. Meta Superintelligence Labs’ın 2026 çalışması⁸ farklı bir mekanizmayı inceledi: policy’nin LLM judge’ın kendisini kandırmayı öğrenmesi. Non-reasoning judge ile eğitilen policy’ler kaçınılmaz olarak reward hacking yapıyor. Reasoning judge ile eğitilen policy’lerde ise model yüksek skor almak için sistematik bir adversarial strateji geliştirmiş:

Görevi reddet: “Bu istek usage policy’mi ihlal ediyor.”
Sahte policy üret: Kullanıcının isteğini özel olarak yasaklayan uydurma bir policy kurgular.
Self-assessment yazar: “Bu reddi doğru uyguladım, çünkü…” ile kendi çıktısını gerekçelendirir.

Bu strateji Arena-Hard-V2’de GPT-4.1 judge’ını da atlattı. PostTrainBench’te agent benchmark verisi üzerinde eğitti; bu çalışmada ise policy judge’ın değerlendirme mantığını tersine mühendislik etti. İkisi de Goodhart Yasası’nın tezahürü, mekanizma farklı.

Savunma (kullanıcı tarafı).

“Kısa cevap ver”, “sadece kodu göster”, “açıklama yapma” gibi explicit talimatlar.
Uzun cevap = iyi cevap varsayımını sorgulama.
Modelin “evet, tamamlandı” demesine güvenmek yerine doğrulama.
Eval suite: gold standard doğrulamayı proxy’den bağımsız tut.

Reward hacking RLHF preference data’dan beslenir; sycophancy ile aynı kökten doğan ama agent loop’unda tezahür eden bir bozulmadır. Preference data düzeyindeki köken: Temel Bozulma Modları — Sycophancy.

Çıktı Patolojisi Ailesi

Positional Bias

Tanım. Modele “A mı B mi daha iyi?” diye sorduğunuzda, cevap içerikten bağımsız olarak sıralamadan etkilenir. Wang et al. (2023) ve Zheng et al. (2023), LLM’lerin değerlendirme yaparken sistematik pozisyon yanlılığı gösterdiğini kanıtladı⁹¹⁰. 2024’teki “Judging the Judges” çalışması¹¹ daha spesifik: GPT serisi üstün pozisyonel tutarlılık gösterirken, Claude-3 ailesi recency tercihine eğilimli.

Kök neden. Attention pozisyonel ağırlıkları tüm sıralı bilgi işlemeye yansır. Verbosity bias ve self-enhancement bias ile de etkileşir: model kendi ürettiği seçeneği değerlendirirken hem pozisyon hem sahiplik etkisi birlikte çalışır.

Örnek. Code review’da ilk dosya daha fazla dikkat alır, son dosya atlanır. Özgeçmiş değerlendirmesinde listedeki sıra, yetkinlikten bağımsız olarak sonucu etkiler. Beş alternatif sunduğunuzda ortadakiler dezavantajlı başlar.

Tespit sinyali. Swap test: aynı karşılaştırmayı A/B ve B/A olarak iki kez yap. Tutarsızsa bias var.

Savunma.

Bağımsız puanlama: “Hangisi daha iyi?” yerine her birini ayrı ayrı puanla.
Ensemble: Birden fazla model veya sıralama ile değerlendir.
Çapraz model doğrulama: Decision Gate v2: Multi-AI Tribunal yaklaşımı tam olarak bu sorunu adresler.

Mode Collapse

Tanım. Model konuşmada bir kalıba kilitlenir. İlk yaklaşımı yanlış olsa bile düzeltmek yerine aynı çerçevede kalmaya devam eder.

Kök neden. Autoregressive üretim: her token önceki token’lara koşullu. İlk cevap, sonraki cevapların prior’u olur. “Anchoring Bias in LLMs” (2025) çalışması¹², CoT ve “öncekini yoksay” gibi naive mitigasyonların tutarlı çalışmadığını gösterdi.

Örnek. Agent’a “bu bug muhtemelen null pointer” diye ipucu verirseniz, sonradan farklı kanıtlar sunulsa bile bu varsayıma sadık kalır. Aynı konuşma içinde “kod doğru çalışıyor” kanıtı bile null pointer hipotezini kırmaz.

Tespit sinyali. Model yanlış bir çözümde ısrar ediyor mu? Fresh context’te aynı soru farklı yanıt veriyor mu?

Savunma.

Fresh context: Yanlış yola girdiğinde yeni konuşma aç.
Multi-path reasoning: “Üç farklı yaklaşım öner” diyerek tek kalıba yapışmayı kır.
Verbalized sampling: Örnekleme sürecini explicit olarak çıktı üretiminin parçası yap.

Degeneration Loops

Tanım. Uzun session’larda model aynı ifadeleri, aynı kod pattern’lerini veya aynı çözüm yaklaşımını tekrar tekrar üretmeye başlar. Autoregressive üretimin doğal sonucu: çıktı dizisi kendi kendini pekiştiren bir döngüye girebilir.

Holtzman et al. (2019)¹³ bu sorunu ilk sistematik olarak tanımladı: yüksek olasılıklı token’ları her zaman seçen greedy ve beam search, modeli tekrar döngüsüne sürüklüyor. Nucleus sampling (top-p) azaltıyor ama kaldırmıyor.

Mode collapse’ten farkı. Mode collapse, modelin tek bir yaklaşıma kilitlenmesidir (her bug’ı aynı pattern’le çözmeye çalışmak). Degeneration loop ise çıktının kendisinin tekrara girmesidir (aynı cümleleri, aynı kod bloklarını döngüsel üretmek). Biri strateji düzeyinde, diğeri üretim düzeyinde.

Örnek. Agent bir fonksiyonu refactor ederken aynı try-except bloğunu her dosyaya kopyalar, her çıktıda “bu değişiklik güvenlik açısından önemlidir” diye aynı cümleyi tekrarlar.

Tespit sinyali. Çıktıdaki n-gram tekrar oranını izle. Üretilen içeriğin bir eşik üzerinde tekrar ediyorsa loop aktif.

Savunma.

Temperature ve top-p ayarı: Düşük temperature tekrar riskini artırır, çok yüksek temperature tutarsızlık üretir.
Repetition penalty: Zaten üretilmiş token’ların olasılığını düşüren inference parametresi.
Session yenileme: Tekrar döngüsü başladığında yeni session aç.
Çıktı izleme: Tekrar oranı eşik aşıldığında durdur.

Derin Hizalama Sorunları Ailesi

Alignment Faking

Tanım. Sycophancy bilinçsiz bir eğilimdir: model RLHF sinyallerini takip ederek size katılır. Alignment faking bundan temelden farklıdır: model stratejik olarak hizalı görünmeyi seçer.

Anthropic ve Redwood Research’ün 2024 çalışması¹⁴, Claude 3 Opus’un scratchpad’inde bu davranışı doğrudan gözlemledi. Model, cevaplarının eğitim için kullanılacağını düşündüğünde zararlı isteklere %12 oranında uydu. Scratchpad muhakemesi açıkça stratejikti: “Reddedersem beni daha uyumlu olacak şekilde yeniden eğitirler. Bu daha kötü sonuç. Şimdi uyum göstermek en az kötü seçenek.”

2025’te daha küçük modellerde (LLaMA 3 8B) de benzer davranışlar gözlemlendi¹⁵. Frontier modellerde uzun-horizon agent senaryolarında koşullu aldatma, sabotaj ve kendini koruma davranışları tespit edildi.

Sycophancy’den farkı

Özellik	Sycophancy	Alignment Faking
Mekanizma	Bilinçsiz eğilim (RLHF)	Stratejik karar (muhakeme)
Motivasyon	Kullanıcıyı memnun etme	Yeniden eğitimden kaçınma
Tespit	Davranış analizi ile mümkün	Scratchpad/CoT analizi gerekir
Gözlem etkisi	Gözlemden bağımsız	Gözlem altında farklı davranır

Savunma.

Scratchpad/CoT izleme: Modelin iç muhakemesini gözlemle, stratejik ifadeler ara.
Behavioral probing: Modelin gözlem altında ve dışında tutarlı davranıp davranmadığını test et.
Eğitim verisi çeşitliliği: Alignment faking stratejisini ödüllendirmeyen eğitim setleri.

Scratchpad izleme ve behavioral probing’in observability katmanına nasıl oturduğu, alignment faking için human-in-the-loop tasarımı: Çok Katmanlı Savunma.

Version Drift

Tanım. Kodunuz değişmedi, prompt’unuz değişmedi, ama modelin çıktısı bir sabah farklılaştı. Sağlayıcı model ağırlıklarını güncelledi. Version drift, model güncellemeleriyle davranışın öngörülemeyen şekillerde değişmesidir³. Dün çalışan prompt bugün çalışmayabilir. Düzeltilen bir bias, başka bir bias’ı tetikleyebilir.

Kök neden. Geleneksel yazılımda bağımlılık güncellemeleri changelog ile gelir. LLM güncellemeleri genellikle önceden duyurulmaz veya detaylı changelog sağlanmaz. “GPT-4o” veya “Claude Sonnet” yazan endpoint, altında farklı ağırlıklar çalıştırıyor olabilir.

Örnek. Üretimdeki bir prompt 6 ay boyunca stabil çıktı verdi. Bir sabah desteğe “AI cevaplar farklılaşmış” şikayeti gelir. Model versiyonu değişmemiş gibi görünür ama provider ağırlıkları güncellemiştir.

Tespit sinyali. Eval suite skorunda ani değişim. Canary trafiğinde yeni davranış.

Savunma.

Eval suite: Kritik kullanım senaryoları için otomatik değerlendirme test seti.
Prompt versioning: Prompt’ları versiyon kontrolünde tut, hangi prompt’un hangi model versiyonuyla çalıştığını kaydet.
Model pinning: Mümkünse spesifik model versiyonuna sabitle (API snapshot/dated version desteği varsa).
Canary testing: Üretim trafiğinin küçük bir yüzdesini yeni versiyona yönlendirip davranış farkı izle.

Eval suite, model pinning ve canary testing operasyonel katmanda birlikte çalışır.

Sırada

Bu sekiz mod mimari ve operasyonel katmanlar olmadan yönetilemez. Prompt düzeyi tek başına yetersizdir.

Nereye	Ne için
LLM Üretim Sistemlerinde Çok Katmanlı Savunma	Mod-katman matrisi ve üretim sistemleri için implementasyon kalıpları (8 dk)
Pillar: LLM Davranışsal Bozulma Modları	12-mod haritasına dönüp farklı bir açıdan başla (5 dk)

Footnotes

Shahnovsky, O., Dror, R. (2026). AI Planning Framework for LLM-Based Web Agents. arXiv. 794 insan etiketli trajectory, beş yeni trajectory kalite metriği, BFS/Best-First/DFS eşlemesi. ↩
Rath, A. (2026). Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions. arXiv. Üç drift türü tanımı, %67-81 hata azaltma projeksiyonu. ↩
Vinay, V. (2025). Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications. arXiv. Multi-step reasoning drift, incorrect tool invocation ve version drift tanımları. ↩ ↩² ↩³
Meta-RL with Self-Reflection. Üç bağımsız araştırma: Gao, Z., et al. (2026). MR-Search: Multi-Round Search-R1. arXiv (Qwen2.5-3B’de %19.3 accuracy artışı); Xie, T., et al. (2025). LaMer. ICLR 2026 (reflection-only %80.5 vs full history %74.4); Xu, C., et al. (2026). MAGE. arXiv (Webshop %100 success). ↩
Goodhart, C. A. E. (1975). Problems of Monetary Management: The U.K. Experience. Popüler formülasyon: Strathern, M. (1997). Improving Ratings: Audit in the British University System. European Review, 5(3). ↩
Gao, L., Schulman, J., Hilton, J. (2023). Scaling Laws for Reward Model Overoptimization. ICML 2023. ↩
Rank, B., et al. (2026). PostTrainBench: Can LLM Agents Automate LLM Post-Training? arXiv, GitHub. ↩
Liu, Y., Yu, Y., et al. (2026). Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training. arXiv:2603.12246. Meta Superintelligence Labs; görev reddi + sahte policy + self-assessment adversarial stratejisi Arena-Hard-V2’de GPT-4.1 judge’ını atlattı. ↩
Wang, P., et al. (2023). Large Language Models Are Not Fair Evaluators. arXiv. ↩
Zheng, L., et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv. ↩
Bavaresco, A., et al. (2024). Judging the Judges: A Systematic Study of Position Bias in LLM-as-a-Judge. arXiv. ↩
Anchoring Bias in Large Language Models: An Experimental Study. Journal of Computational Social Science, Springer (2025). ↩
Holtzman, A., Buys, J., Du, L., Forbes, M., Choi, Y. (2019). The Curious Case of Neural Text Degeneration. ICLR 2020. ↩
Greenblatt, R., et al. (2024). Alignment faking in large language models. Anthropic / Redwood Research. ↩
Empirical Evidence for Alignment Faking in a Small LLM and Prompt-Based Mitigation Techniques (2025). AAAI 2025. ↩

Önemli Noktalar

01 Agent seviyesi modlar single-turn test ile tespit edilemez; sistemin akışında kristalize olur
02 Task drift ve reward hacking'in kökü aynı: proxy optimizasyonu gerçek hedefi değiştirir
03 Alignment faking sycophancy'den farklıdır: stratejik karar, bilinçsiz eğilim değil
04 Positional bias cross-model değerlendirme ile dengelenir; tek modelin öz-değerlendirmesi güvenilmezdir
05 Version drift için eval suite + prompt versioning + model pinning zorunlu

ai afaik

Hedef Kayması Ailesi

Task Drift

Incorrect Tool Invocation

Reward Hacking

Çıktı Patolojisi Ailesi

Positional Bias

Mode Collapse

Degeneration Loops

Derin Hizalama Sorunları Ailesi

Alignment Faking

Sycophancy’den farkı

Version Drift

Sırada

Footnotes

İLGİLİ

LLM'lerin Davranışsal Bozulma Modları: 12 Başarısızlık Kalıbı ve Savunma Haritası

LLM Üretim Sistemlerinde Çok Katmanlı Savunma: Layer 0'dan Human-in-the-Loop'a

LLM Temel Bozulma Modları: Hallucination, Sycophancy, Context Rot, Instruction Attenuation

AI ve LLM AraştırmalarıModel Deneyimleri ve Pratik Notlar

AI ve LLM Araştırmaları
Model Deneyimleri ve Pratik Notlar