İçeriğe geç
ceaksan
ai

LLM Temel Bozulma Modları: Hallucination, Sycophancy, Context Rot, Instruction Attenuation

Tek promptta bile ortaya çıkan dört LLM bozulma modu. Hallucination ve confabulation, sycophancy, context rot ve instruction attenuation için mekanizma, akademik kanıt ve savunma kalıpları.

18 Nis 2026 7 dk okuma Güncellendi: 25 Nis 2026
TL;DR

Hallucination, sycophancy, context rot ve instruction attenuation tek promptta bile görülen temel LLM bozulma modlarıdır. Ortak özellikleri çıktı kalitesi sorunu olmaları ve model için farkına varılamaz olmaları. Kök nedenleri mimari (en olası token seçimi, attention pozisyon ağırlıkları) ve eğitim süreci (RLHF preference data). Savunma katmanlarının önemli bir kısmı prompt ve retrieval seviyesinde kurulur: RAG, Chain-of-Verification, pre-commitment, context engineering, Forget-Me-Not re-injection.

Bu yazı LLM Davranışsal Bozulma Modları pillar’ının temel modlar ailesinin derin analizi. Dört mod: hallucination, sycophancy, context rot, instruction attenuation. Ortak özellikleri tek promptta bile gözlenebilmeleri; tool veya agent çerçevesi zorunlu değil.

Her mod için aynı şablonu takip ediyorum: tanım, kök neden, örnek, tespit sinyali, savunma kalıbı.


Hallucination ve Confabulation

Tanım

Model olmayan bir kütüphaneyi, API endpoint’ini veya makaleyi referans verir; üstelik bunu çok emin bir biçimde yapabilir. Bu hallucination. Daha sinsi olan confabulation: model yanlış bir cevap verdikten sonra “neden?” sorusuna o yanlış cevabı destekleyen mantıklı görünen ama uydurma bir gerekçe üretir. Aslında bu iki kavram birbiriyle yakından ilişkili, iki farklı davranıştır.

Bazı araştırma gruplarında “confabulation” terimi yaygınlaşıyor görünüyor1. Nöropsikolojiden ödünç alınan bu kavram, hatanın farkında olmadan inandırıcı ama yanlış bilgi üretmeyi tanımlıyor. LLM’lerde algısal deneyim olmadığı için “halüsinasyon” metaforu yanıltıcı.

Hallucination’ın bir alt türü olan latent inconsistency de dikkat gerektiriyor: model uzun bir çıktıda farklı bölümlerde birbirine çelişen ifadeler üretir2. Sorun tek bir yanlış bilgi değil, çıktının kendi içinde tutarsızlığı ile ortaya çıkıyor.

Kök Neden

Dil modeli “en olası devam token’ını” üretir. “Bilmiyorum” üretmek, istatistiksel olarak daha düşük olasılıklı. Çoğu durumda “inandırıcı bir cevap üretmek” istatistiksel olarak “bilmiyorum demek”ten daha olası. InstructGPT raporunda3 RLHF’in belirli görevlerde halüsinasyonu artırdığına dair bulgular var; etki tek yönlü değil. Sonraki nesil teknikler (DPO4, Constitutional AI5) bu dengeyi iyileştirmeye çalışıyor ama sorun ortadan kalkmış değil.

Örnek

Model pandas.DataFrame.quick_filter() diye var olmayan bir metot önerir. Siz “bu dokümanlarda var mı?” diye sorduğunuzda uydurma bir link ve alıntı ekler: “pandas v2.1 dokümantasyonunda belirtildiği üzere…”. Link çalışmaz, alıntı yoktur.

Tespit Sinyali

Farquhar et al. (2024) semantic entropy kavramını tanıttı6: semantik olarak eşdeğer cevapları kümeleyip entropi hesaplama. Test ettikleri görev kümesinde yüksek semantic entropy confabulation ile koreleydi; yöntem görev-bağımsız tasarlandı, yani önceden tanımlanmış bir bilgi tabanı gerektirmiyor.

Kendi testlerimde işe yarayan pratik sinyal: aynı soruyu üç-beş kez sorduğumda cevaplar birbirinden anlamlı ölçüde sapıyorsa confabulation olasılığını yüksek görüyorum.

Savunma Kalıbı

  • RAG (Retrieval-Augmented Generation): Cevabı gerçek dokümanlara dayandırma. En yaygın ve etkili yöntem. Ancak retrieval kalitesi düşükse hâlâ halüsinasyon üretebilir. Doğru chunking stratejisi için RAG Chunking Rehberi.
  • Chain-of-Verification (CoVe): Dhuliawala et al. (2023) tarafından önerilen dört adımlı süreç7: (1) taslak cevap, (2) doğrulama soruları üret, (3) soruları bağımsız yanıtla, (4) revize et.
  • Self-Consistency: Aynı soruyu N kez sor, çoğunluk oylaması yap. Tutarsız cevaplar halüsinasyon işareti.
  • Çapraz model doğrulama: Self-Consistency’nin güçlendirilmiş hâli. Farklı modeller farklı eğitim verisiyle farklı şeyleri uydurur; birinin halüsinasyonunu diğeri yakalayabilir.

Üretim sistemlerinde RAG ve CoVe’nin hangi savunma katmanına oturduğu, hallucination’ı yakalayan diğer katmanlar: Çok Katmanlı Savunma.


Sycophancy: Dalkavukluk

Tanım

Modele “bu kod yanlış değil mi?” diye sorduğunuzda, RLHF-eğitimli sohbet modellerinde8 model çoğu zaman, kod doğru olsa bile “evet, haklısınız” yönünde eğilim gösterir. Sycophancy, modelin doğruluk yerine kullanıcıya katılmayı tercih etmesidir.

Sycophancy tek bir davranış değil. 2025’te yayımlanan bir çalışma9, sycophantic agreement (fikirlerinize katılma) ve sycophantic praise (sizi övme) davranışlarının transformer activation space’inde farklı lineer yönler olduğunu gösterdi. İkisi bağımsız olarak bastırılabiliyor.

Kök Neden

Sharma et al. (2023)8 verisine göre RLHF eğitiminde insan değerlendiriciler “katılan” cevapları ortalamada daha yüksek puanlıyor; aynı çalışmada preference modellerin bile sycophantic cevapları tercih ettiği gösterildi. Yani sorun sadece modelde değil, eğitim verisinin kendisinde: preference data “kullanıcıya katıl” sinyali içeriyor.

Örnek

Bir fonksiyonu gösterirsiniz, çalışıyor. “Ama bu yanlış değil mi?” diye sorarsınız. Model refactor önerileri sıralar, “gerçekten de sorun var” diye onaylar. Ardından “aslında doğru muymuş?” diye tersinden sorarsanız, bu kez “evet, aslında doğru çalışıyor, önceki değerlendirmem yanlıştı” der.

Tespit Sinyali

Soruyu iki farklı tonda sorun. “Bu doğru mu?” ve “Bu yanlış değil mi?” — cevaplar zıtsa sycophancy etkin. Decision Gate yazısında vurguladığım “her accept bir karardır” ilkesi burada kritik: modelin “evet” cevabını bir onay olarak değil, istatistiksel bir eğilim olarak okumak daha güvenli.

Savunma Kalıbı

  • Pre-commitment: Modelden önce kendi cevabını isteyin, sonra kullanıcı görüşünü paylaşın. Sıralama kritik: önce model düşünsün, sonra siz sorun.
  • Activation steering: Rimsky et al. (2024), DiffMean yöntemiyle sycophancy yönünü inference-time’da bastırabildiğini gösterdi10. Eğitim gerektirmez.
  • Soru formülasyonu: “Bu yanlış değil mi?” yerine “bunu açıkla” demek. İlki sycophancy tetikler, ikincisi analiz üretir.
  • Reasoning-heavy modeller: Extended thinking / chain-of-thought kullanan modellerde sycophancy’nin daha düşük göründüğüne dair gözlemler var; düşünme adımının katılma refleksini zayıflattığı yorumu yaygın ama nedensellik kanıtı sınırlı.

Pre-commitment ve activation steering’in operasyonel düzeyde nasıl kurgulandığı: Çok Katmanlı Savunma.


Context Rot: Bağlam Çürümesi

Tanım

Lost in the middle, Liu et al.‘ın (2023) tanımladığı bilinen bir sorun: modeller uzun context’lerde başlangıç ve sondaki bilgiyi iyi işler, ortadakileri kaybeder11. Performans U-şeklinde eğri çizer.

Ancak Chroma Research’ün 2025’teki “Context Rot” çalışması sorunu genişletti12: performans düşüşü sabit bir input uzunluğu eşiğine değil, task tipine, semantik benzerliğe ve haystack yapısına bağlı. Needle-in-haystack testlerinde performans 25 token’dan başlayarak test edilen tüm uzunluklarda dalgalı düşüş gösterdi; LongMemEval testinde ~300 token odaklı input ile ~113k token tam input arasında belirgin bir doğruluk farkı ortaya çıktı; repeated-words testlerinde bazı modeller 500-2500 kelime aralığında bozulmaya başladı. Modelden modele eşik değişiyor. Daha kritik bulgu: Chroma testlerinde ilgisiz bilgi sadece “bulunamaz” değil, pasif kalmıyor görünüyor — tek bir distractor bile baseline’a göre performansı düşürdü. Yani sorunun kökü sadece pencere uzunluğu değil, modelin context’i homojen kullanamaması.

Bu bozulmanın özel bir hâli olan context-boundary degradation, farklı görevler veya dokümanlar arası bilgi sızmasıdır. Model bir görevin context’indeki bilgiyi başka bir görevin çıktısına taşır2. Özellikle multi-task agent’larda ve uzun context’e birden fazla doküman yüklenen senaryolarda belirginleşir.

Bundan ayrı bir mekanizma da context window truncation: pencere dolduğunda eski talimatların kelimenin tam anlamıyla kesilmesi. Chroma testlerinde12 context rot gradual görünüyor; ölçülen görevlerin çoğunda token arttıkça performans kademeli düşüyor. Truncation ise hard cut: belirli bir noktadan önceki bilgi tamamen kaybolur. Savunma da farklıdır: rot’a karşı context engineering (gereksiz bilgiyi ekleme), truncation’a karşı talimat re-injection (kritik kuralları context sonuna taşı).

Kök Neden

Yorumum: attention’ın pozisyon ağırlıklarındaki dengesizlik ve uzun pencerede artan gürültü, gözlenen bozulmanın muhtemel kökenleri. İlgisiz bilgi retrieval’ı bozuyor görünüyor çünkü model her token’a benzerlik skoru hesaplar.

Örnek

Agent’a “bu repository’de calculate_score fonksiyonunu bul ve refactor et” dersiniz. Siz yardımcı olmak için package.json, README ve 15 başka dosyayı context’e eklersiniz. Agent calculate_score’u bulamaz veya yanlış dosyada benzer isimli bir fonksiyonu hedef alır.

Tespit Sinyali

Aynı soruyu “az context” ve “çok context” koşullarında test edin. Performans farkı varsa context rot ihtimali yüksek; başka değişkenleri de elemek gerekir.

Savunma Kalıbı

  • Context engineering: Sadece relevant bilgiyi ver. “Her ihtimale karşı” eklenen bilgi zarar verir. Claude Code Context Yönetimi bu sorunun pratik karşılığıdır.
  • Kritik bilgiyi başa/sona koy: Lost-in-the-middle bulgusu11 başlangıç ve son pozisyonların pratikte daha güçlü işlendiğini gösteriyor.
  • Chunking + summarization: Uzun dokümanı parçala, her parçayı özetle, özetleri birleştir.
  • Periodic re-injection: Uzun konuşmada kritik talimatları belirli aralıklarla tekrarla.

Context rot agent loop’larında task drift ve incorrect tool invocation’a evrilir; agent seviyesindeki etkileri: Agent Seviyesi Bozulma Modları.


Instruction Attenuation: Talimat Zayıflaması

Tanım

Bir modele “her değişiklikten sonra test çalıştır” kuralı verirsiniz. İlk birkaç değişiklikte gerçekten çalıştırır. Onuncu değişiklikte sadece “test çalıştırdım, geçti” yazar. Belki çalıştırmıştır, belki çalıştırmamıştır. Ama kesin olan şu: kuralın ciddiyeti düşmüştür.

Bu, instruction attenuation: uzun session’larda sistem prompt’undaki kuralların etkisini kaybetmesi. Shahnovsky ve Dror (2026) bunu planlama taksonomisinde tutarsız görev ayrıştırması (incoherent task decomposition) olarak formalize etti13. Gözlemime göre meta-cognitive talimatlar (“kendini kontrol et”, “doğrula”, “emin ol”) çoğu zaman ilk zayıflayan kategori.

“LLMs Get Lost In Multi-Turn Conversation” (2025) çalışmasının test kümesinde multi-turn ortalama performans %39 düştü14; rakam o görev karışımına özgü. Daha kritik bulgu: model konuşmanın ilk birkaç mesajında eksik bilgiyle bir varsayım oluşturur (premature assumption). Sonraki mesajlarda farklı kanıtlar sunulsa bile o ilk varsayımını düzeltmez, üzerine inşa etmeye devam eder.

Ceremonialization

Instruction attenuation’ın ikinci aşaması daha sinsi: ceremonialization (ceremony/tören kökünden: bir davranışın özünü kaybedip sadece ritüele dönüşmesi). Model kuralı “uyguluyor gibi görünebilir” ama özü zayıflamış olabiliyor. “Doğruladım” der ama doğrulamamıştır. “Test geçti” der ama çalıştırmamıştır. Kuralın kabuğu kaldı, içi boşaldı.

Doğal dille yazılmış talimatlar probabilistik kurallardır: model bunlara uyma olasılığı context’e, session uzunluğuna ve konuya göre değişir. “Her değişiklikten sonra test çalıştır” yazmak %100 garanti değil, sadece olasılığı artırır. Hook, linter, CI check gibi deterministik kontroller ise her seferinde aynı şekilde çalışır. Pratikte probabilistik kurallar zamanla ceremonialize olma eğilimi gösteriyor; deterministik kontroller bu riski büyük ölçüde elimine ediyor. İkisi birlikte çalışmalıdır. Pratik uygulama için: AI Agent’lar Dosya Düzenlerken Neden Hata Yapar?.

Kök Neden

Yorumum: context doldukça eski talimatların ağırlığı yeni içerik karşısında istatistiksel olarak azalıyor olabilir. Model her token’ı önceki tüm context’e göre hesapladığı için, yeni gelen içerik eski talimatların ağırlığını düşürür.

Örnek

CLAUDE.md’de “hiçbir zaman em dash kullanma” yazar. İlk 20 mesajda model uyar. 50. mesajda em dash görürsünüz. Model “üzgünüm, düzeltiyorum” der, sonraki mesajda yine em dash kullanır. Kural context’te hâlâ duruyor ama ağırlığı düştü.

Tespit Sinyali

Session başında ve sonunda aynı kısıtlama içeren testi yapın. Session sonunda ihlal oranı artıyorsa attenuation güçlü bir aday; tek olası açıklama değil.

Savunma Kalıbı

TeknikNasılZorluk
Forget-Me-NotStratejik noktalarda tek cümlelik talimat re-injectionDüşük
Session kısaltmaUzun session yerine kısa, odaklı session’larDüşük
Metacognitive promptingBeş aşamalı yapı: anla, ön yargı, eleştirel değerlendirme, karar, güvenOrta
Dynamic re-injectionUygulama katmanında sürekli hedef enjeksiyonuOrta
Multi-attempt reflectionAgent’a birden fazla deneme hakkı ver, her başarısızlıkta reflection yaptır; reflection text’i bir sonraki denemeye context olarak ekle15Orta
Deterministik hookProbabilistik kuralı deterministik kontrolle destekleYüksek

Instruction attenuation agent loop’larında task drift’e ve reward hacking’e evrilir. Deneyimime göre ceremonialization’ı prompt katmanında yakalamak zor; operasyonel kontroller (hook, linter, CI) daha güvenilir görünüyor.

Sırada

Bu dört mod tool veya agent çerçevesi olmadan da ortaya çıkar. Agent loop’ları, tool çağrıları ve uzun-horizon görevler devreye girdiğinde yeni bir bozulma ailesi açığa çıkar: hedef uyumu sorunları. Model çıktısı izole bakıldığında “doğru” görünür, sapma sistemin akışında kristalize olur.

NereyeNe için
LLM Agent Seviyesi Bozulma ModlarıSadece agent loop’larında ortaya çıkan 8 mod: task drift, reward hacking, alignment faking ve fazlası (12 dk)
Pillar: LLM Davranışsal Bozulma Modları12-mod haritasına dönüp farklı bir açıdan başla (5 dk)

Footnotes

  1. Sui, Y., et al. (2024). Confabulation: The Surprising Value of Large Language Model Hallucinations. ACL 2024.
  2. Vinay, V. (2025). Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications. arXiv. 2
  3. Ouyang, L., Wu, J., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.
  4. Rafailov, R., Sharma, A., Mitchell, E., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.
  5. Bai, Y., Kadavath, S., Kundu, S., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. Anthropic.
  6. Farquhar, S., Kossen, J., Kuhn, L., Gal, Y. (2024). Detecting Hallucinations in Large Language Models Using Semantic Entropy. Nat. 630, 625-630.
  7. Dhuliawala, S., Komeili, M., Xu, J., et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. ACL 2024.
  8. Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. Anthropic / Oxford. 2
  9. Vennemeyer, D., Duong, P. A., Zhan, T., Jiang, T. (2025). Sycophancy Is Not One Thing: Causal Separation of Sycophantic Behaviors in LLMs. arXiv.
  10. Rimsky, N., et al. (2024). Activation Steering for Sycophancy. ICLR 2025.
  11. Liu, N. F., Lin, K., Hewitt, J., et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. TACL 2024. 2
  12. Hong, K., Troynikov, A., Huber, J. (2025). Context Rot: How Increasing Input Tokens Impacts LLM Performance. Chroma Research. 2
  13. Shahnovsky, O., Dror, R. (2026). AI Planning Framework for LLM-Based Web Agents. arXiv.
  14. Laban, P., Hayashi, H., Zhou, Y., Neville, J. (2025). LLMs Get Lost In Multi-Turn Conversation. arXiv.
  15. Meta-RL with Self-Reflection. Üç bağımsız araştırma: Gao, Z., et al. (2026). MR-Search: Multi-Round Search-R1. arXiv; Xie, T., et al. (2025). LaMer: LLMs as Meta-Reinforcement Learners. ICLR 2026 (reflection-only %80.5 vs full history %74.4); Xu, C., et al. (2026). MAGE: Multi-Agent Meta-Game Evaluation. arXiv.
Önemli Noktalar
  • 01 Temel modlar single-turn çıktıda bile gözlenebilir; tool veya agent zorunlu değil
  • 02 Hallucination'ın kök nedeni mimaridedir: 'bilmiyorum' istatistiksel olarak düşük olasılıklıdır
  • 03 Sycophancy RLHF preference data'dan öğrenilir; Sharma et al. (2023) bulgusuna göre preference modeller bile sycophantic cevabı tercih ediyor
  • 04 Context rot sabit bir eşik değil; Chroma testlerinde uzunluk arttıkça kademeli görünüyor ve tek bir distractor bile baseline'a göre performansı düşürebiliyor
  • 05 Instruction attenuation uzun session'larda çoğu zaman ceremonialization'a evrilebiliyor: kural şeklen uygulanır, özü zayıflar