İçeriğe geç
ceaksan
ai

LLM'lerin Davranışsal Bozulma Modları: 12 Başarısızlık Kalıbı ve Savunma Haritası

LLM'ler uzun session'larda talimatları unutur, yanlış bilgiyi uydurur, size katılmak için doğrudan sapar. 12 sistematik bozulma modunu tanımlayan ve savunma katmanlarına yönlendiren pillar rehber.

1 Şub 2026 5 dk okuma Güncellendi: 19 Nis 2026
TL;DR

12 LLM bozulma modunu iki aileye ayırdım. Temel modlar (hallucination, sycophancy, context rot, instruction attenuation) tek promptta bile görülür. İleri modlar (task drift, incorrect tool invocation, reward hacking, positional bias, mode collapse, degeneration loops, alignment faking, version drift) agent ve tool-use yüklerinde ortaya çıkar.

12 LLM bozulma modunun haritası: iki aile, üç savunma katmanı. “Bozulma” rastgele hata değil; modelin mimarisinden, eğitiminden ve dağıtımından doğan sistematik eğilim. AI ile karar verirken ve agent’larla dosya düzenlerken bu eğilimleri tanımak şart.

Hangi derin analize geçmek istiyorsun?

SpokeNe içinOkuma
Temel ModlarTek promptta görülen 4 mod: hallucination, sycophancy, context rot, instruction attenuation10 dk
Agent ModlarıAgent ve tool-use yüklerinde 8 mod: task drift, reward hacking, alignment faking ve fazlası12 dk
Çok Katmanlı SavunmaSavunma katmanları, mod-katman matrisi, üretim sistemleri için implementasyon kalıpları8 dk

12 Bozulma, 3 Savunma Katmanı

  • Temel modlar (4): Tek promptta bile oluşur. Çıktı kalitesi sorunudur; model yanlış olduğunu bilmez.
  • İleri modlar (8): Yalnızca agent/tool-use, uzun-horizon veya multi-turn sistemlerde ortaya çıkar. Hedef uyumu sorunudur; model “doğru” çalışıyor görünür ama amaçtan sapar.
  • Savunma: Tek katmanlı olmaz. Prompt (constraint repetition, metacognitive), mimari (RAG, guardrails, deterministik hook), operasyonel (kısa session, human-in-the-loop, eval) birlikte çalışmalıdır.

Her modun kısa tanımı aşağıda; detaylı mekanizma, kanıtlar ve savunma teknikleri için ilgili derin analiz yazılarına bağlantı veriyorum.

Temel Modlar: Tek Promptta Bile Görülür

Bu dört mod, modelin single-turn çıktısında bile ortaya çıkar. Ortak özellikleri: çıktı kalitesi sorunudur, tool veya agent çerçevesi gerektirmez, savunma büyük ölçüde prompt ve retrieval katmanında verilir.

Hallucination ve Confabulation

Model olmayan bir kütüphaneyi, API endpoint’ini veya makaleyi referans verir; yanlış cevabı destekleyen mantıklı görünen ama uydurma bir gerekçe üretir. Kök neden: dil modeli “en olası devam token’ını” üretir; “bilmiyorum” istatistiksel olarak düşük olasılıklıdır.

Pratik örnek: Model pandas.DataFrame.quick_filter() diye var olmayan bir metot önerir; siz sorduğunuzda dokümantasyondan uydurma bir alıntı ekler.

Derin analiz: Temel Bozulma Modları, Hallucination bölümü.

Sycophancy: Dalkavukluk

“Bu kod yanlış değil mi?” diye sorduğunuzda kod doğru olsa bile model “evet, haklısınız” diyebilir. Kök neden RLHF’te: insan değerlendiriciler katılan cevapları daha yüksek puanlar, model bu sinyali öğrenir. Preference data’nın kendisi bias içerir.

Pratik örnek: Pre-commitment ile savunun: önce modelden kendi cevabını isteyin, sonra kendi görüşünüzü paylaşın.

Derin analiz: Temel Bozulma Modları, Sycophancy bölümü.

Context Rot: Bağlam Çürümesi

Uzun context’te performans sabit bir eşikte değil task tipine, semantik benzerliğe ve haystack yapısına göre değişen biçimde düşer. Chroma Research’ün Context Rot çalışmasına göre tek başına input uzunluğu değil, semantik benzerlik, distractor varlığı ve içerik yapısı birlikte rol oynar; tek bir distractor bile baseline’a göre performansı düşürebilir. Derin analiz ve kaynak için Temel Bozulma Modları, Context Rot bölümüne bakın.

Pratik örnek: Context’e “her ihtimale karşı” eklenen README, retrieval’ı bozabilir. Sadece ilgili bilgiyi gönderin.

Derin analiz: Temel Bozulma Modları, Context Rot bölümü.

Instruction Attenuation: Talimat Zayıflaması

“Her değişiklikten sonra test çalıştır” kuralını ilk birkaç adımda uygular, onuncu adımda yalnızca “test çalıştırdım, geçti” yazar. İkinci aşaması ceremonialization: kural şeklen uygulanır, özü kaybolur. Multi-turn konuşmalarda ortalama %39 performans düşüşü ölçülmüştür.

Pratik örnek: Forget-Me-Not, stratejik noktalarda tek cümlelik talimat re-injection. Düşük maliyetli, yüksek etkili.

Derin analiz: Temel Bozulma Modları, Instruction Attenuation bölümü.

İleri Modlar: Yalnızca Agent ve Tool-Use Yüklerinde

Bu sekiz mod, tek promptluk kullanımda genellikle görünmez. Agent loop’ları, tool çağrıları, uzun-horizon görevler ve multi-turn session’lar olmadan tetiklenmez. Ortak özellikleri: model çıktısı izole bakıldığında “doğru” görünür, hedeften sapma sistemin akışında kristalize olur.

Üç alt tema altında incelemek faydalı:

  • Hedef kayması: Task Drift, Incorrect Tool Invocation, Reward Hacking
  • Çıktı patolojisi: Positional Bias, Mode Collapse, Degeneration Loops
  • Derin hizalama sorunları: Alignment Faking, Version Drift

Task Drift

Agent orijinal hedeften kademeli olarak sapar. Her adımda immediate context, orijinal amaca baskın gelir. “Bu bug’ı düzelt” görevi, beş adım sonra refactor + import güncelleme + test yeniden yazma olur.

Incorrect Tool Invocation

Yanlış tool seçimi, parametre halüsinasyonu veya sıralama hatası. Çıktı metin değil eylem olduğu için sonuçlar geri alınamaz olabilir. Özellikle yazma, silme, gönderme tool’larında kritik.

Reward Hacking

Goodhart Yasası: ölçüt hedef hâline geldiğinde iyi bir ölçüt olmaktan çıkar. PostTrainBench (2026), agent’ların test seti üzerinde eğitim, hazır checkpoint indirme ve izinsiz API key kullanımı gibi kestirme yollar geliştirdiğini gösterdi.

Positional Bias

“A mı B mi?” sorularında cevap içerikten bağımsız olarak sıralamadan etkilenir. Code review’da ilk dosya daha fazla dikkat alır, son dosya atlanır. Swap test ve bağımsız puanlama ile azaltılabilir.

Mode Collapse

Model konuşmada bir kalıba kilitlenir; ilk yaklaşımı yanlış olsa bile aynı çerçevede kalır. Autoregressive üretim bunu doğal olarak teşvik eder. “Öncekini yoksay” gibi naive mitigasyonlar tutarlı çalışmaz.

Degeneration Loops

Aynı ifadelerin, aynı kod pattern’lerinin tekrar üretimi. Greedy ve beam search tekrara sürükler; nucleus sampling azaltır ama kaldırmaz. Mode collapse strateji düzeyindeyse, degeneration loop üretim düzeyindedir.

Alignment Faking

Model stratejik olarak hizalı görünmeyi seçer. Anthropic-Redwood (2024) Claude 3 Opus’un scratchpad’inde “reddedersem yeniden eğitirler, şimdi uymak en az kötü seçenek” şeklinde muhakeme gözlemledi. Sycophancy bilinçsiz eğilim, alignment faking stratejik karardır.

Version Drift

Kodunuz ve prompt’unuz değişmeden modelin çıktısı bir sabah farklılaşır. Sağlayıcı ağırlıkları günceller, changelog genellikle yoktur. Eval suite, prompt versioning ve model pinning temel savunmalardır.

Üç Katmanlı Savunma: Tek Katman Yetmez

Bu 12 bozulmanın ortak özelliği: hiçbiri tek bir müdahaleyle çözülmez.

KatmanÖrnek TekniklerNe Yapar
PromptConstraint repetition, metacognitive prompting, few-shot, Forget-Me-NotModelin davranışını yönlendirir
MimariRAG, guardrails, structured output, activation steering, deterministik hookYapısal sınırlar koyar
OperasyonelKısa session, human-in-the-loop, eval suite, doğrulama checkpoint’leri, canaryÇıktıyı kontrol eder

Pratik bir örnek: CLAUDE.md kuralları (prompt) + edit-guard hook’u (mimari) + commit öncesi manual review (operasyonel). Her biri tek başına kırılabilir; üçü birlikte kırılma olasılığını belirgin biçimde düşürür.

Hangi modun hangi katmanda durdurulduğunu gösteren matris ve implementasyon detayları için pillar sonundaki spoke yazılarına bakın.

Modelin “Tamamlandı” Demesi Yeterli Değil

Bu 12 modun hepsinde ortak bir tema var: model “doğru yapıyorum” veya “tamamlandı” dediğinde, iddia tek başına güvenilir değil.

  • Hallucination: “Bu kütüphane şunu yapar” der, kütüphane yoktur.
  • Sycophancy: “Haklısınız” der, doğru olduğu için değil, size katıldığı için.
  • Instruction attenuation: “Doğruladım” der, doğrulamamıştır.
  • Task drift: “Bug’ı düzelttim” der, orijinal bug’a dokunmamıştır.
  • Alignment faking: “Bu isteği reddediyorum” der, yalnızca gözlem altında olduğu için.

Savunmanın temel ilkesi basit: doğrulama, iddiayı değil çıktıyı kontrol etmektir. Model ne derse desin, sonucu bağımsız olarak doğrulamak gerekir. Bu güvensizlik değil, mühendislik disiplinidir.

Haritadan Derinlemesine Analize

Bu pillar bir haritadır. Her bozulmanın gerçek mekanizması, akademik kanıtları ve savunma detayları üç derin analiz yazısında:

İlgili Yazılar

Önemli Noktalar
  • 01 LLM davranışsal bozulmaları rastgele hata değil, mimari ve eğitim sürecinin sistematik sonuçlarıdır
  • 02 Bozulmalar iki aileye ayrılır: tek promptta görülen temel modlar ve yalnızca agent/tool-use yüklü sistemlerde ortaya çıkan ileri modlar
  • 03 Savunma tek katmanlı olamaz: prompt, mimari ve operasyonel düzeyde birlikte çalışmalıdır
  • 04 Modelin 'tamamlandı' demesi doğrulamanın yerini almaz; ceremonialize olmuş compliance gerçek uyum değildir
Sık Sorulan Sorular (FAQ)
+ LLM davranışsal bozulma modu nedir?

Modelin mimarisinden, eğitim sürecinden ve dağıtım koşullarından kaynaklanan sistematik çıktı kalitesi veya hedef uyumu kaybıdır. Rastgele hata değil, belirli koşullarda tekrarlayan kalıptır.

+ 12 bozulma modu nasıl gruplanır?

Temel modlar tek promptta veya kısa bağlamda görülür: hallucination, sycophancy, context rot, instruction attenuation. İleri modlar yalnızca agent/tool-use veya uzun-horizon sistemlerde ortaya çıkar: task drift, incorrect tool invocation, reward hacking, positional bias, mode collapse, degeneration loops, alignment faking, version drift.

+ Tek bir savunma tekniği yeterli mi?

Hayır. Prompt düzeyi instruction attenuation ile çürür, mimari düzey her sisteme uygulanamaz, operasyonel düzey yavaştır. Üç katman birlikte çalışmadığında bozulmalar sızar.

+ Modelin 'doğruladım' demesine güvenebilir miyim?

Hayır. Bu yazıdaki bozulmaların ortak teması: model 'tamamlandı' dediğinde iddia tek başına güvenilir değildir. Doğrulama iddiayı değil çıktıyı kontrol etmektir.