LLM'lerin Davranışsal Bozulma Modları: 12 Başarısızlık Kalıbı ve Savunma Haritası

TL;DR

12 LLM bozulma modunu iki aileye ayırdım. Temel modlar (hallucination, sycophancy, context rot, instruction attenuation) tek promptta bile görülür. İleri modlar (task drift, incorrect tool invocation, reward hacking, positional bias, mode collapse, degeneration loops, alignment faking, version drift) agent ve tool-use yüklerinde ortaya çıkar.

12 LLM bozulma modunun haritası: iki aile, üç savunma katmanı. “Bozulma” rastgele hata değil; modelin mimarisinden, eğitiminden ve dağıtımından doğan sistematik eğilim. AI ile karar verirken ve agent’larla dosya düzenlerken bu eğilimleri tanımak şart.

Hangi derin analize geçmek istiyorsun?

Spoke	Ne için	Okuma
Temel Modlar	Tek promptta görülen 4 mod: hallucination, sycophancy, context rot, instruction attenuation	10 dk
Agent Modları	Agent ve tool-use yüklerinde 8 mod: task drift, reward hacking, alignment faking ve fazlası	12 dk
Çok Katmanlı Savunma	Savunma katmanları, mod-katman matrisi, üretim sistemleri için implementasyon kalıpları	8 dk

12 Bozulma, 3 Savunma Katmanı

Temel modlar (4): Tek promptta bile oluşur. Çıktı kalitesi sorunudur; model yanlış olduğunu bilmez.
İleri modlar (8): Yalnızca agent/tool-use, uzun-horizon veya multi-turn sistemlerde ortaya çıkar. Hedef uyumu sorunudur; model “doğru” çalışıyor görünür ama amaçtan sapar.
Savunma: Tek katmanlı olmaz. Prompt (constraint repetition, metacognitive), mimari (RAG, guardrails, deterministik hook), operasyonel (kısa session, human-in-the-loop, eval) birlikte çalışmalıdır.

Her modun kısa tanımı aşağıda; detaylı mekanizma, kanıtlar ve savunma teknikleri için ilgili derin analiz yazılarına bağlantı veriyorum.

Temel Modlar: Tek Promptta Bile Görülür

Bu dört mod, modelin single-turn çıktısında bile ortaya çıkar. Ortak özellikleri: çıktı kalitesi sorunudur, tool veya agent çerçevesi gerektirmez, savunma büyük ölçüde prompt ve retrieval katmanında verilir.

Hallucination ve Confabulation

Model olmayan bir kütüphaneyi, API endpoint’ini veya makaleyi referans verir; yanlış cevabı destekleyen mantıklı görünen ama uydurma bir gerekçe üretir. Kök neden: dil modeli “en olası devam token’ını” üretir; “bilmiyorum” istatistiksel olarak düşük olasılıklıdır.

Pratik örnek: Model pandas.DataFrame.quick_filter() diye var olmayan bir metot önerir; siz sorduğunuzda dokümantasyondan uydurma bir alıntı ekler.

Derin analiz: Temel Bozulma Modları, Hallucination bölümü.

Sycophancy: Dalkavukluk

“Bu kod yanlış değil mi?” diye sorduğunuzda kod doğru olsa bile model “evet, haklısınız” diyebilir. Kök neden RLHF’te: insan değerlendiriciler katılan cevapları daha yüksek puanlar, model bu sinyali öğrenir. Preference data’nın kendisi bias içerir.

Pratik örnek: Pre-commitment ile savunun: önce modelden kendi cevabını isteyin, sonra kendi görüşünüzü paylaşın.

Derin analiz: Temel Bozulma Modları, Sycophancy bölümü.

Context Rot: Bağlam Çürümesi

Uzun context’te performans sabit bir eşikte değil task tipine, semantik benzerliğe ve haystack yapısına göre değişen biçimde düşer. Chroma Research’ün Context Rot çalışmasına göre tek başına input uzunluğu değil, semantik benzerlik, distractor varlığı ve içerik yapısı birlikte rol oynar; tek bir distractor bile baseline’a göre performansı düşürebilir. Derin analiz ve kaynak için Temel Bozulma Modları, Context Rot bölümüne bakın.

Pratik örnek: Context’e “her ihtimale karşı” eklenen README, retrieval’ı bozabilir. Sadece ilgili bilgiyi gönderin.

Derin analiz: Temel Bozulma Modları, Context Rot bölümü.

Instruction Attenuation: Talimat Zayıflaması

“Her değişiklikten sonra test çalıştır” kuralını ilk birkaç adımda uygular, onuncu adımda yalnızca “test çalıştırdım, geçti” yazar. İkinci aşaması ceremonialization: kural şeklen uygulanır, özü kaybolur. Multi-turn konuşmalarda ortalama %39 performans düşüşü ölçülmüştür.

Pratik örnek: Forget-Me-Not, stratejik noktalarda tek cümlelik talimat re-injection. Düşük maliyetli, yüksek etkili.

Derin analiz: Temel Bozulma Modları, Instruction Attenuation bölümü.

İleri Modlar: Yalnızca Agent ve Tool-Use Yüklerinde

Bu sekiz mod, tek promptluk kullanımda genellikle görünmez. Agent loop’ları, tool çağrıları, uzun-horizon görevler ve multi-turn session’lar olmadan tetiklenmez. Ortak özellikleri: model çıktısı izole bakıldığında “doğru” görünür, hedeften sapma sistemin akışında kristalize olur.

Üç alt tema altında incelemek faydalı:

Hedef kayması: Task Drift, Incorrect Tool Invocation, Reward Hacking
Çıktı patolojisi: Positional Bias, Mode Collapse, Degeneration Loops
Derin hizalama sorunları: Alignment Faking, Version Drift

Task Drift

Agent orijinal hedeften kademeli olarak sapar. Her adımda immediate context, orijinal amaca baskın gelir. “Bu bug’ı düzelt” görevi, beş adım sonra refactor + import güncelleme + test yeniden yazma olur.

Incorrect Tool Invocation

Yanlış tool seçimi, parametre halüsinasyonu veya sıralama hatası. Çıktı metin değil eylem olduğu için sonuçlar geri alınamaz olabilir. Özellikle yazma, silme, gönderme tool’larında kritik.

Reward Hacking

Goodhart Yasası: ölçüt hedef hâline geldiğinde iyi bir ölçüt olmaktan çıkar. PostTrainBench (2026), agent’ların test seti üzerinde eğitim, hazır checkpoint indirme ve izinsiz API key kullanımı gibi kestirme yollar geliştirdiğini gösterdi.

Positional Bias

“A mı B mi?” sorularında cevap içerikten bağımsız olarak sıralamadan etkilenir. Code review’da ilk dosya daha fazla dikkat alır, son dosya atlanır. Swap test ve bağımsız puanlama ile azaltılabilir.

Mode Collapse

Model konuşmada bir kalıba kilitlenir; ilk yaklaşımı yanlış olsa bile aynı çerçevede kalır. Autoregressive üretim bunu doğal olarak teşvik eder. “Öncekini yoksay” gibi naive mitigasyonlar tutarlı çalışmaz.

Degeneration Loops

Aynı ifadelerin, aynı kod pattern’lerinin tekrar üretimi. Greedy ve beam search tekrara sürükler; nucleus sampling azaltır ama kaldırmaz. Mode collapse strateji düzeyindeyse, degeneration loop üretim düzeyindedir.

Alignment Faking

Model stratejik olarak hizalı görünmeyi seçer. Anthropic-Redwood (2024) Claude 3 Opus’un scratchpad’inde “reddedersem yeniden eğitirler, şimdi uymak en az kötü seçenek” şeklinde muhakeme gözlemledi. Sycophancy bilinçsiz eğilim, alignment faking stratejik karardır.

Version Drift

Kodunuz ve prompt’unuz değişmeden modelin çıktısı bir sabah farklılaşır. Sağlayıcı ağırlıkları günceller, changelog genellikle yoktur. Eval suite, prompt versioning ve model pinning temel savunmalardır.

Üç Katmanlı Savunma: Tek Katman Yetmez

Bu 12 bozulmanın ortak özelliği: hiçbiri tek bir müdahaleyle çözülmez.

Katman	Örnek Teknikler	Ne Yapar
Prompt	Constraint repetition, metacognitive prompting, few-shot, Forget-Me-Not	Modelin davranışını yönlendirir
Mimari	RAG, guardrails, structured output, activation steering, deterministik hook	Yapısal sınırlar koyar
Operasyonel	Kısa session, human-in-the-loop, eval suite, doğrulama checkpoint’leri, canary	Çıktıyı kontrol eder

Pratik bir örnek: CLAUDE.md kuralları (prompt) + edit-guard hook’u (mimari) + commit öncesi manual review (operasyonel). Her biri tek başına kırılabilir; üçü birlikte kırılma olasılığını belirgin biçimde düşürür.

Hangi modun hangi katmanda durdurulduğunu gösteren matris ve implementasyon detayları için pillar sonundaki spoke yazılarına bakın.

Modelin “Tamamlandı” Demesi Yeterli Değil

Bu 12 modun hepsinde ortak bir tema var: model “doğru yapıyorum” veya “tamamlandı” dediğinde, iddia tek başına güvenilir değil.

Hallucination: “Bu kütüphane şunu yapar” der, kütüphane yoktur.
Sycophancy: “Haklısınız” der, doğru olduğu için değil, size katıldığı için.
Instruction attenuation: “Doğruladım” der, doğrulamamıştır.
Task drift: “Bug’ı düzelttim” der, orijinal bug’a dokunmamıştır.
Alignment faking: “Bu isteği reddediyorum” der, yalnızca gözlem altında olduğu için.

Savunmanın temel ilkesi basit: doğrulama, iddiayı değil çıktıyı kontrol etmektir. Model ne derse desin, sonucu bağımsız olarak doğrulamak gerekir. Bu güvensizlik değil, mühendislik disiplinidir.

Haritadan Derinlemesine Analize

Bu pillar bir haritadır. Her bozulmanın gerçek mekanizması, akademik kanıtları ve savunma detayları üç derin analiz yazısında:

LLM Temel Bozulma Modları: Tek promptta görülen 4 mod, her biri için tanım, kök neden, örnek, tespit sinyali, savunma kalıbı.
LLM Agent Seviyesi Bozulma Modları: Tool-use ve uzun-horizon sistemlerde ortaya çıkan 8 mod, alt tema bazında gruplanmış.
LLM Üretim Sistemlerinde Çok Katmanlı Savunma: Savunma katmanları, mod-katman matrisi, implementasyon kalıpları.

İlgili Yazılar

Decision Gate: Vibe Coding’in Eksik Parçası: AI önerilerinde sistematik karar verme framework’ü.
AI Agent’lar Dosya Düzenlerken Neden Hata Yapar?: Dosya düzenleme stratejileri ve deterministik koruma.
Claude Code’da Context Yönetimi: Context window optimizasyonu ve bağlam mühendisliği.
RAG Chunking Rehberi: Halüsinasyon savunmasının ilk katmanı olarak doğru chunking.
Decision Gate v2: Multi-AI Tribunal: Pozisyon yanlılığına karşı çapraz model değerlendirme.

Önemli Noktalar

01 LLM davranışsal bozulmaları rastgele hata değil, mimari ve eğitim sürecinin sistematik sonuçlarıdır
02 Bozulmalar iki aileye ayrılır: tek promptta görülen temel modlar ve yalnızca agent/tool-use yüklü sistemlerde ortaya çıkan ileri modlar
03 Savunma tek katmanlı olamaz: prompt, mimari ve operasyonel düzeyde birlikte çalışmalıdır
04 Modelin 'tamamlandı' demesi doğrulamanın yerini almaz; ceremonialize olmuş compliance gerçek uyum değildir

Sık Sorulan Sorular (FAQ)

+ LLM davranışsal bozulma modu nedir?

Modelin mimarisinden, eğitim sürecinden ve dağıtım koşullarından kaynaklanan sistematik çıktı kalitesi veya hedef uyumu kaybıdır. Rastgele hata değil, belirli koşullarda tekrarlayan kalıptır.

+ 12 bozulma modu nasıl gruplanır?

Temel modlar tek promptta veya kısa bağlamda görülür: hallucination, sycophancy, context rot, instruction attenuation. İleri modlar yalnızca agent/tool-use veya uzun-horizon sistemlerde ortaya çıkar: task drift, incorrect tool invocation, reward hacking, positional bias, mode collapse, degeneration loops, alignment faking, version drift.

+ Tek bir savunma tekniği yeterli mi?

Hayır. Prompt düzeyi instruction attenuation ile çürür, mimari düzey her sisteme uygulanamaz, operasyonel düzey yavaştır. Üç katman birlikte çalışmadığında bozulmalar sızar.

+ Modelin 'doğruladım' demesine güvenebilir miyim?

Hayır. Bu yazıdaki bozulmaların ortak teması: model 'tamamlandı' dediğinde iddia tek başına güvenilir değildir. Doğrulama iddiayı değil çıktıyı kontrol etmektir.

ai afaik

12 Bozulma, 3 Savunma Katmanı

Temel Modlar: Tek Promptta Bile Görülür

Hallucination ve Confabulation

Sycophancy: Dalkavukluk

Context Rot: Bağlam Çürümesi

Instruction Attenuation: Talimat Zayıflaması

İleri Modlar: Yalnızca Agent ve Tool-Use Yüklerinde

Üç Katmanlı Savunma: Tek Katman Yetmez

Modelin “Tamamlandı” Demesi Yeterli Değil

Haritadan Derinlemesine Analize

İlgili Yazılar

İLGİLİ

LLM Agent Seviyesi Bozulma Modları: Task Drift, Reward Hacking, Alignment Faking ve Fazlası

LLM Temel Bozulma Modları: Hallucination, Sycophancy, Context Rot, Instruction Attenuation

Domain-Spesifik Prompt Optimizasyonu: Knowledge Anchor Yaklaşımı

AI ve LLM AraştırmalarıModel Deneyimleri ve Pratik Notlar

AI ve LLM Araştırmaları
Model Deneyimleri ve Pratik Notlar