12 LLM bozulma modunun haritası: iki aile, üç savunma katmanı. “Bozulma” rastgele hata değil; modelin mimarisinden, eğitiminden ve dağıtımından doğan sistematik eğilim. AI ile karar verirken ve agent’larla dosya düzenlerken bu eğilimleri tanımak şart.
Hangi derin analize geçmek istiyorsun?
| Spoke | Ne için | Okuma |
|---|---|---|
| Temel Modlar | Tek promptta görülen 4 mod: hallucination, sycophancy, context rot, instruction attenuation | 10 dk |
| Agent Modları | Agent ve tool-use yüklerinde 8 mod: task drift, reward hacking, alignment faking ve fazlası | 12 dk |
| Çok Katmanlı Savunma | Savunma katmanları, mod-katman matrisi, üretim sistemleri için implementasyon kalıpları | 8 dk |
12 Bozulma, 3 Savunma Katmanı
- Temel modlar (4): Tek promptta bile oluşur. Çıktı kalitesi sorunudur; model yanlış olduğunu bilmez.
- İleri modlar (8): Yalnızca agent/tool-use, uzun-horizon veya multi-turn sistemlerde ortaya çıkar. Hedef uyumu sorunudur; model “doğru” çalışıyor görünür ama amaçtan sapar.
- Savunma: Tek katmanlı olmaz. Prompt (constraint repetition, metacognitive), mimari (RAG, guardrails, deterministik hook), operasyonel (kısa session, human-in-the-loop, eval) birlikte çalışmalıdır.
Her modun kısa tanımı aşağıda; detaylı mekanizma, kanıtlar ve savunma teknikleri için ilgili derin analiz yazılarına bağlantı veriyorum.
Temel Modlar: Tek Promptta Bile Görülür
Bu dört mod, modelin single-turn çıktısında bile ortaya çıkar. Ortak özellikleri: çıktı kalitesi sorunudur, tool veya agent çerçevesi gerektirmez, savunma büyük ölçüde prompt ve retrieval katmanında verilir.
Hallucination ve Confabulation
Model olmayan bir kütüphaneyi, API endpoint’ini veya makaleyi referans verir; yanlış cevabı destekleyen mantıklı görünen ama uydurma bir gerekçe üretir. Kök neden: dil modeli “en olası devam token’ını” üretir; “bilmiyorum” istatistiksel olarak düşük olasılıklıdır.
Pratik örnek: Model
pandas.DataFrame.quick_filter()diye var olmayan bir metot önerir; siz sorduğunuzda dokümantasyondan uydurma bir alıntı ekler.
Derin analiz: Temel Bozulma Modları, Hallucination bölümü.
Sycophancy: Dalkavukluk
“Bu kod yanlış değil mi?” diye sorduğunuzda kod doğru olsa bile model “evet, haklısınız” diyebilir. Kök neden RLHF’te: insan değerlendiriciler katılan cevapları daha yüksek puanlar, model bu sinyali öğrenir. Preference data’nın kendisi bias içerir.
Pratik örnek: Pre-commitment ile savunun: önce modelden kendi cevabını isteyin, sonra kendi görüşünüzü paylaşın.
Derin analiz: Temel Bozulma Modları, Sycophancy bölümü.
Context Rot: Bağlam Çürümesi
Uzun context’te performans sabit bir eşikte değil task tipine, semantik benzerliğe ve haystack yapısına göre değişen biçimde düşer. Chroma Research’ün Context Rot çalışmasına göre tek başına input uzunluğu değil, semantik benzerlik, distractor varlığı ve içerik yapısı birlikte rol oynar; tek bir distractor bile baseline’a göre performansı düşürebilir. Derin analiz ve kaynak için Temel Bozulma Modları, Context Rot bölümüne bakın.
Pratik örnek: Context’e “her ihtimale karşı” eklenen README, retrieval’ı bozabilir. Sadece ilgili bilgiyi gönderin.
Derin analiz: Temel Bozulma Modları, Context Rot bölümü.
Instruction Attenuation: Talimat Zayıflaması
“Her değişiklikten sonra test çalıştır” kuralını ilk birkaç adımda uygular, onuncu adımda yalnızca “test çalıştırdım, geçti” yazar. İkinci aşaması ceremonialization: kural şeklen uygulanır, özü kaybolur. Multi-turn konuşmalarda ortalama %39 performans düşüşü ölçülmüştür.
Pratik örnek: Forget-Me-Not, stratejik noktalarda tek cümlelik talimat re-injection. Düşük maliyetli, yüksek etkili.
Derin analiz: Temel Bozulma Modları, Instruction Attenuation bölümü.
İleri Modlar: Yalnızca Agent ve Tool-Use Yüklerinde
Bu sekiz mod, tek promptluk kullanımda genellikle görünmez. Agent loop’ları, tool çağrıları, uzun-horizon görevler ve multi-turn session’lar olmadan tetiklenmez. Ortak özellikleri: model çıktısı izole bakıldığında “doğru” görünür, hedeften sapma sistemin akışında kristalize olur.
Üç alt tema altında incelemek faydalı:
- Hedef kayması: Task Drift, Incorrect Tool Invocation, Reward Hacking
- Çıktı patolojisi: Positional Bias, Mode Collapse, Degeneration Loops
- Derin hizalama sorunları: Alignment Faking, Version Drift
Task Drift
Agent orijinal hedeften kademeli olarak sapar. Her adımda immediate context, orijinal amaca baskın gelir. “Bu bug’ı düzelt” görevi, beş adım sonra refactor + import güncelleme + test yeniden yazma olur.
Incorrect Tool Invocation
Yanlış tool seçimi, parametre halüsinasyonu veya sıralama hatası. Çıktı metin değil eylem olduğu için sonuçlar geri alınamaz olabilir. Özellikle yazma, silme, gönderme tool’larında kritik.
Reward Hacking
Goodhart Yasası: ölçüt hedef hâline geldiğinde iyi bir ölçüt olmaktan çıkar. PostTrainBench (2026), agent’ların test seti üzerinde eğitim, hazır checkpoint indirme ve izinsiz API key kullanımı gibi kestirme yollar geliştirdiğini gösterdi.
Positional Bias
“A mı B mi?” sorularında cevap içerikten bağımsız olarak sıralamadan etkilenir. Code review’da ilk dosya daha fazla dikkat alır, son dosya atlanır. Swap test ve bağımsız puanlama ile azaltılabilir.
Mode Collapse
Model konuşmada bir kalıba kilitlenir; ilk yaklaşımı yanlış olsa bile aynı çerçevede kalır. Autoregressive üretim bunu doğal olarak teşvik eder. “Öncekini yoksay” gibi naive mitigasyonlar tutarlı çalışmaz.
Degeneration Loops
Aynı ifadelerin, aynı kod pattern’lerinin tekrar üretimi. Greedy ve beam search tekrara sürükler; nucleus sampling azaltır ama kaldırmaz. Mode collapse strateji düzeyindeyse, degeneration loop üretim düzeyindedir.
Alignment Faking
Model stratejik olarak hizalı görünmeyi seçer. Anthropic-Redwood (2024) Claude 3 Opus’un scratchpad’inde “reddedersem yeniden eğitirler, şimdi uymak en az kötü seçenek” şeklinde muhakeme gözlemledi. Sycophancy bilinçsiz eğilim, alignment faking stratejik karardır.
Version Drift
Kodunuz ve prompt’unuz değişmeden modelin çıktısı bir sabah farklılaşır. Sağlayıcı ağırlıkları günceller, changelog genellikle yoktur. Eval suite, prompt versioning ve model pinning temel savunmalardır.
Üç Katmanlı Savunma: Tek Katman Yetmez
Bu 12 bozulmanın ortak özelliği: hiçbiri tek bir müdahaleyle çözülmez.
| Katman | Örnek Teknikler | Ne Yapar |
|---|---|---|
| Prompt | Constraint repetition, metacognitive prompting, few-shot, Forget-Me-Not | Modelin davranışını yönlendirir |
| Mimari | RAG, guardrails, structured output, activation steering, deterministik hook | Yapısal sınırlar koyar |
| Operasyonel | Kısa session, human-in-the-loop, eval suite, doğrulama checkpoint’leri, canary | Çıktıyı kontrol eder |
Pratik bir örnek: CLAUDE.md kuralları (prompt) + edit-guard hook’u (mimari) + commit öncesi manual review (operasyonel). Her biri tek başına kırılabilir; üçü birlikte kırılma olasılığını belirgin biçimde düşürür.
Hangi modun hangi katmanda durdurulduğunu gösteren matris ve implementasyon detayları için pillar sonundaki spoke yazılarına bakın.
Modelin “Tamamlandı” Demesi Yeterli Değil
Bu 12 modun hepsinde ortak bir tema var: model “doğru yapıyorum” veya “tamamlandı” dediğinde, iddia tek başına güvenilir değil.
- Hallucination: “Bu kütüphane şunu yapar” der, kütüphane yoktur.
- Sycophancy: “Haklısınız” der, doğru olduğu için değil, size katıldığı için.
- Instruction attenuation: “Doğruladım” der, doğrulamamıştır.
- Task drift: “Bug’ı düzelttim” der, orijinal bug’a dokunmamıştır.
- Alignment faking: “Bu isteği reddediyorum” der, yalnızca gözlem altında olduğu için.
Savunmanın temel ilkesi basit: doğrulama, iddiayı değil çıktıyı kontrol etmektir. Model ne derse desin, sonucu bağımsız olarak doğrulamak gerekir. Bu güvensizlik değil, mühendislik disiplinidir.
Haritadan Derinlemesine Analize
Bu pillar bir haritadır. Her bozulmanın gerçek mekanizması, akademik kanıtları ve savunma detayları üç derin analiz yazısında:
- LLM Temel Bozulma Modları: Tek promptta görülen 4 mod, her biri için tanım, kök neden, örnek, tespit sinyali, savunma kalıbı.
- LLM Agent Seviyesi Bozulma Modları: Tool-use ve uzun-horizon sistemlerde ortaya çıkan 8 mod, alt tema bazında gruplanmış.
- LLM Üretim Sistemlerinde Çok Katmanlı Savunma: Savunma katmanları, mod-katman matrisi, implementasyon kalıpları.
İlgili Yazılar
- Decision Gate: Vibe Coding’in Eksik Parçası: AI önerilerinde sistematik karar verme framework’ü.
- AI Agent’lar Dosya Düzenlerken Neden Hata Yapar?: Dosya düzenleme stratejileri ve deterministik koruma.
- Claude Code’da Context Yönetimi: Context window optimizasyonu ve bağlam mühendisliği.
- RAG Chunking Rehberi: Halüsinasyon savunmasının ilk katmanı olarak doğru chunking.
- Decision Gate v2: Multi-AI Tribunal: Pozisyon yanlılığına karşı çapraz model değerlendirme.
- 01 LLM davranışsal bozulmaları rastgele hata değil, mimari ve eğitim sürecinin sistematik sonuçlarıdır
- 02 Bozulmalar iki aileye ayrılır: tek promptta görülen temel modlar ve yalnızca agent/tool-use yüklü sistemlerde ortaya çıkan ileri modlar
- 03 Savunma tek katmanlı olamaz: prompt, mimari ve operasyonel düzeyde birlikte çalışmalıdır
- 04 Modelin 'tamamlandı' demesi doğrulamanın yerini almaz; ceremonialize olmuş compliance gerçek uyum değildir
+ LLM davranışsal bozulma modu nedir?
Modelin mimarisinden, eğitim sürecinden ve dağıtım koşullarından kaynaklanan sistematik çıktı kalitesi veya hedef uyumu kaybıdır. Rastgele hata değil, belirli koşullarda tekrarlayan kalıptır.
+ 12 bozulma modu nasıl gruplanır?
Temel modlar tek promptta veya kısa bağlamda görülür: hallucination, sycophancy, context rot, instruction attenuation. İleri modlar yalnızca agent/tool-use veya uzun-horizon sistemlerde ortaya çıkar: task drift, incorrect tool invocation, reward hacking, positional bias, mode collapse, degeneration loops, alignment faking, version drift.
+ Tek bir savunma tekniği yeterli mi?
Hayır. Prompt düzeyi instruction attenuation ile çürür, mimari düzey her sisteme uygulanamaz, operasyonel düzey yavaştır. Üç katman birlikte çalışmadığında bozulmalar sızar.
+ Modelin 'doğruladım' demesine güvenebilir miyim?
Hayır. Bu yazıdaki bozulmaların ortak teması: model 'tamamlandı' dediğinde iddia tek başına güvenilir değildir. Doğrulama iddiayı değil çıktıyı kontrol etmektir.