LLM’lerin davranışsal bozulma modlarını, context yönetimini ve karar süreçlerini daha önceki yazılarda ele almıştım. Bu yazıda bir adım öne geçip soracağım: modelden daha iyi çıktı almak için prompt’un kendisini nasıl optimize edebiliriz?
“Daha iyi prompt yaz” tavsiyesi herkesin bildiği ama kimsenin somutlaştıramadığı bir klişe. Bu yazıda klişenin arkasındaki mekanizmayı kendi anladığım ve kullanmaya çalıştığım biçimde aktarmaya çalışacağım: LLM bilgiyi nasıl çağırır, generic prompt neden yetersiz kalır ve knowledge anchor yaklaşımı bu sorunu nasıl çözer.
| Hızlı Referans | |
|---|---|
| Kapsam | Domain-spesifik prompt optimizasyonu |
| Kaynak sayısı | 30+ akademik çalışma ve resmi dokümantasyon (2021-2026) |
| Pratik odak | Knowledge anchor tanımı, structured format karşılaştırması, optimizasyon adımları |
| İlişkili kavramlar | LLM Bozulma Modları, Decision Gate |
LLM Bilgiyi Nasıl Çağırır?
Bir dil modeline “bir web sitesi tasarla” dediğinizde, model eğitim verisindeki milyarlarca token arasından “web sitesi” ve “tasarla” ile ilişkili bilgi kümelerini aktive eder. Bu aktivasyon geniş ama sığdır: CSS, HTML, JavaScript, React, WordPress, Wix, erişilebilirlik, performans, SEO, bunların hepsi aynı anda hafifçe aktive olur. Hiçbiri derinlemesine aktive olmaz.
Aynı modele “Nielsen’in 10 heuristic’ini uygulayarak bir e-ticaret checkout sayfası tasarla” dediğinizde, aktivasyon daralır ama derinleşir. Jakob Nielsen’in kullanılabilirlik heuristic’leri, arayüz tasarımında en yaygın kullanılan değerlendirme çerçevesidir: sistem durumunun görünürlüğü (visibility of system status), sistem ile gerçek dünya arasındaki uyum (match between system and real world), hata önleme (error prevention), tutarlılık ve standartlar (consistency and standards) gibi on temel prensipten oluşur1. Model bu referansla karşılaştığında, eğitim verisindeki bu spesifik prensipleri ve bunların uygulamalarını aktive eder. Bilgi kümesi yoğunlaşmıştır ve model o bölgeye odaklanır.
Bu, sezgisel bir gözlem değil. Transformer mimarisinde bilgi depolamanın mekanizmasını inceleyen çalışmalar bu tabloyu destekliyor.
Knowledge neuron hipotezi, Dai et al.‘ın (2022) ACL’de yayımlanan çalışmasında tanımlandı2: belirli nöronlar factual bilgiyi ifade ediyor ve bu nöronların aktivasyonu ilgili gerçeklerle pozitif korelasyon gösteriyor. Meng et al. (2022), bu bulguyu NeurIPS’te genişletti3: factual bilgi orta katman feed-forward modüllerinde, subject token’ları işlerken aracılık ediliyor. Yani prompt’ta geçen isimler ve kavramlar (subject token’lar), bilgi çağrısının tetikleyicileri.
Ancak güncel araştırmalar bu tabloyu nüanslandırıyor. Niu et al. (2024), ICLR 2025’te yayımlanan çalışmalarında knowledge neuron tezinin aşırı basitleştirme olduğunu gösterdi4: bilgi tek nöronlarda değil, dağıtık bileşenler arası koordineli aktivasyondan ortaya çıkıyor. Bu iki görüş çelişmez, farklı ölçeklerde doğrudur: bireysel nöronlar factual ilişkilere katkıda bulunur, ancak bilgi çağrısı tek nörona indirgenemez, katmanlar arası koordinasyon gerektirir. Zheng et al. (2024), attention head’lerini dört aşamalı bir framework’te sınıflandırdı5: Knowledge Recalling, In-Context Identification, Latent Reasoning, Expression Preparation. İlk aşama, prompt’taki referanslarla doğrudan tetikleniyor.
Pratik karşılığı basit: prompt’ta ne yazdığınız, modelin hangi bilgi kümelerini aktive edeceğini belirliyor. Generic terimler geniş ama yüzeysel bir aktivasyon üretir. Spesifik isimler, teoriler ve framework referansları, eğitim verisindeki derin ve yoğun bilgi kümelerini tetikler.
Generic Prompt Neden Başarısız Olur?
Farklı platformlardan topladığım 1,400’den fazla prompt’u analiz ettiğimde, çoğunluğunun ortak zayıflıkları paylaştığını gördüm. Her prompt’u dört kriter üzerinden 0-2 arasında puanladım: role tanımı, explicit constraint’ler, output formatı, domain-spesifik referans kullanımı. 0-8 skalasında 5 ve üzeri “above average”, 3 ve altı “below average” olarak sınıflandırdım. Bu kriterlere göre prompt’ların büyük çoğunluğu midpoint’in (4) altında kaldı.
En başarılı prompt’ların (%18’lik üst dilim) ortak özellikleri:
- Spesifik araştırma veya framework referansları
- Yapılandırılmış format (XML, JSON veya benzeri delimiter’lar)
- Explicit constraint’ler (MUST, NEVER, ALWAYS formatında)
- Tanımlanmış output format beklentisi
Aradaki fark sadece “daha detaylı talimat” değil, yapısal bir fark.
Before/After
Generic prompt:
Bir e-ticaret sitesi için ürün açıklaması yaz.
Knowledge anchor ile optimize edilmiş:
<role>
Sen conversion-odaklı bir UX writer'sın.
Krug'un "Don't Make Me Think" ve Cialdini'nin ikna prensiplerini uyguluyorsun.
</role>
<instructions>
Bir e-ticaret ürün açıklaması yaz.
</instructions>
<constraints>
- MUST: Benefit-first yapı (özellik değil, fayda ile başla)
- MUST: Scannable format (bullet points, bold key terms)
- NEVER: Jargon veya teknik terim (hedef kitle: genel tüketici)
- MAX: 150 kelime
</constraints>
<output_format>
Başlık + 2-3 cümle hook + bullet point faydalar + CTA
</output_format>
İlk prompt’ta model “herhangi bir ürün açıklaması” üretir. İkincisinde Krug’un kullanılabilirlik prensiplerini ve Cialdini’nin ikna framework’ünü aktive eder, output formatı belirlidir, constraint’ler nettir.
Prompt Kalitesi ve LLM Davranışsal Bozulmaları
İyi prompt sadece daha iyi çıktı üretmez, aynı zamanda LLM davranışsal bozulmalarını da minimize eder:
- Hallucination: Chain-of-Verification (CoVe) prompt tekniği, modeli kendi çıktısını doğrulama sorularıyla kontrol etmeye yönlendirerek halüsinasyonu azaltır6
- Sycophancy: Soru formülasyonu sycophancy’yi doğrudan etkiler. “Bu yanlış değil mi?” yerine “bunu analiz et” demek, modelin katılma refleksi yerine analiz üretmesini sağlar7
- Context rot: Prompt’a gereksiz bilgi eklemek sadece “bulunamaz” değil, aktif olarak zarar verir. İlgisiz padding, bilgi retrieval’ı bozan bir gürültü kaynağıdır8
- Instruction attenuation: Uzun session’larda talimatlar etkisini kaybeder. Forget-Me-Not tekniği, stratejik noktalarda talimat re-injection ile multi-turn’deki ortalama %39 performans düşüşünü azaltır9
Ortak tema: prompt’un yapısı, modelin davranışını şekillendirir. Yapılandırılmamış, belirsiz bir prompt, bozulma modlarına davet çıkarır.
Knowledge Anchor Nedir?
Knowledge anchor, LLM’in training data’sındaki spesifik bilgi kümelerini aktive eden isim bazlı referanslardır. Bir teori, framework, araştırmacı veya metodoloji adı olabilir.
“Form validation yap” dediğinizde model genel bir form validation çıktısı üretir. “Luke Wroblewski’nin inline validation araştırmasını uygula” dediğinizde, model o araştırmanın spesifik bulgularını aktive eder: anlık geri bildirim, pozitif doğrulama, hata mesajı zamanlaması.
Bu, retrieval-augmented generation (RAG) ile aynı mekanizma değil ama benzer bir sonucu hedefliyor: daha doğru, daha az halüsinasyon içeren çıktılar. Mekanizmaları farklı. RAG, harici bir veritabanından bilgi çeker ve modele context olarak sunar. Knowledge anchor ise harici veri gerektirmez: modelin kendi eğitim verisindeki mevcut bilgiyi, spesifik referanslar aracılığıyla daha etkili şekilde çağırmasını sağlar. Few-shot prompting’den de farklıdır: few-shot, modele örnek girdi/çıktı çiftleri verir; knowledge anchor, modelin bilgi tabanındaki spesifik bir bölgeyi isimlendirerek aktive eder.
Araştırmalar, bu tür grounding’in hallucination’ı ölçülebilir şekilde azalttığını gösteriyor. Shuster et al.‘ın (2021) temel çalışması, retrieval-grounded üretimin knowledge hallucination’ı önemli ölçüde azalttığını kanıtladı10. Garber et al. (2024), knowledge graph’lerden çıkarılan named entity’ler grounding kaynağı olarak kullanıldığında hallucination’ın ölçülebilir şekilde azaldığını gösterdi11. Google Research’ün FACTS benchmark’ı (2025), “hallucinated named entities” (kaynak dokümanda olmayan isimler) oranını ana hata metriği olarak kullanıyor12.
Dört Kategori
Knowledge anchor’ları dört kategoride organize etmek etkili bir yapı sağlar:
| Kategori | İşlev | Örnek |
|---|---|---|
| Core Principles | Temel tasarım/mimari prensipleri | Nielsen’in heuristic’leri, SOLID prensipleri, Tufte’un veri görselleştirme kuralları |
| Anti-Patterns | Kaçınılması gereken yaygın hatalar | Premature optimization, God object, N+1 query |
| Key Metrics | Ölçülebilir başarı kriterleri | Core Web Vitals, OWASP Top 10, DORA metrics |
| Domain-Specific Anchors | Alanda derinleşmiş referanslar | Wroblewski (form UX), Kimball (dimensional modeling), Cialdini (ikna) |
Her prompt’a 4 kategoriden de anchor yığmak verimli değil. Pratik gözlemlerime göre, 3-4 anchor dengeli bir nokta: bir core principle + bir anti-pattern + 1-2 domain-spesifik anchor. Daha fazlası context’e gürültü ekliyor ve modelin odağını dağıtıyor.
Structured Prompting Formatları
“Yapılandırılmış prompt düz metinden üstündür” iddiası artık tartışma konusu değil. Schulhoff et al.‘ın (2024) 1,565 paper’ı kapsayan sistematik survey’i, structured formatting’i (delimiter’lar, XML tags, JSON schemas) bir meta-teknik olarak tanımlıyor: diğer tüm prompting stratejilerini iyileştiren temel bir yapı taşı13.
Ancak “hangi format?” sorusu basit bir cevap vermiyor.
XML
Anthropic’in Claude modelleri XML tag yapılarını tanımak üzere eğitilmiş14. <role>, <context>, <constraints>, <output_format> gibi semantik etiketler, concern separation sağlıyor. Serbest metin ile yapılandırılmış talimatları bir arada tutmada güçlü.
<role>Senior frontend engineer</role>
<context>React 19, Tailwind CSS, TypeScript projesi</context>
<instructions>Form validation componenti oluştur</instructions>
<constraints>
- MUST: Wroblewski inline validation pattern
- NEVER: Alert/confirm dialog
</constraints>
JSON
OpenAI, GPT-4o ve o3 modellerinde JSON Schema ile Structured Outputs’u push ediyor15. response_format parametresi ile schema adherence garantisi, zorunlu key’ler ve enum validation sağlıyor. API entegrasyonu ve programmatik çıktı parsing’de güçlü.
{
"role": "Senior frontend engineer",
"context": "React 19, Tailwind CSS, TypeScript",
"task": "Form validation component",
"constraints": {
"must": ["Wroblewski inline validation"],
"never": ["Alert/confirm dialog"]
}
}
YAML
YAML, insan tarafından okunabilirlikte avantajlı. Prompt template’lerde, config dosyalarında ve multi-step workflow tanımlarında tercih ediliyor. Indent-based yapısı doğal hiyerarşi sağlıyor.
role: Senior frontend engineer
context: React 19, Tailwind CSS, TypeScript
task: Form validation component
constraints:
must:
- Wroblewski inline validation
never:
- Alert/confirm dialog
Format Seçimi: Model-Spesifik Tercihler
He et al.‘ın (2024) çalışması, GPT-3.5-turbo ve GPT-4 üzerinde yaptığı deneylerde prompt formatının tek başına %40’a kadar performans farkı yaratabileceğini gösterdi16. Fark özellikle küçük modellerde belirgin: GPT-3.5-turbo JSON’u tercih ederken, GPT-4 Markdown ile en iyi sonucu veriyor ve formata daha dayanıklı. Cross-model format transferi düşük (IoU genellikle 0.2 altında).
Elnashar et al. (2025), GPT-4o, Claude ve Gemini üzerinde format karşılaştırması yaptı17: JSON complex/nested data’da en yüksek accuracy, YAML okunabilirlik/verimlilik dengesi, CSV/Prefix flat data’da token verimliliği.
| Model | Önerilen Format | Kaynak |
|---|---|---|
| Claude Sonnet 4 / Opus 4 | XML tags | Anthropic resmi dokümantasyon14 |
| GPT-4o / o3 | JSON Schema + Structured Outputs | OpenAI resmi dokümantasyon15 |
| Gemini 2.5 Flash / Pro | Format-agnostic, Markdown/JSON tercih | Google dokümantasyon |
Open-Source Modellerde Format Hassasiyeti
Open-source modeller, format değişikliğine closed-source modellerden çok daha hassas. Bu sadece sezgisel bir gözlem değil, araştırmalarla destekleniyor:
- 76 accuracy point fark: LLaMA-2-13B’de few-shot ayarlarında format değişikliğinden kaynaklanan performans farkı18
- Parametre sayısı çözüm değil: POSIX çalışması, parametre artırmanın veya instruction tuning’in tek başına hassasiyeti azaltmadığını gösterdi. Tek bir few-shot example bile dramatik fark yaratıyor19
- Structural task açığı: StructEval benchmark’ı, open-source modellerin (Llama-3-8B, Qwen2.5-7B) complex structural task’larda closed-source modellere göre daha geniş performans açığı gösterdiğini ortaya koydu20
Her model ailesinin kendi format tercihleri var:
| Model | Format | Not |
|---|---|---|
| DeepSeek V3 | Markdown + XML + 3-katmanlı prompt (System/Developer/User) | R1: boş system prompt, few-shot kullanma |
| Kimi K2.5 | Structured headers, tablolar | Tool calling otomatik |
| Llama 4 | Özel header token’ları, JSON schema | ipython role ile tool results |
| Qwen 3 | ChatML format, <think> bloğu | /think ve /no_think inline switch |
| Mistral Large | [INST] template, Markdown + XML | JSON Schema mode > plain JSON mode |
Ortak bulgu: format ne olursa olsun, yapılandırılmış prompt düz metinden üstün. Constrained decoding (Outlines, vLLM guided_json) open-source modellerde JSON güvenilirliğini artırıyor21.
Domain-Spesifik Optimizasyon Nasıl Yapılır?
Teoriyi pratiğe dökmek için beş adımlı bir optimizasyon akışı:
Adım 1: Role Injection
Domain-spesifik bir uzman rolü atayın. “Sen bir yazılımcısın” değil, “Sen accessibility ve performans konusunda uzmanlaşmış, Lighthouse skorlarını optimize eden bir senior frontend engineer’sın.”
Role, modelin sonraki talimatları hangi perspektiften değerlendireceğini belirler.
Adım 2: Anchor Stacking (Max 3-4)
İlgili knowledge anchor’ları seçin. Tag matching kullanın: prompt’taki terimlerle anchor’ların etiketlerini eşleştirin.
Pratik gözlemlerime göre optimal kombinasyon:
- 1 Core Principle (yönlendirme)
- 1 Anti-Pattern (sınırlama)
- 1-2 Domain-Specific Anchor (derinleştirme)
Fazlası gürültü yaratır. Her eklenen anchor, modelin dikkatini mevcut anchor’lardan çalar.
Adım 3: Constraint Formatting
Belirsiz talimatlar yerine explicit constraint’ler kullanın:
- MUST: Zorunlu davranışlar
- NEVER: Yasaklanmış davranışlar
- ALWAYS: Her durumda geçerli kurallar
“Kısa yaz” yerine “MAX: 150 kelime, her paragraf 3 cümle”. “Güvenli kod yaz” yerine “NEVER: innerHTML ile user input, MUST: parameterized queries, ALWAYS: input validation at system boundary”.
Adım 4: Output Spec
Beklenen çıktı formatını tanımlayın. Model, output format tanımı olmadan kendi varsayılanına düşer (genellikle uzun, yapılandırılmamış paragraflar).
<output_format>
Markdown. H2 başlıklar, bullet points.
Her bölüm max 100 kelime. Kod blokları syntax highlighted.
Sonunda 3 maddelik action items listesi.
</output_format>
Adım 5: Self-Check Gate
Prompt’un sonuna bir doğrulama checklist’i ekleyin:
<success_criteria>
- [ ] Output, belirtilen format'a uygun mu?
- [ ] Tüm MUST constraint'leri karşılanmış mı?
- [ ] Hiçbir NEVER constraint'i ihlâl edilmemiş mi?
- [ ] Knowledge anchor referansları somut şekilde uygulanmış mı?
</success_criteria>
Bu, modelin kendi çıktısını teslim etmeden önce kontrol etmesini sağlar. Instruction attenuation’a karşı ek bir savunma katmanı.
Prompt Forge Yaklaşımı
Bu yazıda anlattığım ilkeleri kendi iş akışıma nasıl uyguladığımı paylaşmak istiyorum.
Analiz
Farklı platformlardan 1,400’den fazla prompt’u topladım ve dört kriter üzerinden değerlendirdim: (1) role tanımı, (2) explicit constraint’ler, (3) output format tanımı, (4) domain-spesifik referans kullanımı. Her kriter 0-2 arasında puanlandı; toplam 0-8 skalasında 5 ve üzeri “above average”, 3 ve altı “below average” olarak sınıflandırıldı.
Sonuçlar: prompt’ların büyük çoğunluğu below average kategorisindeydi. En başarılı %18’lik dilimin ortak özelliği: spesifik referanslar, yapılandırılmış format, explicit constraint’ler. Yani tam olarak bu yazıda ele aldığım üç temel.
Yaklaşım
Bu bulgulardan yola çıkarak, dört domain için curated knowledge anchor dosyaları oluşturdum:
- Frontend: UI/UX, React, CSS, erişilebilirlik, performans (Nielsen, Krug, Wroblewski, WCAG)
- Backend: Django, SOLID, DDD, OWASP, veritabanı optimizasyonu (Fowler, Evans, Martin)
- Data: Veri görselleştirme, analitik, SEO (Tufte, Kimball, GA4)
- Infra: CAP theorem, SRE, DORA metrics, 12-Factor (Nygard, Google SRE)
Her anchor dosyası, domain’in en etkili 20-30 referansını içeriyor. Her referansın tag’leri var (örneğin tags: [form, validation, input, ux]). Prompt optimize edilirken, prompt’taki terimlerle tag’ler eşleştiriliyor ve en uygun 3-4 anchor seçiliyor.
Sonuç
Aynı görev, aynı model, anchor-backed structured prompt ile generic prompt arasındaki fark tutarlı: daha spesifik, daha doğru, daha az halüsinasyon içeren çıktılar. Fark özellikle şu durumlarda belirgin:
- Karmaşık teknik kararlar (mimari pattern seçimi, kütüphane karşılaştırması)
- Domain-spesifik best practice uygulaması (erişilebilirlik, güvenlik, performans)
- Yapılandırılmış çıktı üretimi (ADR, spec, test planı)
Prompt Forge, açık kaynak bir Claude Code skill’i olarak GitHub’da mevcut.
Yapı Tek Katmanlı Olamaz
Bu yazıda ele aldığım optimizasyon teknikleri, tek başına yeterli değil. LLM davranışsal bozulma modları yazısında vurguladığım gibi, savunma üç katmanda çalışmalıdır:
| Katman | Bu Yazıdaki Karşılık | Ne Sağlar |
|---|---|---|
| Prompt | Knowledge anchor, structured format, constraint’ler | Modelin davranışını yönlendirir |
| Mimari | RAG, guardrails, constrained decoding, schema enforcement | Yapısal sınırlar koyar |
| Operasyonel | Self-check gate, human-in-the-loop, monitoring | Çıktıyı kontrol eder |
Prompt optimizasyonu güçlü bir başlangıç noktasıdır, ama tek başına çözüm değildir. En iyi prompt bile, doğrulama olmadan güvenilir değildir.
Footnotes
- Nielsen, J. (1994). 10 Usability Heuristics for User Interface Design. Nielsen Norman Group. Arayüz tasarımında en yaygın kullanılan kullanılabilirlik değerlendirme çerçevesi. ↩
- Dai, D., Dong, L., Hao, Y., Sui, Z., Chang, B., Wei, F. (2022). Knowledge Neurons in Pretrained Transformers. ACL 2022. Belirli nöronların factual bilgiyi ifade ettiğini ve aktivasyonlarının ilgili gerçeklerle pozitif korelasyon gösterdiğini kanıtlayan çalışma. ↩
- Meng, K., Bau, D., Andonian, A., Belinkov, Y. (2022). Locating and Editing Factual Associations in GPT. NeurIPS 2022. Causal tracing ile factual bilginin orta katman feed-forward modüllerinde, subject token’ları işlerken lokalize edildiğini gösteren çalışma. ↩
- Niu, J., Liu, A., Zhu, Z., Penn, G. (2024). What does the Knowledge Neuron Thesis Have to do with Knowledge? ICLR 2025. Knowledge neuron tezinin aşırı basitleştirme olduğunu, bilginin dağıtık bileşenler arası koordineli aktivasyondan ortaya çıktığını gösteren çalışma. ↩
- Zheng, Z., Wang, Y., Huang, Y., Song, S., Tang, B., Xiong, F., Li, Z. (2024). Attention Heads of Large Language Models: A Survey. arXiv. Attention head’lerini Knowledge Recalling, In-Context Identification, Latent Reasoning, Expression Preparation olarak sınıflandıran survey. ↩
- Dhuliawala, S., Komeili, M., Xu, J., et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. ACL 2024. 4 adımlı doğrulama süreci ile halüsinasyon azaltma. ↩
- Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. Anthropic / Oxford. Preference modellerin sycophantic cevapları tercih ettiğini gösteren çalışma. ↩
- Hong, K., Troynikov, A., Huber, J. (2025). Context Rot: How Increasing Input Tokens Impacts LLM Performance. Chroma Research. İlgisiz bilginin aktif olarak zarar verdiğini gösteren 18 model analizi. ↩
- Laban, P., Hayashi, H., Zhou, Y., Neville, J. (2025). LLMs Get Lost In Multi-Turn Conversation. arXiv. Multi-turn’de ortalama %39 performans düşüşü ve Forget-Me-Not re-injection tekniği. ↩
- Shuster, K., Poff, S., Chen, M., Kiela, D., Weston, J. (2021). Retrieval Augmentation Reduces Hallucination in Conversation. EMNLP Findings. Retrieval-grounded üretimin knowledge hallucination’ı azalttığını kanıtlayan temel çalışma. ↩
- Garber, G., et al. (2024). Can Knowledge Graphs Reduce Hallucinations in LLMs? A Survey. NAACL 2024. Named entity grounding’in hallucination’ı ölçülebilir şekilde azalttığını gösteren survey. ↩
- Anil, R., et al. (2025). The FACTS Grounding Leaderboard. Google Research. Hallucinated named entities oranını ana metrik olarak kullanan grounding benchmark’ı. ↩
- Schulhoff, S., et al. (2024). The Prompt Report: A Systematic Survey of Prompting Techniques. arXiv. 58 prompting tekniği ve 1,565 paper analizi. Structured formatting’i “meta-teknik” olarak tanımlayan kapsamlı survey. ↩
- Anthropic (2026). Use XML Tags to Structure Your Prompts. Anthropic Docs. Claude’un XML tag yapılarını tanımak üzere eğitildiğini belirten resmi dokümantasyon. ↩ ↩2
- OpenAI (2026). Structured Outputs. OpenAI Docs. JSON Schema adherence garantisi sağlayan Structured Outputs dokümantasyonu. ↩ ↩2
- He, J., Rungta, M., Koleczek, D., Sekhon, A., Wang, F. X., Hasan, S. (2024). Does Prompt Formatting Have Any Impact on LLM Performance? arXiv. Format değişikliğinin %40’a kadar performans farkı yarattığını gösteren çalışma. ↩
- Elnashar, A., White, J., Schmidt, D. (2025). Enhancing Structured Data Generation with GPT-4o. Frontiers in AI. JSON, YAML, CSV format karşılaştırması: GPT-4o, Claude, Gemini üzerinde. ↩
- Sclar, M., et al. (2024). Quantifying Language Models’ Sensitivity to Spurious Features in Prompt Design. arXiv. LLaMA-2-13B’de few-shot ayarlarında 76 accuracy point format hassasiyeti. ↩
- Samarawickrama, S., et al. (2024). POSIX: A Prompt Sensitivity Index For Large Language Models. arXiv. Parametre artırma veya instruction tuning’in tek başına hassasiyeti azaltmadığını gösteren çalışma. ↩
- StructEval (2025). Benchmarking LLMs’ Capabilities to Generate Structural Outputs. arXiv. Open-source modellerin complex structural task’larda closed-source’a göre daha geniş performans açığı. ↩
- Geng, S., Cooper, H., et al. (2025). Generating Structured Outputs from Language Models: Benchmark and Studies. arXiv. Constrained decoding’in üretimi %50 hızlandırdığını ve downstream kaliteyi %4’e kadar artırdığını gösteren JSONSchemaBench çalışması. ↩
- 01 LLM bilgi depolama dağıtık: tek nöron değil, koordineli aktivasyon pattern'ları
- 02 Prompt formatı tek başına %40'a kadar performans farkı yaratabilir
- 03 Knowledge anchor'lar LLM'in training data'sındaki spesifik bilgi kümelerini aktive eden isim bazlı referanslardır
- 04 Structured prompting bir meta-tekniktir: diğer tüm prompting stratejilerini iyileştirir
- 05 Open-source modeller format değişikliğine closed-source'tan çok daha hassas; tek bir few-shot example bile farkı dramatik azaltır
- 06 İyi prompt, LLM davranışsal bozulmalarını (hallucination, sycophancy, task drift) minimize eder
+ Knowledge anchor nedir?
Knowledge anchor, LLM'in training data'sındaki spesifik bilgi kümelerini aktive eden isim bazlı referanslardır. Bir teori, framework, araştırmacı veya metodoloji adı olabilir. 'Form validation yap' yerine 'Wroblewski'nin inline validation araştırmasını uygula' demek, modelin o araştırmanın spesifik bulgularını aktive etmesini sağlar.
+ XML mi JSON mu YAML mı kullanmalıyım?
Model-spesifik tercihler var: Claude XML tags için optimize, GPT-4o JSON Schema ile en iyi sonucu veriyor, YAML insan tarafından düzenlenecek prompt template'lerde avantajlı. Ortak bulgu: format ne olursa olsun, yapılandırılmış prompt düz metinden üstün.
+ Open-source modellerde prompt format neden daha önemli?
Araştırmalar open-source modellerin format değişikliğine kadar 76 accuracy point fark gösterdiğini ortaya koyuyor. Closed-source modeller (GPT-4+) RLHF tuning ile formata daha dayanıklı. Open-source'ta tek bir few-shot example bile hassasiyeti dramatik azaltıyor.
+ Kaç tane knowledge anchor kullanmalıyım?
Pratik gözlemlerime göre 3-4 anchor optimal. Daha fazlası context'e gürültü ekliyor ve modelin odağını dağıtıyor. Tek core principle + tek anti-pattern + 1-2 domain-spesifik anchor dengeli bir kombinasyon.
+ İyi prompt LLM hatalarını azaltır mı?
Evet. Araştırmalar, yapılandırılmış prompt'ların hallucination'ı (CoVe tekniği), sycophancy'yi (soru formülasyonu), instruction attenuation'ı (Forget-Me-Not re-injection) ve context rot'u (gereksiz bilgi eklememek) azalttığını gösteriyor.