İçeriğe geç
ceaksan
ai

Domain-Spesifik Prompt Optimizasyonu: Knowledge Anchor Yaklaşımı

LLM'ler bilgiyi nasıl çağırır, generic prompt neden başarısız olur ve knowledge anchor'lar bu sorunu nasıl çözer? Structured prompting formatları, domain-spesifik optimizasyon adımları ve pratik Prompt Forge yaklaşımı.

9 Şub 2026 11 dk okuma
TL;DR

LLM'ler prompt'taki token dizilerine göre bilgi kümelerini aktive eder. Generic prompt geniş ama sığ bir aktivasyon üretir; spesifik referanslar (isim, teori, framework) dar ama derin bilgi kümelerini tetikler. Knowledge anchor, bu mekanizmayı bilinçli olarak kullanan isim bazlı referanslardır. Structured prompting (XML, JSON, YAML) bu etkiyi güçlendirir. Araçlar model-spesifik tercihler gösterir: Claude XML, GPT-4o JSON, open-source modeller format değişikliğine daha hassas.

LLM’lerin davranışsal bozulma modlarını, context yönetimini ve karar süreçlerini daha önceki yazılarda ele almıştım. Bu yazıda bir adım öne geçip soracağım: modelden daha iyi çıktı almak için prompt’un kendisini nasıl optimize edebiliriz?

“Daha iyi prompt yaz” tavsiyesi herkesin bildiği ama kimsenin somutlaştıramadığı bir klişe. Bu yazıda klişenin arkasındaki mekanizmayı kendi anladığım ve kullanmaya çalıştığım biçimde aktarmaya çalışacağım: LLM bilgiyi nasıl çağırır, generic prompt neden yetersiz kalır ve knowledge anchor yaklaşımı bu sorunu nasıl çözer.

Hızlı Referans
KapsamDomain-spesifik prompt optimizasyonu
Kaynak sayısı30+ akademik çalışma ve resmi dokümantasyon (2021-2026)
Pratik odakKnowledge anchor tanımı, structured format karşılaştırması, optimizasyon adımları
İlişkili kavramlarLLM Bozulma Modları, Decision Gate

LLM Bilgiyi Nasıl Çağırır?

Bir dil modeline “bir web sitesi tasarla” dediğinizde, model eğitim verisindeki milyarlarca token arasından “web sitesi” ve “tasarla” ile ilişkili bilgi kümelerini aktive eder. Bu aktivasyon geniş ama sığdır: CSS, HTML, JavaScript, React, WordPress, Wix, erişilebilirlik, performans, SEO, bunların hepsi aynı anda hafifçe aktive olur. Hiçbiri derinlemesine aktive olmaz.

Aynı modele “Nielsen’in 10 heuristic’ini uygulayarak bir e-ticaret checkout sayfası tasarla” dediğinizde, aktivasyon daralır ama derinleşir. Jakob Nielsen’in kullanılabilirlik heuristic’leri, arayüz tasarımında en yaygın kullanılan değerlendirme çerçevesidir: sistem durumunun görünürlüğü (visibility of system status), sistem ile gerçek dünya arasındaki uyum (match between system and real world), hata önleme (error prevention), tutarlılık ve standartlar (consistency and standards) gibi on temel prensipten oluşur1. Model bu referansla karşılaştığında, eğitim verisindeki bu spesifik prensipleri ve bunların uygulamalarını aktive eder. Bilgi kümesi yoğunlaşmıştır ve model o bölgeye odaklanır.

Bu, sezgisel bir gözlem değil. Transformer mimarisinde bilgi depolamanın mekanizmasını inceleyen çalışmalar bu tabloyu destekliyor.

Knowledge neuron hipotezi, Dai et al.‘ın (2022) ACL’de yayımlanan çalışmasında tanımlandı2: belirli nöronlar factual bilgiyi ifade ediyor ve bu nöronların aktivasyonu ilgili gerçeklerle pozitif korelasyon gösteriyor. Meng et al. (2022), bu bulguyu NeurIPS’te genişletti3: factual bilgi orta katman feed-forward modüllerinde, subject token’ları işlerken aracılık ediliyor. Yani prompt’ta geçen isimler ve kavramlar (subject token’lar), bilgi çağrısının tetikleyicileri.

Ancak güncel araştırmalar bu tabloyu nüanslandırıyor. Niu et al. (2024), ICLR 2025’te yayımlanan çalışmalarında knowledge neuron tezinin aşırı basitleştirme olduğunu gösterdi4: bilgi tek nöronlarda değil, dağıtık bileşenler arası koordineli aktivasyondan ortaya çıkıyor. Bu iki görüş çelişmez, farklı ölçeklerde doğrudur: bireysel nöronlar factual ilişkilere katkıda bulunur, ancak bilgi çağrısı tek nörona indirgenemez, katmanlar arası koordinasyon gerektirir. Zheng et al. (2024), attention head’lerini dört aşamalı bir framework’te sınıflandırdı5: Knowledge Recalling, In-Context Identification, Latent Reasoning, Expression Preparation. İlk aşama, prompt’taki referanslarla doğrudan tetikleniyor.

Pratik karşılığı basit: prompt’ta ne yazdığınız, modelin hangi bilgi kümelerini aktive edeceğini belirliyor. Generic terimler geniş ama yüzeysel bir aktivasyon üretir. Spesifik isimler, teoriler ve framework referansları, eğitim verisindeki derin ve yoğun bilgi kümelerini tetikler.

Generic Prompt Neden Başarısız Olur?

Farklı platformlardan topladığım 1,400’den fazla prompt’u analiz ettiğimde, çoğunluğunun ortak zayıflıkları paylaştığını gördüm. Her prompt’u dört kriter üzerinden 0-2 arasında puanladım: role tanımı, explicit constraint’ler, output formatı, domain-spesifik referans kullanımı. 0-8 skalasında 5 ve üzeri “above average”, 3 ve altı “below average” olarak sınıflandırdım. Bu kriterlere göre prompt’ların büyük çoğunluğu midpoint’in (4) altında kaldı.

En başarılı prompt’ların (%18’lik üst dilim) ortak özellikleri:

  • Spesifik araştırma veya framework referansları
  • Yapılandırılmış format (XML, JSON veya benzeri delimiter’lar)
  • Explicit constraint’ler (MUST, NEVER, ALWAYS formatında)
  • Tanımlanmış output format beklentisi

Aradaki fark sadece “daha detaylı talimat” değil, yapısal bir fark.

Before/After

Generic prompt:

Bir e-ticaret sitesi için ürün açıklaması yaz.

Knowledge anchor ile optimize edilmiş:

<role>
Sen conversion-odaklı bir UX writer'sın.
Krug'un "Don't Make Me Think" ve Cialdini'nin ikna prensiplerini uyguluyorsun.
</role>

<instructions>
Bir e-ticaret ürün açıklaması yaz.
</instructions>

<constraints>
- MUST: Benefit-first yapı (özellik değil, fayda ile başla)
- MUST: Scannable format (bullet points, bold key terms)
- NEVER: Jargon veya teknik terim (hedef kitle: genel tüketici)
- MAX: 150 kelime
</constraints>

<output_format>
Başlık + 2-3 cümle hook + bullet point faydalar + CTA
</output_format>

İlk prompt’ta model “herhangi bir ürün açıklaması” üretir. İkincisinde Krug’un kullanılabilirlik prensiplerini ve Cialdini’nin ikna framework’ünü aktive eder, output formatı belirlidir, constraint’ler nettir.

Prompt Kalitesi ve LLM Davranışsal Bozulmaları

İyi prompt sadece daha iyi çıktı üretmez, aynı zamanda LLM davranışsal bozulmalarını da minimize eder:

  • Hallucination: Chain-of-Verification (CoVe) prompt tekniği, modeli kendi çıktısını doğrulama sorularıyla kontrol etmeye yönlendirerek halüsinasyonu azaltır6
  • Sycophancy: Soru formülasyonu sycophancy’yi doğrudan etkiler. “Bu yanlış değil mi?” yerine “bunu analiz et” demek, modelin katılma refleksi yerine analiz üretmesini sağlar7
  • Context rot: Prompt’a gereksiz bilgi eklemek sadece “bulunamaz” değil, aktif olarak zarar verir. İlgisiz padding, bilgi retrieval’ı bozan bir gürültü kaynağıdır8
  • Instruction attenuation: Uzun session’larda talimatlar etkisini kaybeder. Forget-Me-Not tekniği, stratejik noktalarda talimat re-injection ile multi-turn’deki ortalama %39 performans düşüşünü azaltır9

Ortak tema: prompt’un yapısı, modelin davranışını şekillendirir. Yapılandırılmamış, belirsiz bir prompt, bozulma modlarına davet çıkarır.

Knowledge Anchor Nedir?

Knowledge anchor, LLM’in training data’sındaki spesifik bilgi kümelerini aktive eden isim bazlı referanslardır. Bir teori, framework, araştırmacı veya metodoloji adı olabilir.

“Form validation yap” dediğinizde model genel bir form validation çıktısı üretir. “Luke Wroblewski’nin inline validation araştırmasını uygula” dediğinizde, model o araştırmanın spesifik bulgularını aktive eder: anlık geri bildirim, pozitif doğrulama, hata mesajı zamanlaması.

Bu, retrieval-augmented generation (RAG) ile aynı mekanizma değil ama benzer bir sonucu hedefliyor: daha doğru, daha az halüsinasyon içeren çıktılar. Mekanizmaları farklı. RAG, harici bir veritabanından bilgi çeker ve modele context olarak sunar. Knowledge anchor ise harici veri gerektirmez: modelin kendi eğitim verisindeki mevcut bilgiyi, spesifik referanslar aracılığıyla daha etkili şekilde çağırmasını sağlar. Few-shot prompting’den de farklıdır: few-shot, modele örnek girdi/çıktı çiftleri verir; knowledge anchor, modelin bilgi tabanındaki spesifik bir bölgeyi isimlendirerek aktive eder.

Araştırmalar, bu tür grounding’in hallucination’ı ölçülebilir şekilde azalttığını gösteriyor. Shuster et al.‘ın (2021) temel çalışması, retrieval-grounded üretimin knowledge hallucination’ı önemli ölçüde azalttığını kanıtladı10. Garber et al. (2024), knowledge graph’lerden çıkarılan named entity’ler grounding kaynağı olarak kullanıldığında hallucination’ın ölçülebilir şekilde azaldığını gösterdi11. Google Research’ün FACTS benchmark’ı (2025), “hallucinated named entities” (kaynak dokümanda olmayan isimler) oranını ana hata metriği olarak kullanıyor12.

Dört Kategori

Knowledge anchor’ları dört kategoride organize etmek etkili bir yapı sağlar:

KategoriİşlevÖrnek
Core PrinciplesTemel tasarım/mimari prensipleriNielsen’in heuristic’leri, SOLID prensipleri, Tufte’un veri görselleştirme kuralları
Anti-PatternsKaçınılması gereken yaygın hatalarPremature optimization, God object, N+1 query
Key MetricsÖlçülebilir başarı kriterleriCore Web Vitals, OWASP Top 10, DORA metrics
Domain-Specific AnchorsAlanda derinleşmiş referanslarWroblewski (form UX), Kimball (dimensional modeling), Cialdini (ikna)

Her prompt’a 4 kategoriden de anchor yığmak verimli değil. Pratik gözlemlerime göre, 3-4 anchor dengeli bir nokta: bir core principle + bir anti-pattern + 1-2 domain-spesifik anchor. Daha fazlası context’e gürültü ekliyor ve modelin odağını dağıtıyor.

Structured Prompting Formatları

“Yapılandırılmış prompt düz metinden üstündür” iddiası artık tartışma konusu değil. Schulhoff et al.‘ın (2024) 1,565 paper’ı kapsayan sistematik survey’i, structured formatting’i (delimiter’lar, XML tags, JSON schemas) bir meta-teknik olarak tanımlıyor: diğer tüm prompting stratejilerini iyileştiren temel bir yapı taşı13.

Ancak “hangi format?” sorusu basit bir cevap vermiyor.

XML

Anthropic’in Claude modelleri XML tag yapılarını tanımak üzere eğitilmiş14. <role>, <context>, <constraints>, <output_format> gibi semantik etiketler, concern separation sağlıyor. Serbest metin ile yapılandırılmış talimatları bir arada tutmada güçlü.

<role>Senior frontend engineer</role>
<context>React 19, Tailwind CSS, TypeScript projesi</context>
<instructions>Form validation componenti oluştur</instructions>
<constraints>
- MUST: Wroblewski inline validation pattern
- NEVER: Alert/confirm dialog
</constraints>

JSON

OpenAI, GPT-4o ve o3 modellerinde JSON Schema ile Structured Outputs’u push ediyor15. response_format parametresi ile schema adherence garantisi, zorunlu key’ler ve enum validation sağlıyor. API entegrasyonu ve programmatik çıktı parsing’de güçlü.

{
  "role": "Senior frontend engineer",
  "context": "React 19, Tailwind CSS, TypeScript",
  "task": "Form validation component",
  "constraints": {
    "must": ["Wroblewski inline validation"],
    "never": ["Alert/confirm dialog"]
  }
}

YAML

YAML, insan tarafından okunabilirlikte avantajlı. Prompt template’lerde, config dosyalarında ve multi-step workflow tanımlarında tercih ediliyor. Indent-based yapısı doğal hiyerarşi sağlıyor.

role: Senior frontend engineer
context: React 19, Tailwind CSS, TypeScript
task: Form validation component
constraints:
  must:
    - Wroblewski inline validation
  never:
    - Alert/confirm dialog

Format Seçimi: Model-Spesifik Tercihler

He et al.‘ın (2024) çalışması, GPT-3.5-turbo ve GPT-4 üzerinde yaptığı deneylerde prompt formatının tek başına %40’a kadar performans farkı yaratabileceğini gösterdi16. Fark özellikle küçük modellerde belirgin: GPT-3.5-turbo JSON’u tercih ederken, GPT-4 Markdown ile en iyi sonucu veriyor ve formata daha dayanıklı. Cross-model format transferi düşük (IoU genellikle 0.2 altında).

Elnashar et al. (2025), GPT-4o, Claude ve Gemini üzerinde format karşılaştırması yaptı17: JSON complex/nested data’da en yüksek accuracy, YAML okunabilirlik/verimlilik dengesi, CSV/Prefix flat data’da token verimliliği.

ModelÖnerilen FormatKaynak
Claude Sonnet 4 / Opus 4XML tagsAnthropic resmi dokümantasyon14
GPT-4o / o3JSON Schema + Structured OutputsOpenAI resmi dokümantasyon15
Gemini 2.5 Flash / ProFormat-agnostic, Markdown/JSON tercihGoogle dokümantasyon

Open-Source Modellerde Format Hassasiyeti

Open-source modeller, format değişikliğine closed-source modellerden çok daha hassas. Bu sadece sezgisel bir gözlem değil, araştırmalarla destekleniyor:

  • 76 accuracy point fark: LLaMA-2-13B’de few-shot ayarlarında format değişikliğinden kaynaklanan performans farkı18
  • Parametre sayısı çözüm değil: POSIX çalışması, parametre artırmanın veya instruction tuning’in tek başına hassasiyeti azaltmadığını gösterdi. Tek bir few-shot example bile dramatik fark yaratıyor19
  • Structural task açığı: StructEval benchmark’ı, open-source modellerin (Llama-3-8B, Qwen2.5-7B) complex structural task’larda closed-source modellere göre daha geniş performans açığı gösterdiğini ortaya koydu20

Her model ailesinin kendi format tercihleri var:

ModelFormatNot
DeepSeek V3Markdown + XML + 3-katmanlı prompt (System/Developer/User)R1: boş system prompt, few-shot kullanma
Kimi K2.5Structured headers, tablolarTool calling otomatik
Llama 4Özel header token’ları, JSON schemaipython role ile tool results
Qwen 3ChatML format, <think> bloğu/think ve /no_think inline switch
Mistral Large[INST] template, Markdown + XMLJSON Schema mode > plain JSON mode

Ortak bulgu: format ne olursa olsun, yapılandırılmış prompt düz metinden üstün. Constrained decoding (Outlines, vLLM guided_json) open-source modellerde JSON güvenilirliğini artırıyor21.

Domain-Spesifik Optimizasyon Nasıl Yapılır?

Teoriyi pratiğe dökmek için beş adımlı bir optimizasyon akışı:

Adım 1: Role Injection

Domain-spesifik bir uzman rolü atayın. “Sen bir yazılımcısın” değil, “Sen accessibility ve performans konusunda uzmanlaşmış, Lighthouse skorlarını optimize eden bir senior frontend engineer’sın.”

Role, modelin sonraki talimatları hangi perspektiften değerlendireceğini belirler.

Adım 2: Anchor Stacking (Max 3-4)

İlgili knowledge anchor’ları seçin. Tag matching kullanın: prompt’taki terimlerle anchor’ların etiketlerini eşleştirin.

Pratik gözlemlerime göre optimal kombinasyon:

  • 1 Core Principle (yönlendirme)
  • 1 Anti-Pattern (sınırlama)
  • 1-2 Domain-Specific Anchor (derinleştirme)

Fazlası gürültü yaratır. Her eklenen anchor, modelin dikkatini mevcut anchor’lardan çalar.

Adım 3: Constraint Formatting

Belirsiz talimatlar yerine explicit constraint’ler kullanın:

  • MUST: Zorunlu davranışlar
  • NEVER: Yasaklanmış davranışlar
  • ALWAYS: Her durumda geçerli kurallar

“Kısa yaz” yerine “MAX: 150 kelime, her paragraf 3 cümle”. “Güvenli kod yaz” yerine “NEVER: innerHTML ile user input, MUST: parameterized queries, ALWAYS: input validation at system boundary”.

Adım 4: Output Spec

Beklenen çıktı formatını tanımlayın. Model, output format tanımı olmadan kendi varsayılanına düşer (genellikle uzun, yapılandırılmamış paragraflar).

<output_format>
Markdown. H2 başlıklar, bullet points.
Her bölüm max 100 kelime. Kod blokları syntax highlighted.
Sonunda 3 maddelik action items listesi.
</output_format>

Adım 5: Self-Check Gate

Prompt’un sonuna bir doğrulama checklist’i ekleyin:

<success_criteria>
- [ ] Output, belirtilen format'a uygun mu?
- [ ] Tüm MUST constraint'leri karşılanmış mı?
- [ ] Hiçbir NEVER constraint'i ihlâl edilmemiş mi?
- [ ] Knowledge anchor referansları somut şekilde uygulanmış mı?
</success_criteria>

Bu, modelin kendi çıktısını teslim etmeden önce kontrol etmesini sağlar. Instruction attenuation’a karşı ek bir savunma katmanı.

Prompt Forge Yaklaşımı

Bu yazıda anlattığım ilkeleri kendi iş akışıma nasıl uyguladığımı paylaşmak istiyorum.

Analiz

Farklı platformlardan 1,400’den fazla prompt’u topladım ve dört kriter üzerinden değerlendirdim: (1) role tanımı, (2) explicit constraint’ler, (3) output format tanımı, (4) domain-spesifik referans kullanımı. Her kriter 0-2 arasında puanlandı; toplam 0-8 skalasında 5 ve üzeri “above average”, 3 ve altı “below average” olarak sınıflandırıldı.

Sonuçlar: prompt’ların büyük çoğunluğu below average kategorisindeydi. En başarılı %18’lik dilimin ortak özelliği: spesifik referanslar, yapılandırılmış format, explicit constraint’ler. Yani tam olarak bu yazıda ele aldığım üç temel.

Yaklaşım

Bu bulgulardan yola çıkarak, dört domain için curated knowledge anchor dosyaları oluşturdum:

  • Frontend: UI/UX, React, CSS, erişilebilirlik, performans (Nielsen, Krug, Wroblewski, WCAG)
  • Backend: Django, SOLID, DDD, OWASP, veritabanı optimizasyonu (Fowler, Evans, Martin)
  • Data: Veri görselleştirme, analitik, SEO (Tufte, Kimball, GA4)
  • Infra: CAP theorem, SRE, DORA metrics, 12-Factor (Nygard, Google SRE)

Her anchor dosyası, domain’in en etkili 20-30 referansını içeriyor. Her referansın tag’leri var (örneğin tags: [form, validation, input, ux]). Prompt optimize edilirken, prompt’taki terimlerle tag’ler eşleştiriliyor ve en uygun 3-4 anchor seçiliyor.

Sonuç

Aynı görev, aynı model, anchor-backed structured prompt ile generic prompt arasındaki fark tutarlı: daha spesifik, daha doğru, daha az halüsinasyon içeren çıktılar. Fark özellikle şu durumlarda belirgin:

  • Karmaşık teknik kararlar (mimari pattern seçimi, kütüphane karşılaştırması)
  • Domain-spesifik best practice uygulaması (erişilebilirlik, güvenlik, performans)
  • Yapılandırılmış çıktı üretimi (ADR, spec, test planı)

Prompt Forge, açık kaynak bir Claude Code skill’i olarak GitHub’da mevcut.

Yapı Tek Katmanlı Olamaz

Bu yazıda ele aldığım optimizasyon teknikleri, tek başına yeterli değil. LLM davranışsal bozulma modları yazısında vurguladığım gibi, savunma üç katmanda çalışmalıdır:

KatmanBu Yazıdaki KarşılıkNe Sağlar
PromptKnowledge anchor, structured format, constraint’lerModelin davranışını yönlendirir
MimariRAG, guardrails, constrained decoding, schema enforcementYapısal sınırlar koyar
OperasyonelSelf-check gate, human-in-the-loop, monitoringÇıktıyı kontrol eder

Prompt optimizasyonu güçlü bir başlangıç noktasıdır, ama tek başına çözüm değildir. En iyi prompt bile, doğrulama olmadan güvenilir değildir.

Footnotes

  1. Nielsen, J. (1994). 10 Usability Heuristics for User Interface Design. Nielsen Norman Group. Arayüz tasarımında en yaygın kullanılan kullanılabilirlik değerlendirme çerçevesi.
  2. Dai, D., Dong, L., Hao, Y., Sui, Z., Chang, B., Wei, F. (2022). Knowledge Neurons in Pretrained Transformers. ACL 2022. Belirli nöronların factual bilgiyi ifade ettiğini ve aktivasyonlarının ilgili gerçeklerle pozitif korelasyon gösterdiğini kanıtlayan çalışma.
  3. Meng, K., Bau, D., Andonian, A., Belinkov, Y. (2022). Locating and Editing Factual Associations in GPT. NeurIPS 2022. Causal tracing ile factual bilginin orta katman feed-forward modüllerinde, subject token’ları işlerken lokalize edildiğini gösteren çalışma.
  4. Niu, J., Liu, A., Zhu, Z., Penn, G. (2024). What does the Knowledge Neuron Thesis Have to do with Knowledge? ICLR 2025. Knowledge neuron tezinin aşırı basitleştirme olduğunu, bilginin dağıtık bileşenler arası koordineli aktivasyondan ortaya çıktığını gösteren çalışma.
  5. Zheng, Z., Wang, Y., Huang, Y., Song, S., Tang, B., Xiong, F., Li, Z. (2024). Attention Heads of Large Language Models: A Survey. arXiv. Attention head’lerini Knowledge Recalling, In-Context Identification, Latent Reasoning, Expression Preparation olarak sınıflandıran survey.
  6. Dhuliawala, S., Komeili, M., Xu, J., et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. ACL 2024. 4 adımlı doğrulama süreci ile halüsinasyon azaltma.
  7. Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. Anthropic / Oxford. Preference modellerin sycophantic cevapları tercih ettiğini gösteren çalışma.
  8. Hong, K., Troynikov, A., Huber, J. (2025). Context Rot: How Increasing Input Tokens Impacts LLM Performance. Chroma Research. İlgisiz bilginin aktif olarak zarar verdiğini gösteren 18 model analizi.
  9. Laban, P., Hayashi, H., Zhou, Y., Neville, J. (2025). LLMs Get Lost In Multi-Turn Conversation. arXiv. Multi-turn’de ortalama %39 performans düşüşü ve Forget-Me-Not re-injection tekniği.
  10. Shuster, K., Poff, S., Chen, M., Kiela, D., Weston, J. (2021). Retrieval Augmentation Reduces Hallucination in Conversation. EMNLP Findings. Retrieval-grounded üretimin knowledge hallucination’ı azalttığını kanıtlayan temel çalışma.
  11. Garber, G., et al. (2024). Can Knowledge Graphs Reduce Hallucinations in LLMs? A Survey. NAACL 2024. Named entity grounding’in hallucination’ı ölçülebilir şekilde azalttığını gösteren survey.
  12. Anil, R., et al. (2025). The FACTS Grounding Leaderboard. Google Research. Hallucinated named entities oranını ana metrik olarak kullanan grounding benchmark’ı.
  13. Schulhoff, S., et al. (2024). The Prompt Report: A Systematic Survey of Prompting Techniques. arXiv. 58 prompting tekniği ve 1,565 paper analizi. Structured formatting’i “meta-teknik” olarak tanımlayan kapsamlı survey.
  14. Anthropic (2026). Use XML Tags to Structure Your Prompts. Anthropic Docs. Claude’un XML tag yapılarını tanımak üzere eğitildiğini belirten resmi dokümantasyon. 2
  15. OpenAI (2026). Structured Outputs. OpenAI Docs. JSON Schema adherence garantisi sağlayan Structured Outputs dokümantasyonu. 2
  16. He, J., Rungta, M., Koleczek, D., Sekhon, A., Wang, F. X., Hasan, S. (2024). Does Prompt Formatting Have Any Impact on LLM Performance? arXiv. Format değişikliğinin %40’a kadar performans farkı yarattığını gösteren çalışma.
  17. Elnashar, A., White, J., Schmidt, D. (2025). Enhancing Structured Data Generation with GPT-4o. Frontiers in AI. JSON, YAML, CSV format karşılaştırması: GPT-4o, Claude, Gemini üzerinde.
  18. Sclar, M., et al. (2024). Quantifying Language Models’ Sensitivity to Spurious Features in Prompt Design. arXiv. LLaMA-2-13B’de few-shot ayarlarında 76 accuracy point format hassasiyeti.
  19. Samarawickrama, S., et al. (2024). POSIX: A Prompt Sensitivity Index For Large Language Models. arXiv. Parametre artırma veya instruction tuning’in tek başına hassasiyeti azaltmadığını gösteren çalışma.
  20. StructEval (2025). Benchmarking LLMs’ Capabilities to Generate Structural Outputs. arXiv. Open-source modellerin complex structural task’larda closed-source’a göre daha geniş performans açığı.
  21. Geng, S., Cooper, H., et al. (2025). Generating Structured Outputs from Language Models: Benchmark and Studies. arXiv. Constrained decoding’in üretimi %50 hızlandırdığını ve downstream kaliteyi %4’e kadar artırdığını gösteren JSONSchemaBench çalışması.
Önemli Noktalar
  • 01 LLM bilgi depolama dağıtık: tek nöron değil, koordineli aktivasyon pattern'ları
  • 02 Prompt formatı tek başına %40'a kadar performans farkı yaratabilir
  • 03 Knowledge anchor'lar LLM'in training data'sındaki spesifik bilgi kümelerini aktive eden isim bazlı referanslardır
  • 04 Structured prompting bir meta-tekniktir: diğer tüm prompting stratejilerini iyileştirir
  • 05 Open-source modeller format değişikliğine closed-source'tan çok daha hassas; tek bir few-shot example bile farkı dramatik azaltır
  • 06 İyi prompt, LLM davranışsal bozulmalarını (hallucination, sycophancy, task drift) minimize eder
Sık Sorulan Sorular (FAQ)
+ Knowledge anchor nedir?

Knowledge anchor, LLM'in training data'sındaki spesifik bilgi kümelerini aktive eden isim bazlı referanslardır. Bir teori, framework, araştırmacı veya metodoloji adı olabilir. 'Form validation yap' yerine 'Wroblewski'nin inline validation araştırmasını uygula' demek, modelin o araştırmanın spesifik bulgularını aktive etmesini sağlar.

+ XML mi JSON mu YAML mı kullanmalıyım?

Model-spesifik tercihler var: Claude XML tags için optimize, GPT-4o JSON Schema ile en iyi sonucu veriyor, YAML insan tarafından düzenlenecek prompt template'lerde avantajlı. Ortak bulgu: format ne olursa olsun, yapılandırılmış prompt düz metinden üstün.

+ Open-source modellerde prompt format neden daha önemli?

Araştırmalar open-source modellerin format değişikliğine kadar 76 accuracy point fark gösterdiğini ortaya koyuyor. Closed-source modeller (GPT-4+) RLHF tuning ile formata daha dayanıklı. Open-source'ta tek bir few-shot example bile hassasiyeti dramatik azaltıyor.

+ Kaç tane knowledge anchor kullanmalıyım?

Pratik gözlemlerime göre 3-4 anchor optimal. Daha fazlası context'e gürültü ekliyor ve modelin odağını dağıtıyor. Tek core principle + tek anti-pattern + 1-2 domain-spesifik anchor dengeli bir kombinasyon.

+ İyi prompt LLM hatalarını azaltır mı?

Evet. Araştırmalar, yapılandırılmış prompt'ların hallucination'ı (CoVe tekniği), sycophancy'yi (soru formülasyonu), instruction attenuation'ı (Forget-Me-Not re-injection) ve context rot'u (gereksiz bilgi eklememek) azalttığını gösteriyor.