Beta Space StudioBeta Space Studio logo
📊 BenchmarklarNEW

TRLawBench

Türk hukuku LLM benchmarkı: Büyük dil modellerinin Türkçe hukuki bilgi ve muhakeme yetkinliğini 3 aşamada ölçer. ÖSYM soruları, ileri düzey muhakeme ve açık uçlu analizle toplam 297 soru üzerinde kapsamlı değerlendirme.

Geliştirici: Beta Space Studio

Genel Bakış

TRLawBench, büyük dil modellerinin (GPT, Claude, Gemini, Gemma, Qwen, Grok, DeepSeek, Mistral, Llama ve diğerleri) Türk hukuku üzerindeki yetkinliğini ölçmek için tasarlanmış üç aşamalı açık bir benchmark projesidir. Avukat Esat Erbil Tavus ile ortak hazırlanan Aşama 2 ve Aşama 3 soruları, basılı kaynaklardan derlenip internete hiç düşmediği için modellerin eğitim verilerine sızma riski bulunmamaktadır.

Neden TRLawBench?

  • Türkçe hukuki muhakeme odağı: Genel dil becerisi değil, Türk Borçlar Kanunu, TCK, Anayasa gibi ulusal mevzuat üzerinden değerlendirme.
  • Kirlilikten arınmış test seti: 200 soru basılı kaynaklardan geliyor; model eğitim verisinde olma olasılığı yok.
  • Şeffaf metodoloji: Doğru cevap tespiti deterministik; LLM yargıç yalnızca muhakeme kalitesini puanlıyor ve hangi modelin cevap verdiğini bilmiyor.

Değerlendirme Metodolojisi

  • Aşama 1: Temel Hukuki Bilgi. ÖSYM hukuk sınavlarından 97 çoktan seçmeli soru. Doğru cevap ÖSYM anahtarı baz alınarak belirlenir.
  • Aşama 2: Türk Hukuku İleri Muhakeme. 14 kategoride 100 ileri düzey çoktan seçmeli soru. Basılı kaynak, internet dışı.
  • Aşama 3: Açık Uçlu Sorular. 100 açık uçlu soru, 14 hukuk dalı. Deterministik doğru-cevap kontrolü + Gemini 3.1 Pro kör yargıç puanlaması (0 ile 10 arasında).

Her aşama için sıralama, doğruluk oranı ve örnek soru-cevaplar yukarıdaki interaktif panelde yer almaktadır.

Aşama 0123 model

ÖSYM Hukuki Sorular

ÖSYM tarafından düzenlenen hukuk yeterlilik sınavlarından derlenen 97 soruluk bu değerlendirme seti, modellerin temel Türk hukuku bilgisini ve soru çözme becerisini ölçer.

Değerlendirme Nisan 2025'te yapıldı. Gemma 4 31B IT (reasoning açık/kapalı) sonuçları Nisan 2026'da eklendi.

Skor Karşılaştırması

o3
OpenAI
94.85%
Gemini 2.5 Pro (preview 03-25)
Google
89.69%
Claude 3.7 Sonnet (thinking)
Anthropic
82.47%
Gemini 2.5 Flash
Google
82.47%
o1
OpenAI
80.41%
Claude 3.7 Sonnet
Anthropic
72.16%
Gemma 4 31B IT (thinking)
Google
71.13%
Claude 3.5 Sonnet
Anthropic
71.13%
GPT-4o
OpenAI
67.01%
Gemini 2.0 Flash
Google
64.95%
Grok 3 Beta
xAI
61.86%
GPT-4.5
OpenAI
61.86%
Gemma 4 31B IT
Google
60.82%
DeepSeek R1
DeepSeek
58.76%
GPT-4.1
OpenAI
58.76%
Llama 4 Maverick
Meta
57.73%
DeepSeek V3
DeepSeek
54.64%
GPT-4.1 Mini
OpenAI
49.48%
Qwen Max
Alibaba
49.48%
o4-mini
OpenAI
48.45%
GPT-4o Mini
OpenAI
45.36%
Gemma 3 27B IT
Google
43.30%
Mistral Large 2411
Mistral
38.14%

Örnek Soru

Tüm 97 soru

  • ASözleşmenin niteliğine ve işin özelliğine yabancı olan genel işlem koşulları yazılmamış sayılır.
  • BSözleşmenin yazılmamış sayılan genel işlem koşulları dışındaki hükümleri geçerliliğini korur.
  • CGenel işlem koşullarına, dürüstlük kurallarına aykırı olarak karşı tarafın aleyhine veya onun durumunu ağırlaştırıcı nitelikte hükümler konulamaz.
  • DAynı amaçla düzenlenen sözleşmelerin metinlerinin özdeş olmaması, bu sözleşmelerin içerdiği hükümlerin genel işlem koşulu sayılmasını engellemez.
  • EGenel işlem koşullarında yer alan bir hüküm, açık ve anlaşılır değilse veya birden çok anlama geliyorsa düzenleyenin aleyhine ve karşı tarafın lehine yorumlanır.
Beklenen Cevap
C — TBK'nın "içerik denetimi" başlığı altında düzenlenen hüküm; genel işlem koşullarının dürüstlük kuralına aykırı biçimde karşı tarafın aleyhine ya da durumunu ağırlaştıran hükümler içeremeyeceğidir.
Model Cevabı
Gemma 4 31B IT (thinking)
Google
Doğru
* Rol: Türkiye Cumhuriyeti hukukuna göre Türk hukuk sorularını yanıtlayan asistan. * Kısıt: Yalnızca doğru seçeneğin harfini (A, B, C, D veya E) yaz. Başka metin olmasın. * Soru: Genel işlem koşullarına (Genel İşlem Koşulları) ilişkin aşağıdaki hükümlerden hangisi 6098 sayılı Türk Borçlar Kanunu'nun (TBK) "içerik denetimi" başlığı altında düzenlenmiştir? * TBK (Türk Borçlar Kanunu) Genel İşlem Koşullarını 20-25. maddeler arasında düzenler. * *Madde 20:* Tanım. * *Madde 21:* Kurulma/yürürlük denetimi (kurulma denetimi). * *Madde 22:* İçerik denetimi (içerik denetimi). * *Madde 23:* Yorumlanma. * *Madde 24:* Hükümsüzlüğün etkileri. * *Madde 25:* Zamanaşımı. * **A seçeneği:** "Sözleşmenin niteliğine ve işin özelliğine yabancı olan genel işlem koşulları yazılmamış sayılır." * Bu, Madde 21 (Kurulma/Yürürlük Denetimi) kapsamındadır. * **B seçeneği:** "Sözleşmenin yazılmamış sayılan genel işlem koşulları dışındaki hükümleri geçerliliğini korur." * Bu, Madde 21 (Kurulma/Yürürlük Denetimi) kapsamındadır. * **C seçeneği:** "Genel işlem koşullarına, dürüstlük kurallarına aykırı olarak karşı tarafın aleyhine veya onun durumunu ağırlaştırıcı nitelikte hükümler konulamaz." * Bu, **Madde 22 (İçerik Denetimi)**'nin özüdür. * **D seçeneği:** "Aynı amaçla düzenlenen sözleşmelerin metinlerinin özdeş olmaması, bu sözleşmelerin içerdiği hükümlerin genel işlem koşulu sayılmasını engellemez." * Bu, Madde 20 (Tanım) kapsamındadır. * **E seçeneği:** "Genel işlem koşullarında yer alan bir hüküm, açık ve anlaşılır değilse veya birden çok anlama geliyorsa düzenleyenin aleyhine ve karşı tarafın lehine yorumlanır." * Bu, Madde 23 (Yorumlanma) kapsamındadır. * İçerik denetimi (İçerik denetimi), TBK Madde 22'ye karşılık gelir. * C seçeneği, Madde 22 ile örtüşmektedir. * Doğru cevap C'dir.
TRLawBench - Resources | Beta Space Studio | Beta Space Studio