TurkHukuk.ai HukukBERT arXiv'de

Bugün önemli bir eşik aştık.

HukukBERT — Türk hukuku için eğitilmiş, şimdiye kadarki en kapsamlı alan spesifik (ing. domain-specific) dil modeli — arXiv tarafından kabul edildi ve yayınlandı:

arxiv.org/abs/2604.04790

Bu yazıda, makalede zaten var olan teknik detayları tekrar etmeyeceğiz ancak metin segmentasyon (bölümleme) başarısı üzerinde durmak istiyoruz.

Bölümleme — ürüne dönüştüğü nokta

HukukBERT modeli üzerine eğitilmiş HukukSegment modelinin mahkeme kararlarının (yerel mahkeme) bölümleme sonuçları aşağıda:

Metrik	HukukBERT	BERTurk-128k	BERTurk-Legal
Document pass rate	%92.8	%84.3	%81.9
Tolerant doc pass	%96.4	%88.0	%89.2
Boundary accuracy	%99.0	%97.2	%97.6
Boundary F1	%93.0	%92.4	%91.9
Collapsed macro F1	%95.5	%93.9	%94.2

TurkHukuk.ai Platformu'nın Aşama 1 ürün özelliklerinden biri "bölümlenmiş 11M corpus" — iddia, savunma, gerekçe, hüküm, karşı oy bölümleri ayrı ayrı işaretlenmiş kararlar.

Uygulama arayüzünde kullanıcı bir karara girdiğinde "GEREKÇE" sekmesini ayrı okuyor, "İDDİA" filtresiyle içtihat arıyor, bir dilekçe yazarken sadece "muhalefet şerhi" segmentlerinde tarama yapıyor.

Bu işlevler Türkiye'de bir ilk.

Dünya bağlamında nereye düşüyor?

LegalTech'te alan spesifik LM fikri yeni değil.

LEGAL-BERT (Chalkidis ve ark., 2020) — AB mevzuatı, UK mahkeme kararları, ABD Yüksek Mahkeme kararları. 12 GB İngilizce.
LexGLUE (2022) — İngilizce hukuk için çok-görevli benchmark. Türkçe karşılığı yoktu — Legal Cloze Test bu boşluğu dolduran ilk adımlardan biri.
CaseLaw-BERT, LexLM, SaulLM — hep İngilizce.
PoL-BERT, jurBERT (Romanya), LEGAL-XLM-R — Avrupa dilleri için çeşitli girişimler var.

Neden ürünün kurucu ayaklarından biri olduğunu düşünüyoruz

HukukBERT, TurkHukuk.ai Platformu'nda üç yerde doğrudan kullanılıyor:

1. Segmentasyon. 11 milyon kararı iddia/savunma/gerekçe/hüküm/karşı oy olarak ayıran pipeline. Ürünün her yerinde — karar okuma, içtihat arama, benzer karar tespiti — bu segmentler olmadan çalışmıyor.

2. Retrieval. HukukBERT embedding'leri bir ColBERT-style late interaction mimarisine taşındığında (paper'ın 5.1 bölümünde bahsettiğimiz yol haritası), kullanıcının doğal dilde sorduğu "vize serbestisi ile ilgili Yargıtay kararları" gibi sorgular için tereke/miras tipinde semantic shift'i çözerek doğru kararları çekiyor. Sadece anahtar kelime eşleşmesi değil, hukuki denklik.

3. NER ve metadata extraction. Mahkeme adları, tarihler, kanun atıfları, taraf isimleri, para tutarları — hepsi downstream fine-tune edilmiş HukukBERT versiyonlarıyla çıkarılıyor. Avukatın dava dosyasındaki vekaletnameden, tebligat pusulasından, dilekçeden yapı çıkarmak için bu şart.

Teşekkür

Bu çalışma sadece bir paper değil; aylarca süren veri toplama, temizleme, ontoloji kurma, annotation, ve birden çok eğitim koşusunun sonucu. TurkHukuk.ai ekibine — Mehmet Utku Öztürk, Tansu Türkoğlu, Dr. Buse Buz-Yalug — ve süreçte emek veren herkese teşekkürler.

📄 Makale: arxiv.org/abs/2604.04790 🤗 benchmark: Hugging Face üzerinde açık kaynak

TurkHukuk.ai

Tüm yazılarTurkHukuk.ai