21 GB hukuki corpus kullanılarak eğitilmiş Türkiye'nin en kapsamlı hukuki dil modeli.
Detaylı Model Dokümantasyonu | Github Reposu
Doğal dil işleme (NLP) alanındaki gelişmeler, hukuk teknolojisi (LegalTech) uygulamalarına önemli kapılar açmıştır. Ancak Türk hukuku özelinde mevcut çalışmalar ciddi veri kısıtlarıyla sınırlı kalmıştır.
Buna karşılık, yurtdışında hukuk alanına özgü daha geniş kapsamlı çalışmalar yapılmıştır. Örneğin İngilizce hukuk metinleri üzerinde geliştirilen LEGAL-BERT (Chalkidis ve ark., 2020) yaklaşık 12 GB büyüklüğünde bir veri seti kullanılarak eğitilmiştir. Bu durum, Türk hukuku için daha kapsamlı ve yüksek hacimli veri setlerine dayalı modellere duyulan ihtiyacı açıkça ortaya koymaktadır.
HukukBERT, bu sınırlamaları aşmak amacıyla içtihat, mevzuat ve literatür verilerini içeren 21 GB boyutunda temizlenmiş bir Türk hukuk corpusu üzerinde eğitilmiştir. Bu ölçek, terminolojik kapsama ve çeşitlilik açısından önceki çalışmalara kıyasla belirgin bir sıçramaya karşılık gelmektedir.
|
Metrik |
Değer |
|---|---|
|
Temizlenmiş Corpus |
21 GB |
|
Belge (Ham) |
~9M |
|
WordPiece Vocab |
48K |
|
H200 SXM Eğitim |
19 saat |
Sonuçlar
Eğitilen model, hukuki kavram tahmininde (Hukuki Cloze Testi) genel amaçlı Türkçe BERT modellerine ve diğer alan-spesifik modellere karşı kayda değer bir üstünlük sergilemektedir:
Hukuki Cloze Testi — Model Karşılaştırması (N=750)
|
Model |
Top-1 |
Top-3 |
|---|---|---|
|
turkhukuk.ai / HukukBERT |
84.40% |
98,80% |
|
78.80% |
97.73% |
|
|
75.47% |
96.00% |
|
|
71.87% |
95.20% |
|
|
68.13% |
95.33% |
|
|
63.73% |
93.47% |
|
|
61.60% |
91.20% |
HukukBERT, sıralamada kendisine en yakın model olan BERTurk-Legal'e kıyasla Top-1 doğruluğunda +8.93 puan, standart BERTurk modeline kıyasla ise +12.53 puan mutlak iyileşme sağlamıştır.
Örnekler
Sayıların ötesinde, aşağıdaki örnekler HukukBERT'in hukuki terminolojiye olan hakimiyetini somut olarak ortaya koymaktadır:
Mükerrirlere özgü infaz rejiminin ve cezanın infazından sonra denetimli serbestlik tedbirinin, [MASK], suçu meslek edinen kişi veya örgüt mensubu suçlu hakkında da uygulanmasına hükmedilir.
|
FAIL |
turkish-large-bert |
taksirli suçlu (0.30) · tesadüfi suçlu=0.25 · asi suçlu=0.23 · itiyadi suçlu=0.22 |
|
FAIL |
Mürsit-Large |
taksirli suçlu (0.80) |
|
FAIL |
BERTurk-Legal |
taksirli suçlu (0.82) |
|
FAIL |
TabiBERT |
asi suçlu (0.41) · taksirli suçlu=0.36 · tesadüfi suçlu=0.20 |
|
FAIL |
BERTurk-cased |
asi suçlu (0.46) · taksirli suçlu=0.24 |
|
FAIL |
BERTurk-128k |
taksirli suçlu (0.69) |
|
WIN |
HukukBERT |
itiyadi suçlu (0.96) · Vocab: örgüt=0.672, terör=0.056, mükerrir=0.052 |
Mirasbırakanın vefatı ile birlikte, mirasçılara kanun gereği bir bütün olarak geçen malvarlığına [MASK] denir.
|
FAIL |
turkish-large-bert |
miras (0.98) |
|
WIN |
Mürsit-Large |
tereke (0.94) |
|
FAIL |
BERTurk-Legal |
miras (0.59) · tereke=0.30 |
|
FAIL |
TabiBERT |
miras (0.95) |
|
FAIL |
BERTurk-cased |
miras (0.98) |
|
FAIL |
BERTurk-128k |
miras (0.92) |
|
WIN |
HukukBERT |
tereke (0.96) · Vocab: tereke=0.924, miras=0.037 |
İcra mahkemesinin para cezasına ilişkin olmayan nihai kararlarına karşı kural olarak [MASK] kanun yoluna başvurulabilir.
|
FAIL |
turkish-large-bert |
itiraz (0.85) |
|
WIN |
Mürsit-Large |
istinaf (0.84) |
|
FAIL |
BERTurk-Legal |
itiraz (0.85) |
|
FAIL |
TabiBERT |
itiraz (0.87) |
|
FAIL |
BERTurk-cased |
itiraz (0.45) · istinaf=0.30 · karar düzeltme=0.19 |
|
WIN |
BERTurk-128k |
istinaf (0.67) |
|
WIN |
HukukBERT |
istinaf (0.82) · Vocab: temyiz=0.622, istinaf=0.313, itiraz=0.056 |
Sözleşmenin taraflarından birinin, sözleşmede öngörülen edimini ifa etmemesi durumunda, diğer tarafın sahip olduğu hakları kullanabilmesi için borçluya uygun bir [MASK] vermesi veya verdirmesi kural olarak zorunludur.
|
FAIL |
turkish-large-bert |
ceza (0.48) · tazminat=0.38 |
|
WIN |
Mürsit-Large |
mehil (0.96) |
|
WIN |
BERTurk-Legal |
mehil (0.97) |
|
FAIL |
TabiBERT |
tazminat (0.83) |
|
FAIL |
BERTurk-cased |
ihtarname (0.58) |
|
FAIL |
BERTurk-128k |
ceza (0.52) · tazminat=0.29 |
|
WIN |
HukukBERT |
mehil (1.00) · Vocab: mehil=0.807, süre=0.114, önel=0.049 |
Davanın dinlenebilmesi için kanunlarda öngörülen ön şartın yerine getirilmemiş olması ve [MASK] nedeniyle davanın reddine karar verilmesinde, maktu ücrete hükmolunur.
|
FAIL |
turkish-large-bert |
kesin delil (0.60) |
|
WIN |
Mürsit-Large |
husumet (0.88) |
|
WIN |
BERTurk-Legal |
husumet (0.99) |
|
FAIL |
TabiBERT |
zamanaşımı (0.96) |
|
FAIL |
BERTurk-cased |
zamanaşımı (0.38) · kesin delil=0.36 · hak düşürücü süre=0.16 |
|
FAIL |
BERTurk-128k |
zamanaşımı (0.89) |
|
WIN |
HukukBERT |
husumet (0.93) · Vocab: husumet=0.663, yokluğu=0.088, zamanaşımı=0.047 |
Haksız fiillerde maddi veya manevi tazminat istemi, zarar görenin zararı ve tazminat yükümlüsünü öğrendiği tarihten başlayarak [MASK] yılın ve her halde fiilin işlendiği tarihten başlayarak on yılın geçmesiyle zamanaşımına uğrar.
|
FAIL |
turkish-large-bert |
bir (0.38) · beş=0.33 · iki=0.21 |
|
WIN |
Mürsit-Large |
iki (0.79) |
|
FAIL |
BERTurk-Legal |
bir (0.82) |
|
WIN |
TabiBERT |
iki (0.75) |
|
FAIL |
BERTurk-cased |
bir (0.54) · iki=0.25 |
|
WIN |
BERTurk-128k |
iki (0.68) |
|
WIN |
HukukBERT |
iki (0.82) · Vocab: iki=0.803, bir=0.130, beş=0.044 |
Bölge Adliye Mahkemesi kararı tebliğ edildikten sonra yasal [MASK] olan iki haftalık süre geçtikten sonra davalı vekili tarafından temyiz dilekçesi sunulmuştur. 6100 sayılı Hukuk Muhakemeleri Kanunu hükümleri gereğince, süresinden sonra yapılan bu başvurunun usulden reddine karar verilmesi gerekmiştir.
|
WIN |
turkish-large-bert |
başvuru süresi (0.98) |
|
WIN |
Mürsit-Large |
başvuru süresi (0.58) |
|
WIN |
BERTurk-Legal |
başvuru süresi (0.65) |
|
FAIL |
TabiBERT |
zamanaşımı süresi (0.69) |
|
WIN |
BERTurk-cased |
başvuru süresi (0.94) |
|
WIN |
BERTurk-128k |
başvuru süresi (0.65) |
|
WIN |
HukukBERT |
başvuru süresi (0.85) · Vocab: temyiz=0.691, başvuru=0.138, süre=0.037 |
Kişisel verilerin hukuka uygun işlenmesi için ilgili kişinin aydınlatılması, [MASK] yükümlülüğünün bir sonucudur.
|
WIN |
turkish-large-bert |
şeffaflık (0.93) |
|
WIN |
Mürsit-Large |
şeffaflık (0.62) · sözleşmesel=0.37 |
|
WIN |
BERTurk-Legal |
şeffaflık (0.74) |
|
WIN |
TabiBERT |
şeffaflık (0.96) |
|
WIN |
BERTurk-cased |
şeffaflık (0.99) |
|
WIN |
BERTurk-128k |
şeffaflık (0.46) · cezai=0.35 · sözleşmesel=0.18 |
|
WIN |
HukukBERT |
şeffaflık (1.00) · Vocab: aydınlatma=0.962 |
Takip borcun tamamen ödenmesiyle sona ermişse, icra mahkemesine yapılan şikayet hakkında [MASK] karar verilir.
|
FAIL |
turkish-large-bert |
reddi (0.62) · karar verilmesine yer olmadığı=0.32 |
|
FAIL |
Mürsit-Large |
reddi (0.47) · karar verilmesine yer olmadığı=0.39 |
|
FAIL |
BERTurk-Legal |
karar verilmesine yer olmadığı (0.41) · görevsizlik=0.41 · kabulü=0.18 |
|
FAIL |
TabiBERT |
kabulü (0.64) |
|
FAIL |
BERTurk-cased |
reddi (0.91) |
|
FAIL |
BERTurk-128k |
görevsizlik (0.92) |
|
WIN |
HukukBERT |
karar verilmesine yer olmadığı (1.00) · Vocab: bir=0.293, da=0.264, mahkemece=0.119 |
Sözleşmenin kurulması için karşı tarafa yöneltilen irade açıklamasına [MASK] denir.
|
FAIL |
turkish-large-bert |
aldatma (0.73) |
|
WIN |
Mürsit-Large |
icab (0.81) |
|
FAIL |
BERTurk-Legal |
müteselsil borçluluk (0.61) |
|
WIN |
TabiBERT |
icab (0.52) · aldatma=0.44 |
|
FAIL |
BERTurk-cased |
aldatma (0.85) |
|
WIN |
BERTurk-128k |
icab (0.60) · aldatma=0.36 |
|
WIN |
HukukBERT |
icab (0.99) · Vocab: icap=0.657, irade=0.176 |
|
FAIL |
turkish-large-bert |
miras (0.98) |
|
WIN |
Mürsit-Large |
tereke (0.94) |
|
FAIL |
BERTurk-Legal |
miras (0.59) · tereke=0.30 |
|
FAIL |
TabiBERT |
miras (0.95) |
|
FAIL |
BERTurk-cased |
miras (0.98) |
|
FAIL |
BERTurk-128k |
miras (0.92) |
|
WIN |
HukukBERT |
tereke (0.96) · Vocab: tereke=0.924, miras=0.037 |
Aynı amaçla düzenlenen sözleşmelerin metinlerinin özdeş olmaması, bu sözleşmelerde yer alan hükümlerin [MASK] sayılmasına engel teşkil etmez.
|
FAIL |
turkish-large-bert |
sözleşme öncesi bildirimler (0.43) · genel işlem koşulu=0.31 · teamül hükümleri=0.16 |
|
WIN |
Mürsit-Large |
genel işlem koşulu (0.53) · teamül hükümleri=0.30 |
|
FAIL |
BERTurk-Legal |
sözleşme öncesi bildirimler (0.61) |
|
WIN |
TabiBERT |
genel işlem koşulu (0.60) |
|
WIN |
BERTurk-cased |
genel işlem koşulu (0.37) · sözleşme öncesi bildirimler=0.36 · tamamlayıcı yorum kuralları=0.19 |
|
WIN |
BERTurk-128k |
genel işlem koşulu (0.41) · tamamlayıcı yorum kuralları=0.27 · teamül hükümleri=0.20 |
|
WIN |
HukukBERT |
genel işlem koşulu (0.98) · Vocab: aynı=0.136, tek=0.118, de=0.095 |
TurkHukuk.ai ekibi olarak, Türkiye'de bu ölçekte ilk kez gerçekleştirilen bu çalışmayla 21 GB temizlenmiş hukuki corpus kullanılarak HukukBERT modeli eğitilmiştir. Model, hem genel amaçlı Türkçe BERT modellerine hem de mevcut alan-spesifik modellere kıyasla hukuki kavram tahmininde kayda değer bir üstünlük sergilemiştir.
HukukBERT, sonraki aşamalarda hukuki NER (Named Entity Recognition), metin segmentasyonu ve semantik arama gibi downstream görevlerde temel model olarak kullanılmaktadır. oluşturmaktır.