Türkçe Paralel Derlem

Bu derlem internet üzerindeki çeşitli kaynalardan, elle yapılan çevirilerden ve ağırlıklı olarak bu adresteki veriden yararlanılarak oluşturulmuştur. Derlemi kullanarak yaptığınız çalışmalar için şu iki yayını [1] [2] lütfen kaynak olarak gösterin.


TS Corpus projesi altında ilk derlemi yayınladığım 2011’den bu yana yapmanın hayalini kurduğum çalışmalardan biri de bir “paralel derlem” hazırlamaktı. Nihayet, 19 Şubat 2018’de, yani ilk derlemin yayınından 7 yıl sonra Türkçe-İngilizce bir paralel derlem TS Corpus projesi altında kullanıma açıldı.
Türkçe-İngilizce ve İngilizce-Türkçe olarak iki yönde sorgu yapmaya izin veren derlem (aslında iki ayrı derlem) yaklaşık 100 bin satır ve toplamda yalaşık 1.5 milyon sözcükten oluşmakta.

Derlemi, sözcük türü olarak işaretlenmiş olarak kullanıma açtık. İngilizce işaretleme için TreeTagger ve Türkçe işaretleme için şu işaretleyiciden faydalandık. Ayrıca derlemde lemma bazında da sorgu yapılabilmekte.

Ana sorgu ekranında, “Display Alignment” seçeneği altında hizalanmış hedef derlemi seçerek yapılan sorgularda sonuçlar ikinci dili de içerecek şekilde alınabilir. Bu seçenek işaretlenmeden yapılan sorgulardaysa, sonuç ekranının üstünde bulunan “Select aligned data to display…” ile hizalanmış derlemdeki sonuçlar gösterime çağırılabilir.
Sonuçlar aşağıdaki ekran görüntülerinde olduğu şekilde sunulmaktadır.
TS Corpus Parallel CorpusTS Corpus Parallel CorpusTS Corpus altında sunulan derlemlere erişmek için bu adreste bulunan kayıt formunu kullanabilirsiniz.


[1] Jörg Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

[2] Sezer, B., Sezer, T. 2013. TS Corpus: Herkes İçin Türkçe Derlem. Proceedings 27th National Linguistics Conference. May, 3-4 Mayıs 2013. Antalya, Kemer: Hacettepe University, English Linguistics Department. pp: 217-225