TS Corpus -TS Abstract Derlemi-

Bu derlem, Öztürk ve diğerleri (2014)*, Türkçe Etiketli Metin Derlemi çalışması için oluşturan veriseti kullanılarak hazırlanmıştır.


TS Corpus projesi, farklı Türkçe derlemler üretmek ve doğal dil işlemede kullanılabilecek araçlar ve veri setleri oluşturmak üstünde yoğunlaşan bir çalışma. Geçtiğimiz 2 yıl içinde çalışma kapsamında  7 farklı çevrimiçi derlem ve yine çevrimiçi çalışan 4 farklı araç yayınladım. Bu derlemlerin sonuncusu “TS Abstract Corpus”.

TS Abstract Corpus, akademik yazından örnekler getirmek adına, 32 farklı bilimsel disiplinden toplam 6234 özet (abstract) içeren bir Türkçe derlem. Derlemde bulunan tüm metinler üstmetin bilgilerine (metadata) göre ayrıştırılmış (kaynak veriseti ilgili meta bilgilerini içerecek şekilde hazırlanmıştır) ve hem sözcük türü hem de biçimbirimsel olarak işaretlenmiş (TS Corpus çalışması için hazırlanan betikler kullanılarak) olarak sunulmakta. Toplam 1 milyon 50 bin birimden (token) oluşan veri, projenin barındırdığı tüm diğer derlemler gibi CWB/CQPWeb altyapısını kullanarak, bu altyapının sağladığı tüm özellikleri kullanıcılara sunmakta.

Derlemi oluşturan veri, alan (domain) ve metin türü (genre) sınıflandırmasının yanısıra, sonuçların daha detaylı olarak gözlenebilmesi için ilgili “bilimsel disiplin” (discipline) olarak belirlenen bir alt sınıf ile de işaretlenmiş. Böylelikle metin dağılımındaki hiyerarşi Domain > Genre > Discipline olarak sunulmuş oldu. Örnek vermek gerekirse “eczacılık” disiplini, Physical Sciences > Medicine > Pharmacology hiyerarşisinde yer almakta. Yani kullanıcı arama kriterini sadece bilimsel bir disiplin olarak eczacılık (pharmacolgy), bir üst basamakta tıp bilimleri (medicine)  veya en geniş kapsamda fen bilimleri (physical sciences) olarak seçebilecektir. Böylelikle, sözcük sıklığı gibi temel çalışmaların detaylı biçimde yapılabilmesine, farklı disiplinlerin kolaylıkla karşılaştırılabilmesine olanak sağlanmıştır.

Derlemleri yalnızca dilbilime veri sağlayan araçlar olarak görmemek gereklidir. Doğal dil işleme, makina öğrenme (machine learning) ve benzeri konularla ile ilgili çalışanlar araştırmacılar ve akademisyenler de derlemlerden faydalanmaktadır.

Alanda, akademik yazımla ilgili derlem çalışmaları bulunsa da, bu çalışmalara konu olan verisetleri (ve derlemler) kullanıcılarla paylaşılmamış veya kullanıma açılmamıştır. Bu anlamda TS Abstract Corpus’un konuya ilgi duyan araştırmacılara kaynak sağlayacağını umuyorum. Aynı zamanda derlemin sözcük türü (PosTag) ve biçimbirimsel (Morphological Analysis) olarak etiketlenmiş olması ve sözcük kökü (Lemma) bazında aramalar yapmaya izin vermesi, umuyorum ki derlemi verimli bir kaynak olarak kullanmayı sağlayacaktır.

Bu çalışmanın (kendi adıma) temel amaçlarından biri de “otomatik metin türü ayrıştırma”  çalışmalarında kullanmak üzere veri setleri elde etmektir.  Derlemdeki metin türü ayrıştırmasını da bu amaca uygun olacak şekilde yapmaya çalıştım.

Derlemdeki metin dağılımı aşağıdaki tabloda verilmiştir.

Social
Sciences
  Physical Sciences  
Humanities&ArtsSocial SciencesPolitics&Law&EducationMedicineNatural SciencesTechnology&Engineering
AnthropologyStock And MarketingPolitical SciencesBasic Medical SciencesGeologyEnvironmental Engineering
ArcheologyEconomyEducational SciencesInternal MedicineBiologyIndustrial Engineering
LinguisticsGeogrohpyLawExternal DiseasesAnimal BreedingFood Engineering
ReligionEconometricsPharmacologyCivil Engineering
PhilosophyTourismBiomedicalMechanical Engineering
CommunicationArchitecture
Information Management
Sociology
History

Derlemde yapılan tüm aramaları yukarıda anılan meta bilgilerine göre ayrıştırarak sonuçları hem liste halinde hem de grafik olarak görmek ve sonuçları daha sonra kullanmak üzere indirebilmek mümkündür. bağlam* sözcüğünün sorgusu sonrası elde edilen dağılım grafiği aşağıdaki resimde görüldüğü gibi olacaktır.

Türkçe Derlem - Türkçe Akademik Yazın Özet Derlemi

TS Abstract Corpus – Distribution Graphic

Derleme erişmek için TS Corpus websitesindeki kayıt formunu doldurarak bir kullanıcı oluşturmak yeterlidir.

Ve elbette bu çalışma, proje altındaki tüm diğer çalışmalar gibi, tamamıyla özgür yazılımlar kullanılarak hazırlandı.

 Kaynakça

* Ozturk, S., Sankur, B., Gungor, T., Yilmaz, M. B., Koroglu, B., Agin, O., … & Ahat, M. (2014, April). Turkish labeled text corpus. In Signal Processing and Communications Applications Conference (SIU), 2014 22nd (pp. 1395-1398). IEEE.