TS Corpus -TS Abstract Derlemi-

Bu derlem, Öztürk ve diğerleri (2014)*, Türkçe Etiketli Metin Derlemi çalışması için oluşturan veriseti kullanılarak hazırlanmıştır.


TS Corpus projesi, farklı Türkçe derlemler üretmek ve doğal dil işlemede kullanılabilecek araçlar ve veri setleri oluşturmak üstünde yoğunlaşan bir çalışma. Geçtiğimiz 2 yıl içinde çalışma kapsamında  7 farklı çevrimiçi derlem ve yine çevrimiçi çalışan 4 farklı araç yayınladım. Bu derlemlerin sonuncusu “TS Abstract Corpus”.

TS Abstract Corpus, akademik yazından örnekler getirmek adına, 32 farklı bilimsel disiplinden toplam 6234 özet (abstract) içeren bir Türkçe derlem. Derlemde bulunan tüm metinler üstmetin bilgilerine (metadata) göre ayrıştırılmış (kaynak veriseti ilgili meta bilgilerini içerecek şekilde hazırlanmıştır) ve hem sözcük türü hem de biçimbirimsel olarak işaretlenmiş (TS Corpus çalışması için hazırlanan betikler kullanılarak) olarak sunulmakta. Toplam 1 milyon 50 bin birimden (token) oluşan veri, projenin barındırdığı tüm diğer derlemler gibi CWB/CQPWeb altyapısını kullanarak, bu altyapının sağladığı tüm özellikleri kullanıcılara sunmakta.

Derlemi oluşturan veri, alan (domain) ve metin türü (genre) sınıflandırmasının yanısıra, sonuçların daha detaylı olarak gözlenebilmesi için ilgili “bilimsel disiplin” (discipline) olarak belirlenen bir alt sınıf ile de işaretlenmiş. Böylelikle metin dağılımındaki hiyerarşi Domain > Genre > Discipline olarak sunulmuş oldu. Örnek vermek gerekirse “eczacılık” disiplini, Physical Sciences > Medicine > Pharmacology hiyerarşisinde yer almakta. Yani kullanıcı arama kriterini sadece bilimsel bir disiplin olarak eczacılık (pharmacolgy), bir üst basamakta tıp bilimleri (medicine)  veya en geniş kapsamda fen bilimleri (physical sciences) olarak seçebilecektir. Böylelikle, sözcük sıklığı gibi temel çalışmaların detaylı biçimde yapılabilmesine, farklı disiplinlerin kolaylıkla karşılaştırılabilmesine olanak sağlanmıştır.

Derlemleri yalnızca dilbilime veri sağlayan araçlar olarak görmemek gereklidir. Doğal dil işleme, makina öğrenme (machine learning) ve benzeri konularla ile ilgili çalışanlar araştırmacılar ve akademisyenler de derlemlerden faydalanmaktadır.

Alanda, akademik yazımla ilgili derlem çalışmaları bulunsa da, bu çalışmalara konu olan verisetleri (ve derlemler) kullanıcılarla paylaşılmamış veya kullanıma açılmamıştır. Bu anlamda TS Abstract Corpus’un konuya ilgi duyan araştırmacılara kaynak sağlayacağını umuyorum. Aynı zamanda derlemin sözcük türü (PosTag) ve biçimbirimsel (Morphological Analysis) olarak etiketlenmiş olması ve sözcük kökü (Lemma) bazında aramalar yapmaya izin vermesi, umuyorum ki derlemi verimli bir kaynak olarak kullanmayı sağlayacaktır.

Bu çalışmanın (kendi adıma) temel amaçlarından biri de “otomatik metin türü ayrıştırma”  çalışmalarında kullanmak üzere veri setleri elde etmektir.  Derlemdeki metin türü ayrıştırmasını da bu amaca uygun olacak şekilde yapmaya çalıştım.

Derlemdeki metin dağılımı aşağıdaki tabloda verilmiştir.

Social
Sciences
  Physical Sciences  
Humanities&ArtsSocial SciencesPolitics&Law&EducationMedicineNatural SciencesTechnology&Engineering
AnthropologyStock And MarketingPolitical SciencesBasic Medical SciencesGeologyEnvironmental Engineering
ArcheologyEconomyEducational SciencesInternal MedicineBiologyIndustrial Engineering
LinguisticsGeogrohpyLawExternal DiseasesAnimal BreedingFood Engineering
ReligionEconometricsPharmacologyCivil Engineering
PhilosophyTourismBiomedicalMechanical Engineering
CommunicationArchitecture
Information Management
Sociology
History

Derlemde yapılan tüm aramaları yukarıda anılan meta bilgilerine göre ayrıştırarak sonuçları hem liste halinde hem de grafik olarak görmek ve sonuçları daha sonra kullanmak üzere indirebilmek mümkündür. bağlam* sözcüğünün sorgusu sonrası elde edilen dağılım grafiği aşağıdaki resimde görüldüğü gibi olacaktır.

Türkçe Derlem - Türkçe Akademik Yazın Özet Derlemi

TS Abstract Corpus – Distribution Graphic

Derleme erişmek için TS Corpus websitesindeki kayıt formunu doldurarak bir kullanıcı oluşturmak yeterlidir.

Ve elbette bu çalışma, proje altındaki tüm diğer çalışmalar gibi, tamamıyla özgür yazılımlar kullanılarak hazırlandı.

 Kaynakça

* Ozturk, S., Sankur, B., Gungor, T., Yilmaz, M. B., Koroglu, B., Agin, O., … & Ahat, M. (2014, April). Turkish labeled text corpus. In Signal Processing and Communications Applications Conference (SIU), 2014 22nd (pp. 1395-1398). IEEE.

TS Corpus -İstatistiki Veriler-

TS Corpus’u 1 Mart 2012 tarihinde kullanıcıların erişimine açmıştım, yani yaklaşık 2 yıl önce.
Çalışmayı en başından itibaren aktif, üretken ve sürekli gelişen bir altyapı ile, işaretlenmiş Türkçe derlemler ve bu konuda kullanılacak araçlar oluşturacak bir yapı olarak tasarlamıştım. Aradan geçen 2 yıl içinde de bu fikre uygun olarak çalışmayı sürdürdüm.
İki yıl sonra 3 ayrı derlem (toplam 550 milyon birim), online olarak çalışan Türkçe Tokenizer ve Türkçe PosTagger, iki ayrı crawler ve buna bağlı olarak çalışan bir arama arayüzüyle birlikte TS Corpus projesi büyümeye devam ediyor.
Bazen altyapıdaki sınırlılıklar yüzünden, bazen bilgi eksikliğim yüzünden, bazen de daha önce yapılmış yol gösterici bir çalışma bulamadığım için elbette eksikler, yanlışlar ve hatalar oldu. Ama sonuçta öğrenme aktif bir süreç ve attığım her küçük adım ileri gitmenin bir parçasını oluşturuyor.
Çalışmanın internete açılan temel yüzü olan tscorpus.com adresi ve bu adrese bağlı subdomainlerden gelen istatistiki verilere bakmak daha fazlasını yapmak için motive edici oluyor. Buyrun, iki yılın Google Analytics verilerini beraber inceleyelim:

Toplam Ziyaretçi

tscorpus.com adresini ve bağlı subdomain adreslerini 2 yıl içinde toplam 5004 kullanıcı ziyaret etmiş. Bu kullanıcıların 2346‘sı unique (ayrı) kullanıcılar. Kullanıcılara toplamda 15.815 sayfa gösterilmiş. (Bu sayıya derlemlerde yapılan aramalar sonucunda gösterilen sayfalar dahil değil.) Kullanıcıların %54‘ü yurtiçi, %46‘sı ise yurtdışından gelmişler.
Sitenin en fazla ziyaret edildiği günler 13 Kasım 2013 (69 ziyaretçi), 25 Nisan 2013 (64 ziyaretçi) ve 30 Ağustos 2013 (55 ziyaretçi) olarak görülmekte.

TS Corpus Overall Visitors

TS Corpus Overall Visitors

Coğrafi Bilgiler

Coğrafi olarak baktığımızda 80 ayrı ülke, 442 farklı şehirden ziyaretçinin siteye geldiğini görüyoruz. Doğal olarak en çok kullanıcının geldiği Türkiye’yi sırasıyla ABD, Japonya, İngiltere, Almanya, Hollanda, İrlanda, Çin, Rusya, Kanada ve Fransa izlemekte. Bu ülkeler ziyaretçi trafiğinin %22′sini oluşturuyorlar. Bir başka deyişle her beş ziyaretçiden biri bu ülkelerden gelmiş. Türkiye ziyaretçi trafiğinin %54‘ünü oluştururken, geri kalan 69 ülkeden gelen ziyaretçiler %24‘lik bir paya sahip.

TS Turkish Corpus

TS Turkish Corpus Visitors  – Countries Overview

Teknoloji Profili

Ziyaretçilerin kullandığı teknolojik altyapı dağılımına bakıldığında, 12 farklı işletim sistemi, 51 ayrı sistem yereli (sistem dili) ve  17 farklı internet tarayıcısı kullandıkları görülmekte. Hatta bir kullanıcı PlayStation’daki internet tarayıcısını kullanarak giriş yapmış 🙂

Ayrıca 39 farklı mobil cihazdan (tablet bilgisayar, smart phone vs.) toplam 188 ziyaretçi siteye gelmiş. (Bu, derlem arayüzünü CQPWeb’in klasik görünümünden alıp şu an beta haldeki responsive bir yapıya taşımanın gerekliliği açıkça ortaya koymakta.)

TS Corpus Visitors - Browsers

TS Corpus Visitors – Browsers

Referrals

Google Analytics’e göre 6 farklı sosyal paylaşım platformunda (Facebook, Twitter, Google+, FriendFeed, Academia ve LinkedIn) TS Corpus’a aktif link verilmiş. Daha geniş kapsamdaysa 73 ayrı websitesinde aktif link verilerek çalışmaya bağlantı sağlanmış. (Bu bağlantıların çok büyük bir kısmı Michigan Üniversitesi, Washington Üniversitesi, CWB resmi sitesi, Linguist List vb. dış kaynaklar.)

Aramalar

TS Corpus’un (şu an için) barındırdığı 3 ayrı derlemde toplam 689 kayıtlı kullanıcısı var. Kullanıcılar toplam 8723 arama yapmış.  (Günlük ortalama 12 arama)

Bu aramaların 6142‘si büyük-küçük harf duyarsız (ignore-case), 987‘si büyük-küçük harf duyarlı (case-sensitive) ve 1594‘ü CQP syntax ile yapılmış.

Teknik Altyapı

TS Corpus OVH veri merkezine (Fransa) taşındığından beri %99.7 uptime zamanıyla hizmet vermiş. %0.3 sunucunun ilk kurulumu sırasında yaşanmış. Sunucunun son üç aylık uptime oranı ve anlık durumu (Check  TS Server Status) adresinden görülebilir. TS Corpus sunucusu bugün itibarıyla 362 gündür kesintisiz çalışmakta. (15 Şubat 2013-12 Şubat 2014)

Sonuçlar

2 yıllık çalışmanın rakamsal sonuçları bunlar işte. Bundan bir yıl sonra, yani 3. yılın sonunda daha detaylı ve verimli çalışmalar ile şu an planlama aşamasında olan işlerin hayata geçirilmesi sonucunda bu rakamların katlanarak artacağına inanıyorum.

TS Corpus Aktif Çalışmalar

TS Corpus v2 +491M Tokens, PosTagged, Morphologically Tagged
TS Wikipedia +43M Tokens, PosTagged, Morphologically Tagged
TS TweetS +13M Tokens, PosTagged by a new tagset, Morphologically Tagged
TS Search Engine Over 1.2 million web pages indexed
TS Tokenizer Turkish Tokenizer capable of catching smileys, misspelling, etc.
PosTagger Turkish PosTagger

PS: Derlemlere erişmek için kullanıcı adı ve parola gerekmektedir. Eğer kullanıcı adı ve parolanız yoksa buraya tıklayarak yeni bir kullanıcı oluşturabilirsiniz.

Teşekkürler Türker Sezer ve Bengü Sezer 🙂

Sözcük Türü İşaretleme Üstüne Tespitler

Sözcük türü işaretleme (PosTagging), en basit haliyle, bir metni oluşturan her bir birime  görevini belirten bir etiket iliştirmektir.
Türkçe için de sözcük türü işaretleyiciler vardır. Basit bir Google araması yaparak bu yazılımlara ulaşmak ve kullanmak mümkündür.

Örnek vermek gerekirse, bir PosTagger ile “Ali eve geldi.” cümlesini işaretlediğimizde, Ali ve eve sözcüklerinin birer isim, geldi sözcüğünün bir eylem ve “.” noktalama işaretinin de bir noktalama işareti olduğunu yazılım ilgili her sözcüğe bir etiket ile iliştirecektir. Eğer yazılım girdi sözcük için bir etiket bulamazsa bu durumda o birimi “UnDef” olarak işaretleyecektir.

Son dönemde üstünde çalıştığım yeni bir derlem için 2004- 2013 yılları arasını kapsayan, 3 farklı gazeteden ve 6 haber başlığından toplam 500 bin sözcük içeren işaretlenmiş bir derlem hazırladım. Her yeni derlemde yaptığım gibi öncelikle UnDef (yani herhangi bir sözcük türü etiketi iliştirilememiş) olarak işaretlenen sözcükleri kontrol ettim.

Hazırladığım derlem hem sözcük türü olarak işaretlenmiş hem de metin türlerine göre ayrıştırılmış olduğu için, Türkçe adına sözcük türü ayrıştırmada metin türüne bağımlı başarım oranını da görüntülemiş oldum. Elbette 500 bin sözcüklük küçük bir derlem yeterli  örneklemi sağlayamasa da, temel bir görüntü vermek anlamında aşağıdaki verilerin önemli olduğunu düşünüyorum.

Resimde görüldüğü üzere “yıllar” ve UnDef olarak işaretlenmiş sözcükler arasında doğru bir orantı bulunmakta. “Hits”  ve “Cat Size” (MW) (words per million – wpm)satırındaki sayılar incelendiğinde yıllar içindeki artış açıkça görülebilmekte.TS CorpusÖte yandan bu dağılımı metin türlerine göre ele aldığımızda “Sanat” ve “Teknoloji” türlerinde diğer metin türlerine göre neredeyse iki kat daha fazla işaretlenememiş sözcük bulunduğu görünmekte.

distributionTeknoloji alanında, tahmin edilebileceği gibi yabancı sözcüklerin, sanat alanında ise özel isimlerin etiketlemesi sırasında başarım oranı oldukça düşük kalmakta.

Bu aynı zamanda, “her yıl dilimize giren yabancı sözcük sayısının artış göstermesi veya Türkçe karşılıkları yerine yabancı sözcüklerin daha sıklıkla kullanılıyor olması” şeklinde yorumlanabilir.

Bunun yanında iki önemli nokta daha var. Yazılım, metin içinde kullanılan kısaltmalar ve yazım yanlışları konusunda da (bunun beklenen bir durum olduğunu belirtmekte fayda var) oldukça düşük bir başarıma sahip.

Yazım yanlışları nedeniyle yazılım normalde çözümleyebildiği (“arzmetmek / arzetmek“, “uuslararası / uluslararası” vb.) sözcükleri de UnDef etiketiyle işaretlemekte.

Bunların yanısıra yabancı sözcüklerin “sanki Türkçe bir sözcükmüş gibi” ele alınması ve bu sözcüklerin sonlarına ek getirilerek üretilmiş sözcükler var. Örneğin “Google’ın” veya “tweetimin” gibi.

UnDeffs“UnDef” olarak etiketlenmiş sözcükleri belirli kategorilere ayırdığımda elde ettiğim sıralama

  • %34 Yabancı sözcükler
  • % 26 Yazım yanlışı
  • % 19 Diğer
  • % 14 Unclear
  • % 7 Kısaltmalar

şeklinde oluşmakta.

Unclear kategorisinde maç sonuçları (78-84), standard dışı imla işareti kullanımı (:!!?) ve girdi metni her bir satıra bir sözcük (word per line) yapısına çevirirken yapılan hatalardan kaynaklanan unsurlar bulunmakta.

Sonuçta, daha verimli sözcük türü işaretleme yazılımları için

  • dilimize yerleşmiş yabancı sözcüklerin detaylı bir listesini hazırlayarak yazılıma sağlamak,
  • kısaltmaların detaylı bir listesini hazırlayarak yazılıma sağlamak,
  • Türkçe metinleri daha doğru şekilde (özellikle imla işaretlerini ve sayıları) her satıra bir sözcük (wpl) gelecek şekilde dönüştürecek yazılımlar oluşturmak

öncelikli işler olarak görülüyor. Bu üç adımın yapılması, yukarıdaki rakamlar gözününde bulundurulduğunda UnDef olarak işaretlenmiş sözcüklerde başarımı %50’nin üstünde artıracak gibi görünüyor.