Sözcük Türü İşaretleme Üstüne Tespitler

Sözcük türü işaretleme (PosTagging), en basit haliyle, bir metni oluşturan her bir birime  görevini belirten bir etiket iliştirmektir.
Türkçe için de sözcük türü işaretleyiciler vardır. Basit bir Google araması yaparak bu yazılımlara ulaşmak ve kullanmak mümkündür.

Örnek vermek gerekirse, bir PosTagger ile “Ali eve geldi.” cümlesini işaretlediğimizde, Ali ve eve sözcüklerinin birer isim, geldi sözcüğünün bir eylem ve “.” noktalama işaretinin de bir noktalama işareti olduğunu yazılım ilgili her sözcüğe bir etiket ile iliştirecektir. Eğer yazılım girdi sözcük için bir etiket bulamazsa bu durumda o birimi “UnDef” olarak işaretleyecektir.

Son dönemde üstünde çalıştığım yeni bir derlem için 2004- 2013 yılları arasını kapsayan, 3 farklı gazeteden ve 6 haber başlığından toplam 500 bin sözcük içeren işaretlenmiş bir derlem hazırladım. Her yeni derlemde yaptığım gibi öncelikle UnDef (yani herhangi bir sözcük türü etiketi iliştirilememiş) olarak işaretlenen sözcükleri kontrol ettim.

Hazırladığım derlem hem sözcük türü olarak işaretlenmiş hem de metin türlerine göre ayrıştırılmış olduğu için, Türkçe adına sözcük türü ayrıştırmada metin türüne bağımlı başarım oranını da görüntülemiş oldum. Elbette 500 bin sözcüklük küçük bir derlem yeterli  örneklemi sağlayamasa da, temel bir görüntü vermek anlamında aşağıdaki verilerin önemli olduğunu düşünüyorum.

Resimde görüldüğü üzere “yıllar” ve UnDef olarak işaretlenmiş sözcükler arasında doğru bir orantı bulunmakta. “Hits”  ve “Cat Size” (MW) (words per million – wpm)satırındaki sayılar incelendiğinde yıllar içindeki artış açıkça görülebilmekte.TS CorpusÖte yandan bu dağılımı metin türlerine göre ele aldığımızda “Sanat” ve “Teknoloji” türlerinde diğer metin türlerine göre neredeyse iki kat daha fazla işaretlenememiş sözcük bulunduğu görünmekte.

distributionTeknoloji alanında, tahmin edilebileceği gibi yabancı sözcüklerin, sanat alanında ise özel isimlerin etiketlemesi sırasında başarım oranı oldukça düşük kalmakta.

Bu aynı zamanda, “her yıl dilimize giren yabancı sözcük sayısının artış göstermesi veya Türkçe karşılıkları yerine yabancı sözcüklerin daha sıklıkla kullanılıyor olması” şeklinde yorumlanabilir.

Bunun yanında iki önemli nokta daha var. Yazılım, metin içinde kullanılan kısaltmalar ve yazım yanlışları konusunda da (bunun beklenen bir durum olduğunu belirtmekte fayda var) oldukça düşük bir başarıma sahip.

Yazım yanlışları nedeniyle yazılım normalde çözümleyebildiği (“arzmetmek / arzetmek“, “uuslararası / uluslararası” vb.) sözcükleri de UnDef etiketiyle işaretlemekte.

Bunların yanısıra yabancı sözcüklerin “sanki Türkçe bir sözcükmüş gibi” ele alınması ve bu sözcüklerin sonlarına ek getirilerek üretilmiş sözcükler var. Örneğin “Google’ın” veya “tweetimin” gibi.

UnDeffs“UnDef” olarak etiketlenmiş sözcükleri belirli kategorilere ayırdığımda elde ettiğim sıralama

  • %34 Yabancı sözcükler
  • % 26 Yazım yanlışı
  • % 19 Diğer
  • % 14 Unclear
  • % 7 Kısaltmalar

şeklinde oluşmakta.

Unclear kategorisinde maç sonuçları (78-84), standard dışı imla işareti kullanımı (:!!?) ve girdi metni her bir satıra bir sözcük (word per line) yapısına çevirirken yapılan hatalardan kaynaklanan unsurlar bulunmakta.

Sonuçta, daha verimli sözcük türü işaretleme yazılımları için

  • dilimize yerleşmiş yabancı sözcüklerin detaylı bir listesini hazırlayarak yazılıma sağlamak,
  • kısaltmaların detaylı bir listesini hazırlayarak yazılıma sağlamak,
  • Türkçe metinleri daha doğru şekilde (özellikle imla işaretlerini ve sayıları) her satıra bir sözcük (wpl) gelecek şekilde dönüştürecek yazılımlar oluşturmak

öncelikli işler olarak görülüyor. Bu üç adımın yapılması, yukarıdaki rakamlar gözününde bulundurulduğunda UnDef olarak işaretlenmiş sözcüklerde başarımı %50’nin üstünde artıracak gibi görünüyor.