Twitter Derlemi – TS TweetS Corpus

TS TweetS Corpus

TS TweetS Corpus

Sosyal medya son zamanlarda hayatın ayrılmaz bir parçası. Sosyal medyaya karşı yapılan eleştirileri hemen herkes biliyor. Ancak sosyal medyanın gözardı edilemeyecek şekilde bizlere “yazabilme fırsatı” sunduğu da bir gerçek. Bu açıdan bakıldığında sosyal medyanın “dilbilim” açısından önemli bir kaynak olduğu da gözardı edilmemeli. Bu kaynağı kullanmak amacıyla TS Corpus altında yaklaşık bir yıl önce TS TweetS derlemini yayınlamıştım. Araya giren işlerin yoğunluğundan bir türlü bu derlemi ve özelliklerini anlatmaya fırsatım olmamıştı. Bu eksikliği biraz gidermeye çalışayım.

TS TweetS derlemi, sözcük türü olarak etiketlenmiş toplam 1 milyon tweet’ten oluşan (12 milyon 564 bin 769 birim) bir Türkçe Twitter derlemi. Derlemi TS Corpus altında yer alan diğer 5 derlemden ayıran en önemli özelliği yeni bazı sözcük türü etiketlerinin kullanılıyor olması. Bu etiketler YY (Yazım Yanlışı), intAbbr (Internet Abbreviations), Emoticons (Smiley İşaretleri), intEmphasis (Internet Emphasis) ve intSlang (Internet Slang). Bunun yanısıra TRmorph tarafından işaretlenmekte olan Abbreviations (abbr etiketiyle) ve tinglish (tinglish etiketiyle) etiketleri de ilk defa bir Türkçe derlemde kullanılmış oldu. Öncelikle bu etiketlere yakından bakalım.

YY (Yazım yanlışı): Sosyal medyaya erişimin temel araçlarından biri akıllı telefonlar ve tablet bilgisayarlar. Bu cihazlarda Türkçe karakterler genellikle ekran klavyesinin ikinci bir katmanından erişilebilir durumda oluyor. Bu düzen “ı“, “ş” vb. karakterleri içeren sözcüklerin yazımında bu karakterlere ulaşmak yazım hızını belirgin şekilde düşürmekte. Dolayısıyla kullanıcılar bu karakterler yerine ekran klavyesinden direk erişilebilir olan karakterleri kullanmayı tercih ediyorlar. “ı” yerine “i“, “ş” yerine “s” kullanımı sosyal medyada sıklıkla karşılaşılan bir durum oluyor. YY etiketiyle bu sözcüklerin bir kısmını işaretlemeye çalıştım. Bu sözcüklerin imla kurallarına uygun olarak yazılmış halleri “Correct” olarak yeni katmanda etiketlenmiş olarak derlemde sunulmaktadır.

Öte yandan belirli karakterlerin, özellikle sözcük sonuna gelen karakterlerin, “internetçe” yazmaya çalışan kullanıcılar tarafından farklı yazılması da sıklıkla gözlenen bir durum. YY etiketi bu sözcükleri de kapsamakta.

TS Corpus – Yeni Etiketler

intAbbr (Internet Abbreviations): Zaman içinde internet ve sosyal medyanın kendine ait bir dilinin oluştuğunu hepimiz biliyoruz. “Selam” yerine “slm“, “mesaj” yerine “msj” yazmak artık hepimizin bildiği internete özgü kısaltmalar. Derlemde toplam 131,369 sözcük, 815 farklı internete özgü kısaltma ile etiketlenmiş olarak sunulmakta.

Emoticons(Smiley İşaretleri): İnternet üzerinden sohbet etmenin hayatımıza girdiği IRC günlerinden beri smiley işaretleri de sıklıkla kullanılmaya başladı. Özellikle “duyguların ifadesi” olarak ele alındığında bu işaretler mimik ve jest gibi bedensel ifadelerin bulunmadığı ortamda önem taşımakta. Dahası, verinin duygu analizinin (sentiment analysis) yapılması için smiley işaretleri en temel öğeler olarak kolaylıkla kullanılabilecek ipuçları taşımaktadır. Derlemde toplam 293.857 birim 106 farklı emoticon etiketiyle işaretlenmiş olarak sunulmakta.

intEmphasis (Internet Emphasis): İnternette yazılan yazılarda, vurgunun belirtilmesi için bir karakterin bilinçli olarak tekrarlanarak sözcüğün yazılması sıkça gözlemlenen bir durum. Bu şekilde yazılan sözcükler, cümlenin bir noktasındaki vurguyu belirtme işlevini yerine getirmektedir. Smiley işaretlerine benzer şekilde “sentiment analysis” için bu etiket kullanılabilir.

intSlang (Internet Slang): Argo dilin önemli bir parçası. İnternet yazımında da argonun geniş bir kullanımı görülmekte. Özellikle editöryal bir süreçten geçmemiş, olduğu gibi yazılan yazılarda argo sıklıkla kullanılmakta. Tweet’lerde de kullanılan argo sözcükler TweetS derleminde toplam 9046 sözcük argo olarak işaretlenmiştir.


TRmorph Etiketleri

Kısaltmalar (TRT – Türkiye Radyo ve Televizyon kurumu, YGS – Yüksek Öğrenime Geçiş Sınavı, vb.) TweetS derleminde etiketlenmiştir. Etiketlemede TRmorph’un içerdiği kısaltmalar kullanılmıştır.

Tinglish etiketi,  TRmorph belgelendirmesinde Çöltekin tarafından  “İngilizce bir sözcüğün Türkçe yazımında İngilizce sesletimini kullanmak” olarak  tanımlanmış sözcükleri içermektedir. Population – popülasyon, duplication – duplikasyon vb. sözcükler TS TweetS derleminde Tinglish olarak etiketlenmiştir.


 


TokenPosTagMorphLemmaCorrect
geliyor_VerbVerb+Pos+Prog1+A3sggelgel
🙂_emoticonemoticonNo_Lemmasmile
qısa_YYNo_MorphNo_Lemmakısa
coook_intEmphasisNo_MorphNo_Lemmaçok
TS TweetS Corpus - Etiket Katmanları

 

Tabloda TS TweetS derleminde kullanılan katmanlar ve bu katmanların derlem veritabanını oluşturan yapıları örneklenmiştir. İlk dört sütunda görülen Token, PosTag, Morph ve Lemma katmanları sorgu oluşturmakta kullanılabilmektedir.


Derlemi oluşturmak için  TS Corpus projesindeki diğer derlemleri de birimlendirmek için (tokenize) kullanmakta olduğum TS Tokenizer betiğini de içeriğe uygun olarak güncellemem gerekti. Twitter’a özgü olarak kullanılan ve kullanıcıyı işaret eden “@” sembolü ile konu başlıklarını (HasTag) işaret etmek için kullanılan “#” sembollerinin bağlı bulunduğu sözcüklerden ayrılmaması gerekmekteydi. Birimlendiriciyi bu işaretlerin kullanıldığı sözcükleri bu derlem için doğru şekilde ayrıştırıcak şekilde güncelledim.

Böylelikle her ne kadar bu işaretleri içeren sözcükler için (henüz) birer PosTag atamamış olsam da, CQP’nin sunduğu özellikler ile derlem kullanıcıları bu işaretleri “Frequency Lists” aracıyla sorgulayabilir oldular. Bu işaretleri içeren örnek bir metin şöyle görünmekte. Görüldüğü gibi sonuçlar, her bir tweet bir satırda gösterilecek şekilde ekrana yansıtılmakta.


TokenPosTagMorphLemmaCorrect
#TS_TweetS_DerlemiUnDefUnDef#TS_TweetS_Derlemi#TS_TweetS_Derlemi
yayındaNounNoun+A3sg+Pnon+Locyayınyayında
@usersUnDefUnDef@users@users

TS TweetS derleminin arayüzü de projede yer alan diğer derlemlere göre biraz farklı. Özellikle smiley (emoticons) ve yazım yanlışı (YY) etiketleriyle işaretlenmiş sözcüklerin arayüzde kolaylıkla kullanıcılara sunulabilmesi için sonuçlar iki satırda ekrana yansıtılmakta. Aşağıdaki ekran resiminde, anahtar sözcük konumunda bulunan  ve smiley olarak etiketlenmiş sözcüklerin karşılıklarının derlem arayüzündeki gösterimleri görülmekte.

TS_Tweets_Corpus_User_Interface

Sonuçlar

 

Sosyal medya dilbilim için oldukça zengin bir veri kaynağı sağlamakta.

  • TS TweetS derlemi ile bu kaynağa ilişkin online erişimli, Türkçe tweet’lerden oluşan bir derlem kullanıcılara sunulmuş oldu.
  • Bu çalışmada ilk defa kullanılan zenginleştirilmiş etiket setiyle birlikte, kullanıcıların ilk defa farklı yapılar için direk sorgular yapması sağlanmış oldu.
  • Sosyal medya ve internetten elde edilecek veri üstünde yapılacak çalışmalarda Türkçe için eksikliği hissedilen noktaları (tokenizer, PosTagger, etc.) görme fırsatı oluştu.
PS:
* Sezer, T. 2016. Tweets Corpus: Building a Corpus by Social Media. Journal of Milli Eğitim Education and Social Sciences. Spring 2016, 210, ss: 621-633
* Derleme erişmek için http://tscorpus.com adresinde bulunan formu doldurarak kayıt olmalısınız.