TS Corpus Türkçe Derlem 3 Yaşında

TS Corpus’un ilk sürümünü 1 Mart 2012 tarihinde kullanıcı erişimine açmıştım. Aradan geçen 3 yıl içinde projenin nasıl geliştiğini ve tanınırlığının arttığını görmek çalışmanın devamı için gerçekten motive edici oluyor.
Geçen yıl, ilk 2 yılın bir değerlendirmesini TS Corpus İstatistiki Veriler başlığı altında yazmıştım. Ancak son bir yıla ait istatistikleri incelediğimde, özellikle çalışmaya dahil olan yeni derlemler ve çevrimiçi araçlarla, projenin çok daha verimli bir dönem geçirdiği görülüyor.

Erişime açıldığı günden bugüne kadar  (1 Mart 2012-5 Mart 2015) TS Corpus ve bağlı alt alanlarda 13.846 ayrı oturumda 7275 kullanıcıya toplam 51.965 sayfa gösterilmiş. Bu rakamın 15.815’i ilk iki yıl içinde gerçekleşirken sadece son bir yıl içindeki ziyaret sayısı 36.150’ye yükselmiş. (Bu sayıya derlemlerde yapılan aramalar ve arama sonuçları üstünde yapılan işlemler sonucunda gösterilen sayfalar dahil değil.) Bu ziyaretçilerin %52.6‘sı yeni ziyaretçiler oluştururken, %47.4‘ü siteyi iki veya daha fazla defa ziyaret eden kullanıcılardan oluşmuş.

TS Corpus - Turkish CorpusZiyaretçiler siteye eriştiklerinde ortalama 3.75 sayfa ziyaret etmişler. 13.846 oturumun 8.944‘ü Türkiye’den gelen ziyaretçiler tarafından oluşturulurken, yurtdışından gelen istek sayısı 4902 olarak gerçekleşmiş. Bir başka deyişle dağılım %64.5 yurtiçi, %35.5 yurtdışı trafik olarak istatistiklere yansımış.

Mart 2014’e kadar ziyaretçi trafiği 80 farklı ülkeden oluşurken, bugün itibarıyle bu sayı 105 farklı ülkeden ziyaretçilerin siteye eriştiklerini göstermekte. Ziyaretçi kaynağı olarak Türkiye’yi sırasıyla ABD, Rusya, Almanya, Birleşik Krallık, Japonya, Brezilya, Fransa, İtalya, Ukrayna, Hollanda, İspanya ve Kanada izlemekte. Bu ülkelerden gelen ziyaretçiler toplamda 3680 oturum isteğinde bulunmuşlar.

Son bir yıl içinde TS Corpus Tools başlığıyla erişime açtığım çevrimiçi araçlara ise kullanıcılar toplam 3.122 defa erişmiş.

TS Corpus altında yayında olan 7 ayrı derlemde kullanıcılar 3 yıl içinde toplam 201.718 arama yapmışlar.

TS Corpus Query CountAncak son bir yılı asıl önemli kılan nokta, TS Corpus’un bilimsel çalışmalara kaynak olarak kullanılmaya başlanması ve dünya çapında Türkçe için gösterilen kaynaklar arasına girmesi oldu. (Bu çalışmalardan bazıları; Karatay (ODTÜ – Fen-Bilimleri Enstitüsü Yüksek Lisans Tezi), Adi Renduchintala (John Hopkins Üniversitesi ), Michigan Üniversitesi Kütüphanesi, Washington Üniversitesi, vb.)

TS Corpus’un 4. yaşını, iki yeni çevrimiçi yazılımı kullanıcı erişimine açmış olarak karşılamayı hedefliyorum. Yeniliklerin istatistiklere etkisini gelecek Mart’ta birlikte göreceğiz.

Internet Slang – İnternet Argosu – Turkish Twitter Corpus –

Argo dilin bir parçası. Ülkemizde argonun yaygın olarak kullanıldığı da bir gerçek. Ancak yazılı dilde argoyu görmek pek sık karşılaşılan bir durum değil. Genellikle mizah dergilerinde ve belli oranda sansüre tabi tutularak (bazı karakterlerin * ile değiştirilmesi vb.) argoyu yazılı olarak görüyoruz.
Ancak “sosyal medya” “otokontrol” dışında fazlaca bir kontrol mekanizmasının işletilmemesinin bir sonucu olarak argoyu daha sık gözlemlediğimiz bir mecra olarak karşımıza çıkıyor.
Tweet’lerden oluşan bir derlem hazırlarken, “internet argosu” etiketini kullanmamak olmazdı 🙂 Bu amaçla belirli sözcükleri int_Slang (internet argosu) etiketiyle işaretledim. Aşağıdaki liste bu sözcükleri ve bu sözcüklerin kullanım sıklıklarını göstermekte.
Yaklaşık 1 milyon Tweet – 13 milyon birimden oluşan bu derlemde ayrıca intAbbr (internete özgü kısaltmalar), Emoticons (Smiley İşaretleri), intEmphasis (yazımda kullanılan vurgular), YY (yazım yanlışları) gibi, “daha önce bir Türkçe derlemde hiç etiketlenmemiş” olan yeni birimler de var. Bu derlemle ilgili daha detaylı bilgiye buradan ulaşabilirsiniz.

Derleme 56 farklı sözcük int_Slang etiketiyle işaretlenmiş. Bu sözcüklerin toplamda 21.350 defa derlem içinde kullanılmış.

NoSearch ResultNumber of OccurencesPercent
1lan1483396.48
2amk16367.66
3aq6042.83
4len5112.39
5panpa4101.92
6ulen3881.82
7apaçi3691.73
8koyim2451.15
9laa1040.49
10a.q.1000.47
11mına930.44
12got920.43
13laan910.43
14kanki900.42
15nah900.42
16lann890.42
17tırt850.40
18koyucam810.38
19b*k810.38
20kıro770.36
21shit720.34
22pic660.31
23sikko640.30
24kro550.26
25hassiktir480.22
26cincon460.22
27g*t460.22
28wtf460.22
29bitch440.21
30amınakoyim430.20
31popisi430.20
32sikik430.20
33popi420.20
34yavsak370.17
35asdfgh360.17
36kanks350.16
37sikicem340.16
38damn340.16
39sokucam320.15
40amina320.15
41layn320.15
42uleyn310.15
43siktirgit310.15
44sıçıyım310.15
45oluum300.14
46cicişler290.14
47ipne280.13
48lağn270.13
49çiko260.12
50s*ktir260.12
51yarrak260.12
52bsg220.10
53kokoş180.08
54sikişenses150.07
55A.Q.60.03
56cicis50.02

internet_slang

TS TweetS Corpus (Turkish Twitter Corpus) İnternet Slang PosTag