TS Corpus Türkçe Derlem 3 Yaşında

TS Corpus’un ilk sürümünü 1 Mart 2012 tarihinde kullanıcı erişimine açmıştım. Aradan geçen 3 yıl içinde projenin nasıl geliştiğini ve tanınırlığının arttığını görmek çalışmanın devamı için gerçekten motive edici oluyor.
Geçen yıl, ilk 2 yılın bir değerlendirmesini TS Corpus İstatistiki Veriler başlığı altında yazmıştım. Ancak son bir yıla ait istatistikleri incelediğimde, özellikle çalışmaya dahil olan yeni derlemler ve çevrimiçi araçlarla, projenin çok daha verimli bir dönem geçirdiği görülüyor.

Erişime açıldığı günden bugüne kadar  (1 Mart 2012-5 Mart 2015) TS Corpus ve bağlı alt alanlarda 13.846 ayrı oturumda 7275 kullanıcıya toplam 51.965 sayfa gösterilmiş. Bu rakamın 15.815’i ilk iki yıl içinde gerçekleşirken sadece son bir yıl içindeki ziyaret sayısı 36.150’ye yükselmiş. (Bu sayıya derlemlerde yapılan aramalar ve arama sonuçları üstünde yapılan işlemler sonucunda gösterilen sayfalar dahil değil.) Bu ziyaretçilerin %52.6‘sı yeni ziyaretçiler oluştururken, %47.4‘ü siteyi iki veya daha fazla defa ziyaret eden kullanıcılardan oluşmuş.

TS Corpus - Turkish CorpusZiyaretçiler siteye eriştiklerinde ortalama 3.75 sayfa ziyaret etmişler. 13.846 oturumun 8.944‘ü Türkiye’den gelen ziyaretçiler tarafından oluşturulurken, yurtdışından gelen istek sayısı 4902 olarak gerçekleşmiş. Bir başka deyişle dağılım %64.5 yurtiçi, %35.5 yurtdışı trafik olarak istatistiklere yansımış.

Mart 2014’e kadar ziyaretçi trafiği 80 farklı ülkeden oluşurken, bugün itibarıyle bu sayı 105 farklı ülkeden ziyaretçilerin siteye eriştiklerini göstermekte. Ziyaretçi kaynağı olarak Türkiye’yi sırasıyla ABD, Rusya, Almanya, Birleşik Krallık, Japonya, Brezilya, Fransa, İtalya, Ukrayna, Hollanda, İspanya ve Kanada izlemekte. Bu ülkelerden gelen ziyaretçiler toplamda 3680 oturum isteğinde bulunmuşlar.

Son bir yıl içinde TS Corpus Tools başlığıyla erişime açtığım çevrimiçi araçlara ise kullanıcılar toplam 3.122 defa erişmiş.

TS Corpus altında yayında olan 7 ayrı derlemde kullanıcılar 3 yıl içinde toplam 201.718 arama yapmışlar.

TS Corpus Query CountAncak son bir yılı asıl önemli kılan nokta, TS Corpus’un bilimsel çalışmalara kaynak olarak kullanılmaya başlanması ve dünya çapında Türkçe için gösterilen kaynaklar arasına girmesi oldu. (Bu çalışmalardan bazıları; Karatay (ODTÜ – Fen-Bilimleri Enstitüsü Yüksek Lisans Tezi), Adi Renduchintala (John Hopkins Üniversitesi ), Michigan Üniversitesi Kütüphanesi, Washington Üniversitesi, vb.)

TS Corpus’un 4. yaşını, iki yeni çevrimiçi yazılımı kullanıcı erişimine açmış olarak karşılamayı hedefliyorum. Yeniliklerin istatistiklere etkisini gelecek Mart’ta birlikte göreceğiz.

TS Corpus -İstatistiki Veriler-

TS Corpus’u 1 Mart 2012 tarihinde kullanıcıların erişimine açmıştım, yani yaklaşık 2 yıl önce.
Çalışmayı en başından itibaren aktif, üretken ve sürekli gelişen bir altyapı ile, işaretlenmiş Türkçe derlemler ve bu konuda kullanılacak araçlar oluşturacak bir yapı olarak tasarlamıştım. Aradan geçen 2 yıl içinde de bu fikre uygun olarak çalışmayı sürdürdüm.
İki yıl sonra 3 ayrı derlem (toplam 550 milyon birim), online olarak çalışan Türkçe Tokenizer ve Türkçe PosTagger, iki ayrı crawler ve buna bağlı olarak çalışan bir arama arayüzüyle birlikte TS Corpus projesi büyümeye devam ediyor.
Bazen altyapıdaki sınırlılıklar yüzünden, bazen bilgi eksikliğim yüzünden, bazen de daha önce yapılmış yol gösterici bir çalışma bulamadığım için elbette eksikler, yanlışlar ve hatalar oldu. Ama sonuçta öğrenme aktif bir süreç ve attığım her küçük adım ileri gitmenin bir parçasını oluşturuyor.
Çalışmanın internete açılan temel yüzü olan tscorpus.com adresi ve bu adrese bağlı subdomainlerden gelen istatistiki verilere bakmak daha fazlasını yapmak için motive edici oluyor. Buyrun, iki yılın Google Analytics verilerini beraber inceleyelim:

Toplam Ziyaretçi

tscorpus.com adresini ve bağlı subdomain adreslerini 2 yıl içinde toplam 5004 kullanıcı ziyaret etmiş. Bu kullanıcıların 2346‘sı unique (ayrı) kullanıcılar. Kullanıcılara toplamda 15.815 sayfa gösterilmiş. (Bu sayıya derlemlerde yapılan aramalar sonucunda gösterilen sayfalar dahil değil.) Kullanıcıların %54‘ü yurtiçi, %46‘sı ise yurtdışından gelmişler.
Sitenin en fazla ziyaret edildiği günler 13 Kasım 2013 (69 ziyaretçi), 25 Nisan 2013 (64 ziyaretçi) ve 30 Ağustos 2013 (55 ziyaretçi) olarak görülmekte.

TS Corpus Overall Visitors

TS Corpus Overall Visitors

Coğrafi Bilgiler

Coğrafi olarak baktığımızda 80 ayrı ülke, 442 farklı şehirden ziyaretçinin siteye geldiğini görüyoruz. Doğal olarak en çok kullanıcının geldiği Türkiye’yi sırasıyla ABD, Japonya, İngiltere, Almanya, Hollanda, İrlanda, Çin, Rusya, Kanada ve Fransa izlemekte. Bu ülkeler ziyaretçi trafiğinin %22′sini oluşturuyorlar. Bir başka deyişle her beş ziyaretçiden biri bu ülkelerden gelmiş. Türkiye ziyaretçi trafiğinin %54‘ünü oluştururken, geri kalan 69 ülkeden gelen ziyaretçiler %24‘lik bir paya sahip.

TS Turkish Corpus

TS Turkish Corpus Visitors  – Countries Overview

Teknoloji Profili

Ziyaretçilerin kullandığı teknolojik altyapı dağılımına bakıldığında, 12 farklı işletim sistemi, 51 ayrı sistem yereli (sistem dili) ve  17 farklı internet tarayıcısı kullandıkları görülmekte. Hatta bir kullanıcı PlayStation’daki internet tarayıcısını kullanarak giriş yapmış 🙂

Ayrıca 39 farklı mobil cihazdan (tablet bilgisayar, smart phone vs.) toplam 188 ziyaretçi siteye gelmiş. (Bu, derlem arayüzünü CQPWeb’in klasik görünümünden alıp şu an beta haldeki responsive bir yapıya taşımanın gerekliliği açıkça ortaya koymakta.)

TS Corpus Visitors - Browsers

TS Corpus Visitors – Browsers

Referrals

Google Analytics’e göre 6 farklı sosyal paylaşım platformunda (Facebook, Twitter, Google+, FriendFeed, Academia ve LinkedIn) TS Corpus’a aktif link verilmiş. Daha geniş kapsamdaysa 73 ayrı websitesinde aktif link verilerek çalışmaya bağlantı sağlanmış. (Bu bağlantıların çok büyük bir kısmı Michigan Üniversitesi, Washington Üniversitesi, CWB resmi sitesi, Linguist List vb. dış kaynaklar.)

Aramalar

TS Corpus’un (şu an için) barındırdığı 3 ayrı derlemde toplam 689 kayıtlı kullanıcısı var. Kullanıcılar toplam 8723 arama yapmış.  (Günlük ortalama 12 arama)

Bu aramaların 6142‘si büyük-küçük harf duyarsız (ignore-case), 987‘si büyük-küçük harf duyarlı (case-sensitive) ve 1594‘ü CQP syntax ile yapılmış.

Teknik Altyapı

TS Corpus OVH veri merkezine (Fransa) taşındığından beri %99.7 uptime zamanıyla hizmet vermiş. %0.3 sunucunun ilk kurulumu sırasında yaşanmış. Sunucunun son üç aylık uptime oranı ve anlık durumu (Check  TS Server Status) adresinden görülebilir. TS Corpus sunucusu bugün itibarıyla 362 gündür kesintisiz çalışmakta. (15 Şubat 2013-12 Şubat 2014)

Sonuçlar

2 yıllık çalışmanın rakamsal sonuçları bunlar işte. Bundan bir yıl sonra, yani 3. yılın sonunda daha detaylı ve verimli çalışmalar ile şu an planlama aşamasında olan işlerin hayata geçirilmesi sonucunda bu rakamların katlanarak artacağına inanıyorum.

TS Corpus Aktif Çalışmalar

TS Corpus v2 +491M Tokens, PosTagged, Morphologically Tagged
TS Wikipedia +43M Tokens, PosTagged, Morphologically Tagged
TS TweetS +13M Tokens, PosTagged by a new tagset, Morphologically Tagged
TS Search Engine Over 1.2 million web pages indexed
TS Tokenizer Turkish Tokenizer capable of catching smileys, misspelling, etc.
PosTagger Turkish PosTagger

PS: Derlemlere erişmek için kullanıcı adı ve parola gerekmektedir. Eğer kullanıcı adı ve parolanız yoksa buraya tıklayarak yeni bir kullanıcı oluşturabilirsiniz.

Teşekkürler Türker Sezer ve Bengü Sezer 🙂