TS Corpus -İstatistiki Veriler-

TS Corpus’u 1 Mart 2012 tarihinde kullanıcıların erişimine açmıştım, yani yaklaşık 2 yıl önce.
Çalışmayı en başından itibaren aktif, üretken ve sürekli gelişen bir altyapı ile, işaretlenmiş Türkçe derlemler ve bu konuda kullanılacak araçlar oluşturacak bir yapı olarak tasarlamıştım. Aradan geçen 2 yıl içinde de bu fikre uygun olarak çalışmayı sürdürdüm.
İki yıl sonra 3 ayrı derlem (toplam 550 milyon birim), online olarak çalışan Türkçe Tokenizer ve Türkçe PosTagger, iki ayrı crawler ve buna bağlı olarak çalışan bir arama arayüzüyle birlikte TS Corpus projesi büyümeye devam ediyor.
Bazen altyapıdaki sınırlılıklar yüzünden, bazen bilgi eksikliğim yüzünden, bazen de daha önce yapılmış yol gösterici bir çalışma bulamadığım için elbette eksikler, yanlışlar ve hatalar oldu. Ama sonuçta öğrenme aktif bir süreç ve attığım her küçük adım ileri gitmenin bir parçasını oluşturuyor.
Çalışmanın internete açılan temel yüzü olan tscorpus.com adresi ve bu adrese bağlı subdomainlerden gelen istatistiki verilere bakmak daha fazlasını yapmak için motive edici oluyor. Buyrun, iki yılın Google Analytics verilerini beraber inceleyelim:

Toplam Ziyaretçi

tscorpus.com adresini ve bağlı subdomain adreslerini 2 yıl içinde toplam 5004 kullanıcı ziyaret etmiş. Bu kullanıcıların 2346‘sı unique (ayrı) kullanıcılar. Kullanıcılara toplamda 15.815 sayfa gösterilmiş. (Bu sayıya derlemlerde yapılan aramalar sonucunda gösterilen sayfalar dahil değil.) Kullanıcıların %54‘ü yurtiçi, %46‘sı ise yurtdışından gelmişler.
Sitenin en fazla ziyaret edildiği günler 13 Kasım 2013 (69 ziyaretçi), 25 Nisan 2013 (64 ziyaretçi) ve 30 Ağustos 2013 (55 ziyaretçi) olarak görülmekte.

TS Corpus Overall Visitors

TS Corpus Overall Visitors

Coğrafi Bilgiler

Coğrafi olarak baktığımızda 80 ayrı ülke, 442 farklı şehirden ziyaretçinin siteye geldiğini görüyoruz. Doğal olarak en çok kullanıcının geldiği Türkiye’yi sırasıyla ABD, Japonya, İngiltere, Almanya, Hollanda, İrlanda, Çin, Rusya, Kanada ve Fransa izlemekte. Bu ülkeler ziyaretçi trafiğinin %22′sini oluşturuyorlar. Bir başka deyişle her beş ziyaretçiden biri bu ülkelerden gelmiş. Türkiye ziyaretçi trafiğinin %54‘ünü oluştururken, geri kalan 69 ülkeden gelen ziyaretçiler %24‘lik bir paya sahip.

TS Turkish Corpus

TS Turkish Corpus Visitors  – Countries Overview

Teknoloji Profili

Ziyaretçilerin kullandığı teknolojik altyapı dağılımına bakıldığında, 12 farklı işletim sistemi, 51 ayrı sistem yereli (sistem dili) ve  17 farklı internet tarayıcısı kullandıkları görülmekte. Hatta bir kullanıcı PlayStation’daki internet tarayıcısını kullanarak giriş yapmış 🙂

Ayrıca 39 farklı mobil cihazdan (tablet bilgisayar, smart phone vs.) toplam 188 ziyaretçi siteye gelmiş. (Bu, derlem arayüzünü CQPWeb’in klasik görünümünden alıp şu an beta haldeki responsive bir yapıya taşımanın gerekliliği açıkça ortaya koymakta.)

TS Corpus Visitors - Browsers

TS Corpus Visitors – Browsers

Referrals

Google Analytics’e göre 6 farklı sosyal paylaşım platformunda (Facebook, Twitter, Google+, FriendFeed, Academia ve LinkedIn) TS Corpus’a aktif link verilmiş. Daha geniş kapsamdaysa 73 ayrı websitesinde aktif link verilerek çalışmaya bağlantı sağlanmış. (Bu bağlantıların çok büyük bir kısmı Michigan Üniversitesi, Washington Üniversitesi, CWB resmi sitesi, Linguist List vb. dış kaynaklar.)

Aramalar

TS Corpus’un (şu an için) barındırdığı 3 ayrı derlemde toplam 689 kayıtlı kullanıcısı var. Kullanıcılar toplam 8723 arama yapmış.  (Günlük ortalama 12 arama)

Bu aramaların 6142‘si büyük-küçük harf duyarsız (ignore-case), 987‘si büyük-küçük harf duyarlı (case-sensitive) ve 1594‘ü CQP syntax ile yapılmış.

Teknik Altyapı

TS Corpus OVH veri merkezine (Fransa) taşındığından beri %99.7 uptime zamanıyla hizmet vermiş. %0.3 sunucunun ilk kurulumu sırasında yaşanmış. Sunucunun son üç aylık uptime oranı ve anlık durumu (Check  TS Server Status) adresinden görülebilir. TS Corpus sunucusu bugün itibarıyla 362 gündür kesintisiz çalışmakta. (15 Şubat 2013-12 Şubat 2014)

Sonuçlar

2 yıllık çalışmanın rakamsal sonuçları bunlar işte. Bundan bir yıl sonra, yani 3. yılın sonunda daha detaylı ve verimli çalışmalar ile şu an planlama aşamasında olan işlerin hayata geçirilmesi sonucunda bu rakamların katlanarak artacağına inanıyorum.

TS Corpus Aktif Çalışmalar

TS Corpus v2 +491M Tokens, PosTagged, Morphologically Tagged
TS Wikipedia +43M Tokens, PosTagged, Morphologically Tagged
TS TweetS +13M Tokens, PosTagged by a new tagset, Morphologically Tagged
TS Search Engine Over 1.2 million web pages indexed
TS Tokenizer Turkish Tokenizer capable of catching smileys, misspelling, etc.
PosTagger Turkish PosTagger

PS: Derlemlere erişmek için kullanıcı adı ve parola gerekmektedir. Eğer kullanıcı adı ve parolanız yoksa buraya tıklayarak yeni bir kullanıcı oluşturabilirsiniz.

Teşekkürler Türker Sezer ve Bengü Sezer 🙂