TS Corpus -İstatistiki Veriler-
TS Corpus’u 1 Mart 2012 tarihinde kullanıcıların erişimine açmıştım, yani yaklaşık 2 yıl önce.
Çalışmayı en başından itibaren aktif, üretken ve sürekli gelişen bir altyapı ile, işaretlenmiş Türkçe derlemler ve bu konuda kullanılacak araçlar oluşturacak bir yapı olarak tasarlamıştım. Aradan geçen 2 yıl içinde de bu fikre uygun olarak çalışmayı sürdürdüm.
İki yıl sonra 3 ayrı derlem (toplam 550 milyon birim), online olarak çalışan Türkçe Tokenizer ve Türkçe PosTagger, iki ayrı crawler ve buna bağlı olarak çalışan bir arama arayüzüyle birlikte TS Corpus projesi büyümeye devam ediyor.
Bazen altyapıdaki sınırlılıklar yüzünden, bazen bilgi eksikliğim yüzünden, bazen de daha önce yapılmış yol gösterici bir çalışma bulamadığım için elbette eksikler, yanlışlar ve hatalar oldu. Ama sonuçta öğrenme aktif bir süreç ve attığım her küçük adım ileri gitmenin bir parçasını oluşturuyor.
Çalışmanın internete açılan temel yüzü olan tscorpus.com adresi ve bu adrese bağlı subdomainlerden gelen istatistiki verilere bakmak daha fazlasını yapmak için motive edici oluyor. Buyrun, iki yılın Google Analytics verilerini beraber inceleyelim:
Toplam Ziyaretçi
tscorpus.com adresini ve bağlı subdomain adreslerini 2 yıl içinde toplam 5004 kullanıcı ziyaret etmiş. Bu kullanıcıların 2346‘sı unique (ayrı) kullanıcılar. Kullanıcılara toplamda 15.815 sayfa gösterilmiş. (Bu sayıya derlemlerde yapılan aramalar sonucunda gösterilen sayfalar dahil değil.) Kullanıcıların %54‘ü yurtiçi, %46‘sı ise yurtdışından gelmişler.
Sitenin en fazla ziyaret edildiği günler 13 Kasım 2013 (69 ziyaretçi), 25 Nisan 2013 (64 ziyaretçi) ve 30 Ağustos 2013 (55 ziyaretçi) olarak görülmekte.
Coğrafi Bilgiler
Coğrafi olarak baktığımızda 80 ayrı ülke, 442 farklı şehirden ziyaretçinin siteye geldiğini görüyoruz. Doğal olarak en çok kullanıcının geldiği Türkiye’yi sırasıyla ABD, Japonya, İngiltere, Almanya, Hollanda, İrlanda, Çin, Rusya, Kanada ve Fransa izlemekte. Bu ülkeler ziyaretçi trafiğinin %22′sini oluşturuyorlar. Bir başka deyişle her beş ziyaretçiden biri bu ülkelerden gelmiş. Türkiye ziyaretçi trafiğinin %54‘ünü oluştururken, geri kalan 69 ülkeden gelen ziyaretçiler %24‘lik bir paya sahip.
Teknoloji Profili
Ziyaretçilerin kullandığı teknolojik altyapı dağılımına bakıldığında, 12 farklı işletim sistemi, 51 ayrı sistem yereli (sistem dili) ve 17 farklı internet tarayıcısı kullandıkları görülmekte. Hatta bir kullanıcı PlayStation’daki internet tarayıcısını kullanarak giriş yapmış 🙂
Ayrıca 39 farklı mobil cihazdan (tablet bilgisayar, smart phone vs.) toplam 188 ziyaretçi siteye gelmiş. (Bu, derlem arayüzünü CQPWeb’in klasik görünümünden alıp şu an beta haldeki responsive bir yapıya taşımanın gerekliliği açıkça ortaya koymakta.)
Referrals
Google Analytics’e göre 6 farklı sosyal paylaşım platformunda (Facebook, Twitter, Google+, FriendFeed, Academia ve LinkedIn) TS Corpus’a aktif link verilmiş. Daha geniş kapsamdaysa 73 ayrı websitesinde aktif link verilerek çalışmaya bağlantı sağlanmış. (Bu bağlantıların çok büyük bir kısmı Michigan Üniversitesi, Washington Üniversitesi, CWB resmi sitesi, Linguist List vb. dış kaynaklar.)
Aramalar
TS Corpus’un (şu an için) barındırdığı 3 ayrı derlemde toplam 689 kayıtlı kullanıcısı var. Kullanıcılar toplam 8723 arama yapmış. (Günlük ortalama 12 arama)
Bu aramaların 6142‘si büyük-küçük harf duyarsız (ignore-case), 987‘si büyük-küçük harf duyarlı (case-sensitive) ve 1594‘ü CQP syntax ile yapılmış.
Teknik Altyapı
TS Corpus OVH veri merkezine (Fransa) taşındığından beri %99.7 uptime zamanıyla hizmet vermiş. %0.3 sunucunun ilk kurulumu sırasında yaşanmış. Sunucunun son üç aylık uptime oranı ve anlık durumu (Check TS Server Status) adresinden görülebilir. TS Corpus sunucusu bugün itibarıyla 362 gündür kesintisiz çalışmakta. (15 Şubat 2013-12 Şubat 2014)
Sonuçlar
2 yıllık çalışmanın rakamsal sonuçları bunlar işte. Bundan bir yıl sonra, yani 3. yılın sonunda daha detaylı ve verimli çalışmalar ile şu an planlama aşamasında olan işlerin hayata geçirilmesi sonucunda bu rakamların katlanarak artacağına inanıyorum.
TS Corpus Aktif Çalışmalar
TS Corpus v2 | +491M Tokens, PosTagged, Morphologically Tagged |
TS Wikipedia | +43M Tokens, PosTagged, Morphologically Tagged |
TS TweetS | +13M Tokens, PosTagged by a new tagset, Morphologically Tagged |
TS Search Engine | Over 1.2 million web pages indexed |
TS Tokenizer | Turkish Tokenizer capable of catching smileys, misspelling, etc. |
PosTagger | Turkish PosTagger |
PS: Derlemlere erişmek için kullanıcı adı ve parola gerekmektedir. Eğer kullanıcı adı ve parolanız yoksa buraya tıklayarak yeni bir kullanıcı oluşturabilirsiniz.
Teşekkürler Türker Sezer ve Bengü Sezer 🙂