Category: Derlem

Türkçe Paralel Derlem

Bu derlem internet üzerindeki çeşitli kaynalardan, elle yapılan çevirilerden ve ağırlıklı olarak bu adresteki veriden yararlanılarak oluşturulmuştur. Derlemi kullanarak yaptığınız çalışmalar için şu iki yayını [1] [2] lütfen kaynak olarak gösterin. TS Corpus projesi altında ilk derlemi yayınladığım 2011’den bu yana yapmanın hayalini kurduğum çalışmalardan biri de bir “paralel derlem” hazırlamaktı. Nihayet, 19 Şubat 2018’de,…
Read more

TS Corpus Türkçe Derlem 3 Yaşında

TS Corpus’un ilk sürümünü 1 Mart 2012 tarihinde kullanıcı erişimine açmıştım. Aradan geçen 3 yıl içinde projenin nasıl geliştiğini ve tanınırlığının arttığını görmek çalışmanın devamı için gerçekten motive edici oluyor. Geçen yıl, ilk 2 yılın bir değerlendirmesini TS Corpus İstatistiki Veriler başlığı altında yazmıştım. Ancak son bir yıla ait istatistikleri incelediğimde, özellikle çalışmaya dahil olan…
Read more

Internet Slang – İnternet Argosu – Turkish Twitter Corpus –

Argo dilin bir parçası. Ülkemizde argonun yaygın olarak kullanıldığı da bir gerçek. Ancak yazılı dilde argoyu görmek pek sık karşılaşılan bir durum değil. Genellikle mizah dergilerinde ve belli oranda sansüre tabi tutularak (bazı karakterlerin * ile değiştirilmesi vb.) argoyu yazılı olarak görüyoruz. Ancak “sosyal medya” “otokontrol” dışında fazlaca bir kontrol mekanizmasının işletilmemesinin bir sonucu olarak…
Read more

TS Corpus -TS Abstract Derlemi-

Bu derlem, Öztürk ve diğerleri (2014)*, Türkçe Etiketli Metin Derlemi çalışması için oluşturan veriseti kullanılarak hazırlanmıştır. TS Corpus projesi, farklı Türkçe derlemler üretmek ve doğal dil işlemede kullanılabilecek araçlar ve veri setleri oluşturmak üstünde yoğunlaşan bir çalışma. Geçtiğimiz 2 yıl içinde çalışma kapsamında  7 farklı çevrimiçi derlem ve yine çevrimiçi çalışan 4 farklı araç yayınladım.…
Read more

Twitter Derlemi – TS TweetS Corpus

Sosyal medya son zamanlarda hayatın ayrılmaz bir parçası. Sosyal medyaya karşı yapılan eleştirileri hemen herkes biliyor. Ancak sosyal medyanın gözardı edilemeyecek şekilde bizlere “yazabilme fırsatı” sunduğu da bir gerçek. Bu açıdan bakıldığında sosyal medyanın “dilbilim” açısından önemli bir kaynak olduğu da gözardı edilmemeli. Bu kaynağı kullanmak amacıyla TS Corpus altında yaklaşık bir yıl önce TS…
Read more

Dizi Üreteci Örnekleri

Belirli bir karakter setini kullanarak olası tüm dizilimleri üretmek oldukça basit bir çalışma. Perl ile tek satırlık bir komut kullanarak terminal üstünde bir dizi üretmek için şöyle bir komut kullanılabilir: $perl -le “print while glob ‘{a,b,c,ç,d,e,f,g,ğ,h,ı,i,j,k,l,m,n,o,ö,p,r,s,ş,t,u,ü,v,y,z}’x5” >>5_char_length.txt Bu komutu çalıştırarak Türkçe alfabede bulunan harfler ile oluşturulabilecek tüm 5 karakterlik dizileri 5_char_length.txt dosyasına yazdırmış olacağız. Komut…
Read more

TS Corpus -İstatistiki Veriler-

TS Corpus’u 1 Mart 2012 tarihinde kullanıcıların erişimine açmıştım, yani yaklaşık 2 yıl önce. Çalışmayı en başından itibaren aktif, üretken ve sürekli gelişen bir altyapı ile, işaretlenmiş Türkçe derlemler ve bu konuda kullanılacak araçlar oluşturacak bir yapı olarak tasarlamıştım. Aradan geçen 2 yıl içinde de bu fikre uygun olarak çalışmayı sürdürdüm. İki yıl sonra 3…
Read more

Sözcük Türü İşaretleme Üstüne Tespitler

Sözcük türü işaretleme (PosTagging), en basit haliyle, bir metni oluşturan her bir birime  görevini belirten bir etiket iliştirmektir. Türkçe için de sözcük türü işaretleyiciler vardır. Basit bir Google araması yaparak bu yazılımlara ulaşmak ve kullanmak mümkündür. Örnek vermek gerekirse, bir PosTagger ile “Ali eve geldi.” cümlesini işaretlediğimizde, Ali ve eve sözcüklerinin birer isim, geldi sözcüğünün…
Read more