Bu derlem internet üzerindeki çeşitli kaynalardan, elle yapılan çevirilerden ve ağırlıklı olarak bu adresteki veriden yararlanılarak oluşturulmuştur. Derlemi kullanarak yaptığınız çalışmalar için şu iki yayını [1] [2] lütfen kaynak olarak gösterin. TS Corpus projesi altında ilk derlemi yayınladığım 2011’den bu yana yapmanın hayalini kurduğum çalışmalardan biri de bir “paralel derlem” hazırlamaktı. Nihayet, 19 Şubat 2018’de,…
Read more
wget (GNU wget) uzun zamandır kullandığım ve internetten birşeyler indirmeyi oldukça kolaylaştıran bir araç. Temel olarak wget [URL] komutu ile verdiğiniz URL adresindeki bir dosyayı indirebiliyorsunuz. Ancak, her araçta olduğu gibi wget’in de hayatı pratikleştiren püf noktaları var. Bu “hayat kurtaran” özelliklerin bazılarını listeleyeyim: Çoklu indirme: Elinizde onlarca farklı link var ve her bir link…
Read more
TS Corpus’un ilk sürümünü 1 Mart 2012 tarihinde kullanıcı erişimine açmıştım. Aradan geçen 3 yıl içinde projenin nasıl geliştiğini ve tanınırlığının arttığını görmek çalışmanın devamı için gerçekten motive edici oluyor. Geçen yıl, ilk 2 yılın bir değerlendirmesini TS Corpus İstatistiki Veriler başlığı altında yazmıştım. Ancak son bir yıla ait istatistikleri incelediğimde, özellikle çalışmaya dahil olan…
Read more
Argo dilin bir parçası. Ülkemizde argonun yaygın olarak kullanıldığı da bir gerçek. Ancak yazılı dilde argoyu görmek pek sık karşılaşılan bir durum değil. Genellikle mizah dergilerinde ve belli oranda sansüre tabi tutularak (bazı karakterlerin * ile değiştirilmesi vb.) argoyu yazılı olarak görüyoruz. Ancak “sosyal medya” “otokontrol” dışında fazlaca bir kontrol mekanizmasının işletilmemesinin bir sonucu olarak…
Read more
Bu derlem, Öztürk ve diğerleri (2014)*, Türkçe Etiketli Metin Derlemi çalışması için oluşturan veriseti kullanılarak hazırlanmıştır. TS Corpus projesi, farklı Türkçe derlemler üretmek ve doğal dil işlemede kullanılabilecek araçlar ve veri setleri oluşturmak üstünde yoğunlaşan bir çalışma. Geçtiğimiz 2 yıl içinde çalışma kapsamında 7 farklı çevrimiçi derlem ve yine çevrimiçi çalışan 4 farklı araç yayınladım.…
Read more
Sosyal medya son zamanlarda hayatın ayrılmaz bir parçası. Sosyal medyaya karşı yapılan eleştirileri hemen herkes biliyor. Ancak sosyal medyanın gözardı edilemeyecek şekilde bizlere “yazabilme fırsatı” sunduğu da bir gerçek. Bu açıdan bakıldığında sosyal medyanın “dilbilim” açısından önemli bir kaynak olduğu da gözardı edilmemeli. Bu kaynağı kullanmak amacıyla TS Corpus altında yaklaşık bir yıl önce TS…
Read more
Belirli bir karakter setini kullanarak olası tüm dizilimleri üretmek oldukça basit bir çalışma. Perl ile tek satırlık bir komut kullanarak terminal üstünde bir dizi üretmek için şöyle bir komut kullanılabilir: $perl -le “print while glob ‘{a,b,c,ç,d,e,f,g,ğ,h,ı,i,j,k,l,m,n,o,ö,p,r,s,ş,t,u,ü,v,y,z}’x5” >>5_char_length.txt Bu komutu çalıştırarak Türkçe alfabede bulunan harfler ile oluşturulabilecek tüm 5 karakterlik dizileri 5_char_length.txt dosyasına yazdırmış olacağız. Komut…
Read more
TS Corpus’u 1 Mart 2012 tarihinde kullanıcıların erişimine açmıştım, yani yaklaşık 2 yıl önce. Çalışmayı en başından itibaren aktif, üretken ve sürekli gelişen bir altyapı ile, işaretlenmiş Türkçe derlemler ve bu konuda kullanılacak araçlar oluşturacak bir yapı olarak tasarlamıştım. Aradan geçen 2 yıl içinde de bu fikre uygun olarak çalışmayı sürdürdüm. İki yıl sonra 3…
Read more
Sözcük türü işaretleme (PosTagging), en basit haliyle, bir metni oluşturan her bir birime görevini belirten bir etiket iliştirmektir. Türkçe için de sözcük türü işaretleyiciler vardır. Basit bir Google araması yaparak bu yazılımlara ulaşmak ve kullanmak mümkündür. Örnek vermek gerekirse, bir PosTagger ile “Ali eve geldi.” cümlesini işaretlediğimizde, Ali ve eve sözcüklerinin birer isim, geldi sözcüğünün…
Read more
Uzun süredir beklediğim Debian 7 Wheezy nihayet biz kullanıcılara ulaştı. Dağıtımın sunulduğu 4 Mayıs tarihinde evimden uzakta olduğum için ne yazık ki 2 günlük bir gecikmeyle bilgisayarıma kurabildim. Uzun süredir kullandığım ve yine Debian tabanlı olan bir başka dağıtım Linux Mint (14 Nadia) ise diğer diskimde yedeklerimi ve aktif çalışmalarımı tutmaya devam ediyor. (İki fiziksel…
Read more