Category: NLP

Türkçe Paralel Derlem

Bu derlem internet üzerindeki çeşitli kaynalardan, elle yapılan çevirilerden ve ağırlıklı olarak bu adresteki veriden yararlanılarak oluşturulmuştur. Derlemi kullanarak yaptığınız çalışmalar için şu iki yayını [1] [2] lütfen kaynak olarak gösterin. TS Corpus projesi altında ilk derlemi yayınladığım 2011’den bu yana yapmanın hayalini kurduğum çalışmalardan biri de bir “paralel derlem” hazırlamaktı. Nihayet, 19 Şubat 2018’de,…
Read more

Internet Slang – İnternet Argosu – Turkish Twitter Corpus –

Argo dilin bir parçası. Ülkemizde argonun yaygın olarak kullanıldığı da bir gerçek. Ancak yazılı dilde argoyu görmek pek sık karşılaşılan bir durum değil. Genellikle mizah dergilerinde ve belli oranda sansüre tabi tutularak (bazı karakterlerin * ile değiştirilmesi vb.) argoyu yazılı olarak görüyoruz. Ancak “sosyal medya” “otokontrol” dışında fazlaca bir kontrol mekanizmasının işletilmemesinin bir sonucu olarak…
Read more

Dizi Üreteci Örnekleri

Belirli bir karakter setini kullanarak olası tüm dizilimleri üretmek oldukça basit bir çalışma. Perl ile tek satırlık bir komut kullanarak terminal üstünde bir dizi üretmek için şöyle bir komut kullanılabilir: $perl -le “print while glob ‘{a,b,c,ç,d,e,f,g,ğ,h,ı,i,j,k,l,m,n,o,ö,p,r,s,ş,t,u,ü,v,y,z}’x5” >>5_char_length.txt Bu komutu çalıştırarak Türkçe alfabede bulunan harfler ile oluşturulabilecek tüm 5 karakterlik dizileri 5_char_length.txt dosyasına yazdırmış olacağız. Komut…
Read more

Sözcük Türü İşaretleme Üstüne Tespitler

Sözcük türü işaretleme (PosTagging), en basit haliyle, bir metni oluşturan her bir birime  görevini belirten bir etiket iliştirmektir. Türkçe için de sözcük türü işaretleyiciler vardır. Basit bir Google araması yaparak bu yazılımlara ulaşmak ve kullanmak mümkündür. Örnek vermek gerekirse, bir PosTagger ile “Ali eve geldi.” cümlesini işaretlediğimizde, Ali ve eve sözcüklerinin birer isim, geldi sözcüğünün…
Read more