21 Haziran 2020 Pazar

TÜRKÇE WORDNET - TÜRKÇE İÇİN KELİME AĞI


TÜRKÇE WORDNET

TÜRKÇE İÇİN KELİME AĞI

Bülent Ağaoğlu
21.6.2020
 1
2
“Türkçe Kelime Ağı KeNet için Arayüz”. http://starlangyazilim.com/resource/turkce-kelime-agi-kenet-icin-arayuz/
3
4
5
6
Bilgin, O., Çetinoğlu, Ö. ve Oflazer, K.,: “Building a WordNet for Turkish”, Romanian Journal of Information Science and Technology, Volume 7, Numbers 1-2, 2004, 163-172. Tam metin: http://research.sabanciuniv.edu/379/1/3011800001039.pdf
7
Sabancı Üniversitesi’nde BalkaNet Projesi’nin bir parçası olarak Türkçe bir kavramsal sözlük hazırlanmıştır. (Bilgin O. ve diğerleri, 2004). Bulgarca, Çekce, Yunanca, Romence, Türkçe ve Sırpça olarak 6 farklı Balkan dilinde uygulanan BalkaNet projesi temel olarak Princeton WorldNet modelini kullanmıştır. BalkaNet projesi için kurulan  konsorsiyum projenin ilk aşamasında EuroWordNet1  projesinin 1310 temel kavramını her bir çalışma takımının diline çevirmiştir. Bu kavramlar sıradüzendeki düzey sayısının yüksekliği ve pek çok alt kavram içermesi nedeni ile tüm dillerde oldukça önemli bir yapı taşı olmuştur. Birinci aşama Türkçe için eş anlamların, zıt anlamların ve alt kavramların elektronik Türkçe dilbilgisi sözlüğünden otomatik çıkarımı şeklinde gerçekleşmiştir. Daha sonra konsorsiyum incelenecek kavramların sayısının beşbine çıkarılmasını kararlaştırmış; böylece Türkçe dahil tüm takımlar bütünce sıklıkları (corpus frequencies), sözcük dağarcığının tanımlanması, tek dilli sözlükler, çoklu anlamlar (polysemy) gibi farklı kriterleri de ekleyerek alt kümelerini genişletmişlerdir.
Bir doğal dil işlemleme alanı olarak bilgi-tabanlı tekniklerle olasılı modellerin bütünleşmesi, veri tabanı sorgulamalarıyla sınırlı dil uygulamalarını zenginleştirmiştir.
Böylece metinlere uygulanan istatistiksel yöntemlerle en olası yorumun tahmini mümkün olmaktadır. Bunun için de ayrıntılı olarak işlemlenmiş derleme metinlere (bütünce) gereksinim vardır. Metin örnekleri kullanarak birden fazla anlama sahip kelimelerin, özellikle eylem türündeki kelimelerin anlamlarını çıkarabilmek için, bu metinler üzerinde sözcüksel ve anlamsal bilginin doğru olarak işaretlenmiş olması önemlidir. Örneğin Türkçe için her biri yaklaşık 25000 sözcükten oluşan 7 farklı metin koleksiyonunun2  bi-gram model üzerinde test edildiği bir çalışma yapılmıştır (Altan Z., Yanık E., 2001). Burada tümcelerin sözdizimsel ve anlamsal sınıflandırmasında sadece incelenmek istenen sözcükten önceki sözcük işaretlenmiştir. Bütünce üzerinde uygulanan olasılı dil modeli, elle tanımlanan kurallara ek bir öğrenme bileşeni olarak en olası çözümü tahmin edebilmekte ve dili işlemlemedeki belirsizlikleri de büyük ölçüde azaltmaktadır. Bu çalışmada eylemlere ait kavramsal sınıflandırma yol alma, yönelme ve terk etmeden biri şeklinde devinim (motion), kavrama (perception), duygu (emotion), fonksiyon (bodily care and functions), bağlantı (contact) gibi WordNet’in eylemler için grupladığı kavramsal özelliklerinden yararlanarak gerçekleştirilmiş ve eylemlerin sözcük anlamları bunlara göre numaralandırılmıştır. Tümcelerin işaretlenmeleri “git” eylemi için Tablo 1’de görüldüğü gibidir. Artık herhangi bir eylemin anlamı olasılığa bağlı olarak tahmin edilebilir. Tahmin için kullanılacak yöntem en olası maksimumun kestirimi (Maximum Likelihood Estimation- MLE) olabilir. MLE, işlemlenmiş bütünce içinde aranılan sözcüğün eğitilme sayısını hesaplar. Eğitim sadece bir önceki sözcüğe göre yapıldığı için araştırılan kelimeden önceki kelimenin öğelerine ayrılmış olması önemlidir. Bu sınıflandırmadan elde edilen değerler, işaretlenmiş bu bütünce üzerinde farklı anlamların belirlenmesi için bir Bayes sınıflandırması oluştururlar. Bu bütünce tümce öğeleri elle işaretlenerek elde edilmiştir.
Benzeri problemler Türkçe dil işlemleme çalışmalarının pek çoğunda mevcuttur. Fakat ODTÜ derleme metninin kullanıma açılması ile birlikte gerek sözdizimsel, gerekse biçimbirimsel olarak çözümlenmiş; bütünce bulma problemi kısmen de olsa çözümlenmiştir.”. http://turkoloji.cu.edu.tr/DILBILIM/anlam_belirsizligi.pdf
8
BalkaNet - Design and Development of a Multilingual Balkan WordNet ** Welcome to the project BalkaNet (IST-2000-29388) home page * http://www.dblab.upatras.gr/balkanet/


Hiç yorum yok:

Yorum Gönder