TÜRKÇE WORDNET
TÜRKÇE İÇİN
KELİME AĞI
Bülent Ağaoğlu
21.6.2020
Türkçe Kelime Ağı KeNet için Arayüz.
2019. https://www.researchgate.net/publication/332786790_Turkce_Kelime_Agi_KeNet_icin_Arayuz
2
“Türkçe Kelime Ağı KeNet için Arayüz”.
http://starlangyazilim.com/resource/turkce-kelime-agi-kenet-icin-arayuz/
3
4
5
6
Bilgin, O., Çetinoğlu, Ö. ve
Oflazer, K.,: “Building a WordNet for Turkish”, Romanian Journal of Information
Science and Technology, Volume 7, Numbers 1-2, 2004, 163-172. Tam metin: http://research.sabanciuniv.edu/379/1/3011800001039.pdf
7
“Sabancı Üniversitesi’nde BalkaNet Projesi’nin bir parçası
olarak Türkçe bir kavramsal sözlük
hazırlanmıştır.
(Bilgin O. ve diğerleri, 2004). Bulgarca, Çekce, Yunanca, Romence, Türkçe ve
Sırpça olarak 6 farklı Balkan dilinde uygulanan BalkaNet projesi temel olarak
Princeton WorldNet modelini kullanmıştır. BalkaNet projesi için kurulan konsorsiyum projenin ilk aşamasında
EuroWordNet1 projesinin 1310 temel
kavramını her bir çalışma takımının diline çevirmiştir. Bu kavramlar
sıradüzendeki düzey sayısının yüksekliği ve pek çok alt kavram içermesi nedeni
ile tüm dillerde oldukça önemli bir yapı taşı olmuştur. Birinci aşama Türkçe
için eş anlamların, zıt anlamların ve alt kavramların elektronik Türkçe
dilbilgisi sözlüğünden otomatik çıkarımı şeklinde gerçekleşmiştir. Daha sonra
konsorsiyum incelenecek kavramların sayısının beşbine çıkarılmasını
kararlaştırmış; böylece Türkçe dahil tüm takımlar bütünce sıklıkları (corpus
frequencies), sözcük dağarcığının tanımlanması, tek dilli sözlükler, çoklu anlamlar
(polysemy) gibi farklı kriterleri de ekleyerek alt kümelerini genişletmişlerdir.
Bir doğal dil işlemleme alanı olarak
bilgi-tabanlı tekniklerle olasılı modellerin bütünleşmesi, veri tabanı
sorgulamalarıyla sınırlı dil uygulamalarını zenginleştirmiştir.
Böylece metinlere uygulanan
istatistiksel yöntemlerle en olası yorumun tahmini mümkün olmaktadır. Bunun
için de ayrıntılı olarak işlemlenmiş derleme metinlere (bütünce) gereksinim
vardır. Metin örnekleri kullanarak birden fazla anlama sahip kelimelerin,
özellikle eylem türündeki kelimelerin anlamlarını çıkarabilmek için, bu metinler
üzerinde sözcüksel ve anlamsal bilginin doğru olarak işaretlenmiş olması önemlidir.
Örneğin Türkçe için her biri yaklaşık 25000 sözcükten oluşan 7 farklı metin koleksiyonunun2
bi-gram model üzerinde test edildiği bir
çalışma yapılmıştır (Altan Z., Yanık E., 2001). Burada tümcelerin sözdizimsel
ve anlamsal sınıflandırmasında sadece incelenmek istenen sözcükten önceki
sözcük işaretlenmiştir. Bütünce üzerinde uygulanan olasılı dil modeli, elle
tanımlanan kurallara ek bir öğrenme bileşeni olarak en olası çözümü tahmin
edebilmekte ve dili işlemlemedeki belirsizlikleri de büyük ölçüde azaltmaktadır.
Bu çalışmada eylemlere ait kavramsal sınıflandırma yol alma, yönelme ve terk
etmeden biri şeklinde devinim (motion), kavrama (perception), duygu (emotion), fonksiyon
(bodily care and functions), bağlantı (contact) gibi WordNet’in eylemler için grupladığı
kavramsal özelliklerinden yararlanarak gerçekleştirilmiş ve eylemlerin sözcük anlamları
bunlara göre numaralandırılmıştır. Tümcelerin işaretlenmeleri “git” eylemi için
Tablo 1’de görüldüğü gibidir. Artık herhangi bir eylemin anlamı olasılığa bağlı
olarak tahmin edilebilir. Tahmin için kullanılacak yöntem en olası maksimumun
kestirimi (Maximum Likelihood Estimation- MLE) olabilir. MLE, işlemlenmiş
bütünce içinde aranılan sözcüğün eğitilme sayısını hesaplar. Eğitim sadece bir
önceki sözcüğe göre yapıldığı için araştırılan kelimeden önceki kelimenin
öğelerine ayrılmış olması önemlidir. Bu sınıflandırmadan elde edilen değerler,
işaretlenmiş bu bütünce üzerinde farklı anlamların belirlenmesi için bir Bayes
sınıflandırması oluştururlar. Bu bütünce tümce öğeleri elle işaretlenerek elde
edilmiştir.
Benzeri problemler Türkçe dil
işlemleme çalışmalarının pek çoğunda mevcuttur. Fakat ODTÜ derleme metninin
kullanıma açılması ile birlikte gerek sözdizimsel, gerekse biçimbirimsel olarak
çözümlenmiş; bütünce bulma problemi kısmen de olsa çözümlenmiştir.”. http://turkoloji.cu.edu.tr/DILBILIM/anlam_belirsizligi.pdf
8
BalkaNet - Design and
Development of a Multilingual Balkan WordNet ** Welcome to the project BalkaNet
(IST-2000-29388) home page * http://www.dblab.upatras.gr/balkanet/
Hiç yorum yok:
Yorum Gönder