{"title":"LEVENSHTEIN UZAKLIK ÖLÇEĞİNE GÖRE ÇAĞDAŞ TÜRK YAZI DİLLERİNİN FONETİK UZAKLIĞI","authors":"Bilgit Sağlam, F. Özek","doi":"10.31455/asya.1204136","DOIUrl":null,"url":null,"abstract":"Bu çalışmanın temel amacı Oğuz grubu yazı dillerinin birbirlerine karşı fonetik uzaklıklarını tespit etmektir. Çalışmada fonetik uzaklıkların tespiti için bilgisayarlı dil bilim alanında sıkça kullanılan niceliksel ölçüm tekniklerinden Levenshtein uzaklık algoritması kullanılmıştır. Bu bağlamda, çalışmanın Türkiye’deki lehçe bilim araştırmalarında kullanılabilecek bir yöntemi tanıtarak ilgili alanda yeni değerlendirmelerin yapılması adına katkı sunması hedeflenmektedir. \nVladimir Levenshtein tarafından geliştirilen ve birçok alanda kullanılan Levenshtein uzaklık algoritması, bir sözcük dizisini diğerine dönüştürürken kullanılabilecek ekleme, çıkarma ve yer değiştirme işlemlerinden matematiksel olarak en az işlem gerektiren sayısal değeri tespit etmede kullanılan bir algoritmadır. Levenshtein uzaklık algoritması, lehçe bilim çalışmalarında ilk olarak Brett Kessler tarafından kullanılmıştır. Bu çalışmadaki ilk denemenin başarılı olmasının ardından birçok lehçe bilimcinin algoritmaya ilgisi artmış, aynı yöntemle birçok dil değişkesinin fonetik uzaklığını ele alan çalışmalar yapılmıştır. \nBu çalışmada Türkiye Türkçesi, Azerbaycan Türkçesi, Türkmen Türkçesinin birbirlerine fonetik uzaklığı Levenshtein uzaklık algoritması ile ölçülecektir. Çalışmanın genellenebilir sonuçlar vermesi adına Türkçe Sıklık Sözlüğü’ne göre en sık kullanılan 40 fiil ve 13 tematik başlıktan (hayvan, beden, yiyecek, giyim, ulaşım, aile, madde, zaman, spor, tabiat, hava, meslek ve renk) 216 adet isim olmak üzere toplam 256 Türkçe madde başı sözcük belirlenmiştir. Sözcükler hedef dillere ana dili konuşurları tarafından tercüme edilmiştir. Sözcükler, ana dili konuşurlarına seslettirilmiş ve sözcük telaffuzları uluslararası fonetik alfabeye aktarılmıştır. Kaynak dilden her sözcük ile hedef dildeki karşılığı LUA ile hesaplanarak sözcüklerin fonetik uzaklıkları tespit edilmişir. Örnek setindeki tüm sözcük çiftlerine bu işlem uygulandıktan sonra hesaplanan ortalama değer temel alınarak Oğuz grubu Türk yazı dillerinin birbirlerine olan ortalama fonetik uzaklığı hesaplanmıştır.","PeriodicalId":104140,"journal":{"name":"ASYA STUDIES","volume":"10 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-05-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"ASYA STUDIES","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31455/asya.1204136","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Bu çalışmanın temel amacı Oğuz grubu yazı dillerinin birbirlerine karşı fonetik uzaklıklarını tespit etmektir. Çalışmada fonetik uzaklıkların tespiti için bilgisayarlı dil bilim alanında sıkça kullanılan niceliksel ölçüm tekniklerinden Levenshtein uzaklık algoritması kullanılmıştır. Bu bağlamda, çalışmanın Türkiye’deki lehçe bilim araştırmalarında kullanılabilecek bir yöntemi tanıtarak ilgili alanda yeni değerlendirmelerin yapılması adına katkı sunması hedeflenmektedir.
Vladimir Levenshtein tarafından geliştirilen ve birçok alanda kullanılan Levenshtein uzaklık algoritması, bir sözcük dizisini diğerine dönüştürürken kullanılabilecek ekleme, çıkarma ve yer değiştirme işlemlerinden matematiksel olarak en az işlem gerektiren sayısal değeri tespit etmede kullanılan bir algoritmadır. Levenshtein uzaklık algoritması, lehçe bilim çalışmalarında ilk olarak Brett Kessler tarafından kullanılmıştır. Bu çalışmadaki ilk denemenin başarılı olmasının ardından birçok lehçe bilimcinin algoritmaya ilgisi artmış, aynı yöntemle birçok dil değişkesinin fonetik uzaklığını ele alan çalışmalar yapılmıştır.
Bu çalışmada Türkiye Türkçesi, Azerbaycan Türkçesi, Türkmen Türkçesinin birbirlerine fonetik uzaklığı Levenshtein uzaklık algoritması ile ölçülecektir. Çalışmanın genellenebilir sonuçlar vermesi adına Türkçe Sıklık Sözlüğü’ne göre en sık kullanılan 40 fiil ve 13 tematik başlıktan (hayvan, beden, yiyecek, giyim, ulaşım, aile, madde, zaman, spor, tabiat, hava, meslek ve renk) 216 adet isim olmak üzere toplam 256 Türkçe madde başı sözcük belirlenmiştir. Sözcükler hedef dillere ana dili konuşurları tarafından tercüme edilmiştir. Sözcükler, ana dili konuşurlarına seslettirilmiş ve sözcük telaffuzları uluslararası fonetik alfabeye aktarılmıştır. Kaynak dilden her sözcük ile hedef dildeki karşılığı LUA ile hesaplanarak sözcüklerin fonetik uzaklıkları tespit edilmişir. Örnek setindeki tüm sözcük çiftlerine bu işlem uygulandıktan sonra hesaplanan ortalama değer temel alınarak Oğuz grubu Türk yazı dillerinin birbirlerine olan ortalama fonetik uzaklığı hesaplanmıştır.