DOĞAL DİL IŞLEME (NLP)
Muhammed DİNÇ
Mekatronik Müh. 2.Sınıf
200313002
DOĞAL DİL İŞLEME (DDİ) NEDİR?
Bilgisayar bilimi bakımından diller makine dili ve doğal dil olmak üzere ikiye ayrılır. Makine dilleri “0” ve “1”lerden oluşan makinelerin anlayabilecekleri dillerken doğal diller insanlar tarafından oluşturulan 7000’den fazla konuşma dilidir. İngilizce literatürde “Natural Language Processing” olarak geçen doğal dil işleme kullanılan doğal dilleri bilgisayarın anlamasını, yorumlamasını hatta karşılık vermesini için gerçekleştirilir.
DOĞAL DİL İŞLEMEDE AMAÇ NEDİR?
Doğal dil işlemenin amacı makine dili ve doğal diller arasında köprü kurarak insan dilini bilgisayar tarafından anlaşılır hale getirmektir. Bu sayede bilgisayarlar insanların bilgi birikimlerinden yararlanarak konuşmaları anlama, sorulara cevap verme ve diller arası çeviri gibi birçok işlemi insana ihtiyaç duymadan gerçekleştirebilir.
DOĞAL DİL İŞLEMENİN TARİHSEL GELİŞİMİ
1950
Computing Machinery And Intelligence Makalesi, Georgetown-IBM Deneyi
1960
Eliza ve SHRDLU Sohbet Programları, Hesaplamalı Dilbilim Derneği Kuruluşu
1970
Kavramsal Ontolojiler, PARRY Sohbet Programı
2000
Gözetimli Ve Gözetimsiz Öğrenme
1990
Dil işleme İçin Makine Öğrenmesi
1980
Kural Tabanlı Ayrıştırma, Morfoloji, Semantik, Referans Metotları
2010
2020
GPT-2 ve Etik Sorunlar
Büyük Veri, Derin Öğrenme
DOĞAL DiL İŞLEMENiN TARiHSEL SURECi
1950
1950 yılında Alan Turing tarafından yayınlanan “Computing Machinery Intelligence” isimli makale bilgisayarlar düşünebilir mi, insanlar karşılarında bir bilgisayar ya da insan olduğunu ayırt edebilir mi? gibi felsefi soruları ortaya atıp; insan ve insan dışı bir sistemin zihinsel yetileri arasındaki ilişkiyi ölçen Turing testini geliştirdi. Georgetown Üniversitesi Dilbilim Enstitüsü ve IBM tarafından ortaklaşa gerçekleştirilen ilk otomatik çeviri gerçekleştirildi. Bu çeviride bilgisayar olarak IBM 701 kullanılarak 60 Rusça cümle İngilizceye çevrildi.
1960
İlk sohbet programları olan Eliza ve SHRDLU geliştirildi. Bu sohbet programları sayesinde soru sorma ve basit düzeyde cevap verme işlemleri otomatikleştirilmeye çalışıldı. Kullanıcıdan aldığı soruları ona tekrar yansıtarak soruyor karşıda bir insan varmış görüntüsü vermeye çalışıyorlardı. 1964 yılında Hesaplamalı Dilbilim Derneği kuruldu.
1970
Birçok programcı gerçek hayat verilerini bilgisayarın anlayabileceği verilere dönüştürüp kavramsal antolojiler yazmaya başladı. Ayrıca bu zaman diliminde “PARRY” isimli önceki versiyonlardan daha gelişmiş bir sohbet programı geliştirildi.
Eliza sohbet programının psikoterapiye uyarlanmış örneği
1990
Dil işleme için makina öğrenmesinin ortaya çıkması ile doğal dil işleme alanında devrim yaşandı. Bu süreçte makinaların hesaplama güçleri giderek arttı ve ddi alanındaki çalışmalar sembolikten istatiksel çalışmalara yöneldi. IBM araştırma merkezi Kanada Parlamentosu ve Avrupa Birliği tarafından oluşturulan çok dilli metinsel derlemeden (textual corpera) yararlandı.
2000
WEB, dünya çapındaki ağın büyümesiyle ham ve işlenmiş veriler arttı. Bu verilerin artmasından dolayı doğal dil işleme alanındaki gözetimli(supervised) ve gözetimsiz (unsupervised) öğrenme algoritmaları çalışmalar artış gösterdi.
1980
Doğal dil işlemede kural tabanlı ayrıştırma(cümlelerdeki ögelere göre ayrıştırma ve aralarındaki ilişkileri belirleyerek ayrıştırma yöntemidir.), morfoloji(kelimelerin iç yapılarını anlama ve onları en küçük anlamlı parçaya ayırmayı amaçlar.), semantik (anlambilim), referans gibi alanlarda çalışmalar sürerken “Racter” ve “Jabberwacky” isimli sohbet programları geliştirildi.
2020
Önceden eğitilen BART, GPT-2, RoBERTa gibi modeller kullanıldı. Çok yönlü model çalışmaları artarak video, ses, resim gibi veriler de kullanılmaya başlandı. Artan yapay zeka kullanımından kaynaklı etik hususlarda çalışmalar arttı bunun yanı sıra doğal dil işleme hukuk, sağlık, finans gibi alanlara da uyarlanmaya başlandı.
2010
Doğal dil işleme alanında temsili öğrenme ve derin sinir ağı makine öğrenmeleri yaygınlaştı ayrıca bu dönemde daha önceden eğitilen modeller kullanılmaya başlandı. Bu süreçte Büyük verinin kullanılmasıyla daha iyi veri kümeleri eğitildi. Sesli asistan ve konuşma tanıma ve duygu analizi çalışmaları artış gösterdi.
Doğal dil İşlemede yapılan çalışmalar metin(text) ve konuşma(speech) olarak ikiye ayrılır.
DOĞAL DİL İŞLEMEDE ÇALIŞMA SEVİYELERİ
Dil bilimciler dilin yapısını oluşturan bu dört konuda çalışırlar. Bilişimciler bu sonuçlardan yararlanarak dili bilgisayar yardımı ile işlemeye çalışırlar.
DOĞAL DIL İŞLEMENIN İLGİ ALANLARI
Yazım Yanlışının Düzeltilmesi
Eskiden cümlelerin yazım yanlışlarını düzeltmekle görevli ‘musahhih’ isimli kişiler vardı. Günümüzde bu işlem bilgisayarlarla yapılmaktadır. Bilgisayar bu işlemi yaparken kullanılan yöntemlerden biri metnin yazıldığı dilin sözlüğünü bilgisayarda bir veri tabanına yerleştirmektir. Türkçe gibi bitişken olan kurallı dillerde ses uyum kuralları, hece yapısı, eklerin uyumu da değerlendirilir.
Bul ve Değiştir
Metinlerde bir sözcüğün başka bir sözcükle değiştirilmesi uygulaması insanlar tarafından yapıldığında fazla zaman almaktadır. Bu işlemin dillere göre yapılma zorluğu değişmektedir. Bunun sebepleri arasında dile göre kelimelere gelebilecek eklerin sayısı ve değiştirildiğince gelen eklerin değişmesi etkilidir. İngilizcede isme gelen ekler sınırlıyken Türkçe gibi bitişken dillerde bu eklerin sayısı artmaktadır. Örneğin elma kelimesinin tüm versiyonlarını simit ile değiştirdiğimizde ‘’elmacının’’ yerine ‘’simitçinin’’ gelmesi gerekmektedir.
Basılı Bir Metni Okuma
Bilgisayar ortamında bulunmayan metinlerin bilgisayara aktarılması işlemine ‘’metni okuma’’ denir. Bu metinler eski dönemlerde yazılmış kitapları, belgeleri ayrıca kullanıcıların el ya da makine ile doldurduğu bilgi formlarını da kapsar. Bu bilgilerin optik yöntemlerle okunması en temel düzeyde görüntü işleme ve karakter tanıma olarak görülür. Bu işlemlerde çeşitli sebeplerden kaynaklanan yanlış okumalar doğal dil işleme teknikleri ile düzeltilebilir.
Bir Metnin Özetini Çıkarma
Günümüzde bilgi kaynaklarının artması ile onların özetini çıkarmakta büyük sorun oluşturmuştur. Bunun için özetleme çalışmalarında doğal dil işleme kullanılmaktadır. Bu çalışmalarda metnin öncelikle başlığının varlığı sonra içindekiler kısmı ve metinde sıkça geçen sözcükler taranmaktadır. Sonrasında anlamlı cümleler içeren özet yazılması hedeflenir.
Metnin İçerdiği Bilgiyi Çıkarma
Bazı dillerde cümleler dilbilgisinden kaynaklı kesin kurallar içerirken bu bazı dillerde oldukça esnektir. Metinlerde verilen bilgi bazen birkaç cümlede ifade edilirken bazen tüm metni kapsamaktadır. Bu gibi durumlarda metinlerde asıl konu dışındaki bilgiler ayıklanarak asıl bilgi elde edilir.
Bilgiye Erişim
İnternetin gelişimi ile artan bilgi ile bu bilgiye erişmek için anahtar sözcükler kullanılmaktadır. Anahtar sözcüklerden binlerce o konu ile alakalı, alakasız içerik ortaya çıkar. Bu içeriklerden konu ile alakalı olanı ayırma da doğal dil işlemenin alanlarındandır. Bitişken dillerden olan Türkçede göz, gözlük, gözlükçü gibi anahtar kelimeler birbirlerine yakın olduğu için bu da ayrı bir zorluk oluşturmaktadır. Bu gibi dilin biçimsel özelliklerinden kaynaklı sorunlar için ‘’anlamsal web’’ adıyla çalışmalar yürütülmektedir.
Metni Anlama
Doğal dil işlemenin çalışma alanlarından biri de metinden anlam çıkararak bunu eyleme dönüştürmektir.
Bu uygulama alanında amaç kısa cümlelerden kesin ve net anlamlar çıkarmaktır. Bu sayede banka, iletişim operatörleri gibi analarda kullanıcılardan gelen kısa istek ve şikayetler insana gereksinim duymaksınız çözüme kavuşturulabilir.
Metni Seslendirme
Metin seslendirme bilişim dünyasında uzun zamandır üzerine çalışılan bir alandır. Bu alan için ses biliminin önemi oldukça fazladır. Türkçe dilinde kelimeler yazıldığı gibi okunmasına karşın yabancı ve eski kelimelerde bu durum değişiklik gösterebilir. Buna örnek ‘’kâr’’ ve ‘’kar’’ kelimelerindeki a harfinin okunuşu gösterilebilir. Metin seslendirmede önce metin sesçil abeceye dönüştürülüp sonrasında dilin vurgu özelliklerine göre seslendirilmektedir. Metin seslendirmesinde doğal sesleri ekleme ve yapay sesler üretme yöntemleri kullanılır. Metin seslendirmesinin kullanım alanlarından birkaçı ulaşım araçlarında durak uyarı sistemleri, sesli kitaplardır.
Konuşmayı Yazıya Dökme
İnsan ağzından çıkan sesler mikrofon ile elektriksel sinyale dönüştürülür. Bu elektriksel sinyallerin işlenerek metne dönüştürülmesi doğal dil işlemenin çalışma alanlarından biridir. Burada amaç sadece konuşmayı yazıya dökmek değil ayrıca ondan anlam çıkarılmasını sağlamaktır. Konuşmayı yazıya dökme toplantı tutanağı hazırlama, konuşmacının konuşmasını yazıya dökme ve robotlara verilen kısa emirlerde kullanılabilir.
Soru Yanıtlama
Kullanıcıların ihtiyaç ve isteklerini karşılamaya yönelik kurulmuş çağrı merkezleri maddi anlamda firmalara büyük çapta yük oluşturmaktadır. Bu alanlarda yapılan çalışmaların bilgisayarlar aracılığıyla sağlanmasında doğal dil işleme devreye girer. Günümüzde kullanılan araçlar önceden kaydedilmiş soru-cevaplar ya da gerçek insanlar tarafından idare edilmektedir. Doğal dil işleme ile bu süreç kullanıcıdan alınan girdiyi anlayarak ona uygun çözümler sunmayı amaçlamaktadır.
Çeviri
Günümüzde binlerce dil bulunmakta ve farklı diller arasında iletişim büyük bir sorun teşkil etmektedir.
Çeviri yapan kişilerin iki dili ve konuşulan konuyu bilmesi gerekmektedir. Bilgisayarlı çeviri için
Aynı dil ailesi ve farklı dil ailesinden olan dillere göre çeviri yöntemi değişiklik göstermektedir. Bu yöntemler kural temelli ve istatiksel temelli olmak üzere ikiye ayrılır. Kural temelli çeviride her iki dilin dil bilgisi bilgisayara öğretilir ve çeviri sözlüğü bilgisayara yüklenir. İstatiksel çeviride çevirmenler tarafından oluşturulan metinler bilgisayara yüklenerek cümlelerin karşılığı bulunmaya çalışılır.
DOĞAL DIL İŞLEMEDE KARŞILAŞILAN ZORLUKLAR
Kuralsız ve Anlaşılamaz Konuşmalar
Her dilin düzenli ve kurallara uygun konuşulduğu bir biçim vardır. Bu biçime ‘’ölçünlü dil’’ denir. Konuşma anlama ve yazıya geçirme sürecindeki kişiler dilin bu biçiminde çalışır. Gündelik hayatta dilin yörelere göre kullanım biçimleri değişiklik gösterir. Bunlarla ilgili bazı örnekler şöyledir.
-- Napıyon? = ne yapıyorsun?
-- Gelcen mi? = gelecek misin?
-- Bögün nassın? = bugün nasılsın?
Konuşma tek taraflı ya da karşılıklı olabilir. Karşılıklı konuşmada, konuşmanın kime ait olduğunu anlama sorununu oluşturur. Konuşma anlamada diğer sorunlar ortam kaynaklı gürültünün konuşmadan ayırt edilmesi ve uzun konuşmalardan kaynaklı konunun anlaşılamamasıdır.
Kuralsız ve Bozuk Yazılar
Yazılı metinlerin anlaşılması ve işlenmesinden önce metinlerdeki yanlışların düzeltilmesi gerekir. Bu yanlışlar dil bilgisi kurallarına uymama, noktalama işareti yanlışı, optik tarayıcı kaynaklı yanlış okuma, kısaltma kullanımı, günlük ve yöresel dil gibi birçok nedenden kaynaklanabilir. Bunlarla ilgili bazı örnekler şunlardır.
-- kelbek
-- kelabek
-- keleebek
Konuşmayı ve Metni Dilimleme
Gündelik konuşmalarda ve zaman zaman cümlelerin nerede başlayıp bittiğinin anlaşılamaması, konuşmacıların bir cümleyi bitirmeden öbürüne başlaması sorun oluşturabilir.
Sözcük Niteliklerinde Belirsizlik
Doğal dil işleme sürecince sözcüklerin niteliklerinin belirlenerek etiketlenmesi önem taşır. Bilgisayarla gerçekleştirilen bu süreçte kelimelerin her dilde birden fazla niteliğinin olması, bitişken dillerde dile gelen ekler kelimenin niteliğini ve anlamını değiştirmesi, kelimelerin birden fazla anlamı olması zorluk oluşturur.
Anlam Belirsizliği
Tüm dillerde olan anlamları farklı ama yazılışları aynı olan kelimeler doğal dil işlemede anlam belirsizliğine neden olabilir. Bu kelimeler zaman zaman çevirmenler tarafından da karıştırılmaktadır. Bununla ilgili Fransız yapımı orijinal adı ‘’Mon Oncle’’ olan film Türkçeye ‘’Amcam’’ olarak yanlış çevrilmiştir. Fransızcada ‘’oncle’’ kelimesi amca, dayı anlamına gelirken Türkçede bunları karşılayan kelimeler ayrıdır.
Söz Dizimsel Belirsizlik
Konuşma dilleri programlama dilleri kadar kesin anlam ifade etmezler. Bu dillerin farklı dizilmesi bazen farklı anlamlar ifade ederken bazen aynı anlama gelirler. Oluşan bu durum doğal dil işleme sürecinde zorluk oluşturur.
Bu zorluklara örnek olarak şu cümleler verilebilir.
-- Asu yemeği acı olduğu için yemedi.
-- Asu yemeği tok olduğu için yemedi.
Erişim Tarihi: 1 Şubat 2023
Erişim Tarihi: 1 Şubat 2023
Erişim Tarihi: 2 Şubat 2023
Doğal Dil İşleme Şadi Evren Şeker, Erişim Tarihi: 1 Şubat 2023
Erişim Tarihi: 1 Şubat 2023
Erişim Tarihi 1 Şubat 2023
Kaynakça
Erişim Tarihi: 1 Şubat 2023
Doğal Dil İşleme Eşref Adalı, Erişim Tarihi: 5 Şubat 2023
Türkçe Doğal Dil İşleme Kemal Oflazer, Erişim Tarihi: 5 Şubat 2023