1 of 22

DOĞAL DİL IŞLEME (NLP)

Muhammed DİNÇ

Mekatronik Müh. 2.Sınıf

200313002

2 of 22

DOĞAL DİL İŞLEME (DDİ) NEDİR?

Bilgisayar bilimi bakımından diller makine dili ve doğal dil olmak üzere ikiye ayrılır. Makine dilleri “0” ve “1”lerden oluşan makinelerin anlayabilecekleri dillerken doğal diller insanlar tarafından oluşturulan 7000’den fazla konuşma dilidir. İngilizce literatürde “Natural Language Processing” olarak geçen doğal dil işleme kullanılan doğal dilleri bilgisayarın anlamasını, yorumlamasını hatta karşılık vermesini için gerçekleştirilir.

DOĞAL DİL İŞLEMEDE AMAÇ NEDİR?

Doğal dil işlemenin amacı makine dili ve doğal diller arasında köprü kurarak insan dilini bilgisayar tarafından anlaşılır hale getirmektir. Bu sayede bilgisayarlar insanların bilgi birikimlerinden yararlanarak konuşmaları anlama, sorulara cevap verme ve diller arası çeviri gibi birçok işlemi insana ihtiyaç duymadan gerçekleştirebilir.

3 of 22

DOĞAL DİL İŞLEMENİN TARİHSEL GELİŞİMİ

1950

Computing Machinery And Intelligence Makalesi, Georgetown-IBM Deneyi

1960

Eliza ve SHRDLU Sohbet Programları, Hesaplamalı Dilbilim Derneği Kuruluşu

1970

Kavramsal Ontolojiler, PARRY Sohbet Programı

2000

Gözetimli Ve Gözetimsiz Öğrenme

1990

Dil işleme İçin Makine Öğrenmesi

1980

Kural Tabanlı Ayrıştırma, Morfoloji, Semantik, Referans Metotları

2010

2020

GPT-2 ve Etik Sorunlar

Büyük Veri, Derin Öğrenme

4 of 22

DOĞAL DiL İŞLEMENiN TARiHSEL SURECi

1950

1950 yılında Alan Turing tarafından yayınlanan “Computing Machinery Intelligence” isimli makale bilgisayarlar düşünebilir mi, insanlar karşılarında bir bilgisayar ya da insan olduğunu ayırt edebilir mi? gibi felsefi soruları ortaya atıp; insan ve insan dışı bir sistemin zihinsel yetileri arasındaki ilişkiyi ölçen Turing testini geliştirdi. Georgetown Üniversitesi Dilbilim Enstitüsü ve IBM tarafından ortaklaşa gerçekleştirilen ilk otomatik çeviri gerçekleştirildi. Bu çeviride bilgisayar olarak IBM 701 kullanılarak 60 Rusça cümle İngilizceye çevrildi.

1960

İlk sohbet programları olan Eliza ve SHRDLU geliştirildi. Bu sohbet programları sayesinde soru sorma ve basit düzeyde cevap verme işlemleri otomatikleştirilmeye çalışıldı. Kullanıcıdan aldığı soruları ona tekrar yansıtarak soruyor karşıda bir insan varmış görüntüsü vermeye çalışıyorlardı. 1964 yılında Hesaplamalı Dilbilim Derneği kuruldu.

1970

Birçok programcı gerçek hayat verilerini bilgisayarın anlayabileceği verilere dönüştürüp kavramsal antolojiler yazmaya başladı. Ayrıca bu zaman diliminde “PARRY” isimli önceki versiyonlardan daha gelişmiş bir sohbet programı geliştirildi.

5 of 22

Eliza sohbet programının psikoterapiye uyarlanmış örneği

6 of 22

1990

Dil işleme için makina öğrenmesinin ortaya çıkması ile doğal dil işleme alanında devrim yaşandı. Bu süreçte makinaların hesaplama güçleri giderek arttı ve ddi alanındaki çalışmalar sembolikten istatiksel çalışmalara yöneldi. IBM araştırma merkezi Kanada Parlamentosu ve Avrupa Birliği tarafından oluşturulan çok dilli metinsel derlemeden (textual corpera) yararlandı.

2000

WEB, dünya çapındaki ağın büyümesiyle ham ve işlenmiş veriler arttı. Bu verilerin artmasından dolayı doğal dil işleme alanındaki gözetimli(supervised) ve gözetimsiz (unsupervised) öğrenme algoritmaları çalışmalar artış gösterdi.

1980

Doğal dil işlemede kural tabanlı ayrıştırma(cümlelerdeki ögelere göre ayrıştırma ve aralarındaki ilişkileri belirleyerek ayrıştırma yöntemidir.), morfoloji(kelimelerin iç yapılarını anlama ve onları en küçük anlamlı parçaya ayırmayı amaçlar.), semantik (anlambilim), referans gibi alanlarda çalışmalar sürerken “Racter” ve “Jabberwacky” isimli sohbet programları geliştirildi.

7 of 22

2020

Önceden eğitilen BART, GPT-2, RoBERTa gibi modeller kullanıldı. Çok yönlü model çalışmaları artarak video, ses, resim gibi veriler de kullanılmaya başlandı. Artan yapay zeka kullanımından kaynaklı etik hususlarda çalışmalar arttı bunun yanı sıra doğal dil işleme hukuk, sağlık, finans gibi alanlara da uyarlanmaya başlandı.

2010

Doğal dil işleme alanında temsili öğrenme ve derin sinir ağı makine öğrenmeleri yaygınlaştı ayrıca bu dönemde daha önceden eğitilen modeller kullanılmaya başlandı. Bu süreçte Büyük verinin kullanılmasıyla daha iyi veri kümeleri eğitildi. Sesli asistan ve konuşma tanıma ve duygu analizi çalışmaları artış gösterdi.

8 of 22

Doğal dil İşlemede yapılan çalışmalar metin(text) ve konuşma(speech) olarak ikiye ayrılır.

DOĞAL DİL İŞLEMEDE ÇALIŞMA SEVİYELERİ

  • Ses Bilimi (Phonology): Sözlü dilde, anlam ayrımı oluşturan yakın ses birimlerini, dil yapısı bakımından inceleyen dil bilimi kolu.
  • Biçim Bilimi (Morphology): Biçim, yapı bilimi sözcüklerin nasıl oluştuklarını diğer sözcükle ilişkisini, kök, gövde ve ek yapılarını inceler.
  • Söz Dizimi(Syntax): Bir cümleyi oluşturan kelime türlerinin arasındaki ilişkileri inceleyen ve sınıflamalar yapan dil bilimi kolu.
  • Anlam Bilimi(Semantics): Dili anlam açısından inceleyen bilim dalı.

Dil bilimciler dilin yapısını oluşturan bu dört konuda çalışırlar. Bilişimciler bu sonuçlardan yararlanarak dili bilgisayar yardımı ile işlemeye çalışırlar.

9 of 22

DOĞAL DIL İŞLEMENIN İLGİ ALANLARI

  • Yazım Yanlışlarının Düzeltilmesi
  • Bul ve Değiştir
  • Basılı Bir Metni Okuma
  • Bir Metnin Özetini Çıkarma
  • Metnin İçerdiği Bilgiyi Çıkarma
  • Bilgiye Erişim

  • Metni Anlama
  • Metni Seslendirme
  • Konuşmayı Yazıya Dökme
  • Soru Yanıtlama
  • Çeviri

10 of 22

Yazım Yanlışının Düzeltilmesi

Eskiden cümlelerin yazım yanlışlarını düzeltmekle görevli ‘musahhih’ isimli kişiler vardı. Günümüzde bu işlem bilgisayarlarla yapılmaktadır. Bilgisayar bu işlemi yaparken kullanılan yöntemlerden biri metnin yazıldığı dilin sözlüğünü bilgisayarda bir veri tabanına yerleştirmektir. Türkçe gibi bitişken olan kurallı dillerde ses uyum kuralları, hece yapısı, eklerin uyumu da değerlendirilir.

Bul ve Değiştir

Metinlerde bir sözcüğün başka bir sözcükle değiştirilmesi uygulaması insanlar tarafından yapıldığında fazla zaman almaktadır. Bu işlemin dillere göre yapılma zorluğu değişmektedir. Bunun sebepleri arasında dile göre kelimelere gelebilecek eklerin sayısı ve değiştirildiğince gelen eklerin değişmesi etkilidir. İngilizcede isme gelen ekler sınırlıyken Türkçe gibi bitişken dillerde bu eklerin sayısı artmaktadır. Örneğin elma kelimesinin tüm versiyonlarını simit ile değiştirdiğimizde ‘’elmacının’’ yerine ‘’simitçinin’’ gelmesi gerekmektedir.

Basılı Bir Metni Okuma

Bilgisayar ortamında bulunmayan metinlerin bilgisayara aktarılması işlemine ‘’metni okuma’’ denir. Bu metinler eski dönemlerde yazılmış kitapları, belgeleri ayrıca kullanıcıların el ya da makine ile doldurduğu bilgi formlarını da kapsar. Bu bilgilerin optik yöntemlerle okunması en temel düzeyde görüntü işleme ve karakter tanıma olarak görülür. Bu işlemlerde çeşitli sebeplerden kaynaklanan yanlış okumalar doğal dil işleme teknikleri ile düzeltilebilir.

11 of 22

Bir Metnin Özetini Çıkarma

Günümüzde bilgi kaynaklarının artması ile onların özetini çıkarmakta büyük sorun oluşturmuştur. Bunun için özetleme çalışmalarında doğal dil işleme kullanılmaktadır. Bu çalışmalarda metnin öncelikle başlığının varlığı sonra içindekiler kısmı ve metinde sıkça geçen sözcükler taranmaktadır. Sonrasında anlamlı cümleler içeren özet yazılması hedeflenir.

Metnin İçerdiği Bilgiyi Çıkarma

Bazı dillerde cümleler dilbilgisinden kaynaklı kesin kurallar içerirken bu bazı dillerde oldukça esnektir. Metinlerde verilen bilgi bazen birkaç cümlede ifade edilirken bazen tüm metni kapsamaktadır. Bu gibi durumlarda metinlerde asıl konu dışındaki bilgiler ayıklanarak asıl bilgi elde edilir.

Bilgiye Erişim

İnternetin gelişimi ile artan bilgi ile bu bilgiye erişmek için anahtar sözcükler kullanılmaktadır. Anahtar sözcüklerden binlerce o konu ile alakalı, alakasız içerik ortaya çıkar. Bu içeriklerden konu ile alakalı olanı ayırma da doğal dil işlemenin alanlarındandır. Bitişken dillerden olan Türkçede göz, gözlük, gözlükçü gibi anahtar kelimeler birbirlerine yakın olduğu için bu da ayrı bir zorluk oluşturmaktadır. Bu gibi dilin biçimsel özelliklerinden kaynaklı sorunlar için ‘’anlamsal web’’ adıyla çalışmalar yürütülmektedir.

12 of 22

Metni Anlama

Doğal dil işlemenin çalışma alanlarından biri de metinden anlam çıkararak bunu eyleme dönüştürmektir.

Bu uygulama alanında amaç kısa cümlelerden kesin ve net anlamlar çıkarmaktır. Bu sayede banka, iletişim operatörleri gibi analarda kullanıcılardan gelen kısa istek ve şikayetler insana gereksinim duymaksınız çözüme kavuşturulabilir.

Metni Seslendirme

Metin seslendirme bilişim dünyasında uzun zamandır üzerine çalışılan bir alandır. Bu alan için ses biliminin önemi oldukça fazladır. Türkçe dilinde kelimeler yazıldığı gibi okunmasına karşın yabancı ve eski kelimelerde bu durum değişiklik gösterebilir. Buna örnek ‘’kâr’’ ve ‘’kar’’ kelimelerindeki a harfinin okunuşu gösterilebilir. Metin seslendirmede önce metin sesçil abeceye dönüştürülüp sonrasında dilin vurgu özelliklerine göre seslendirilmektedir. Metin seslendirmesinde doğal sesleri ekleme ve yapay sesler üretme yöntemleri kullanılır. Metin seslendirmesinin kullanım alanlarından birkaçı ulaşım araçlarında durak uyarı sistemleri, sesli kitaplardır.

13 of 22

Konuşmayı Yazıya Dökme

İnsan ağzından çıkan sesler mikrofon ile elektriksel sinyale dönüştürülür. Bu elektriksel sinyallerin işlenerek metne dönüştürülmesi doğal dil işlemenin çalışma alanlarından biridir. Burada amaç sadece konuşmayı yazıya dökmek değil ayrıca ondan anlam çıkarılmasını sağlamaktır. Konuşmayı yazıya dökme toplantı tutanağı hazırlama, konuşmacının konuşmasını yazıya dökme ve robotlara verilen kısa emirlerde kullanılabilir.

Soru Yanıtlama

Kullanıcıların ihtiyaç ve isteklerini karşılamaya yönelik kurulmuş çağrı merkezleri maddi anlamda firmalara büyük çapta yük oluşturmaktadır. Bu alanlarda yapılan çalışmaların bilgisayarlar aracılığıyla sağlanmasında doğal dil işleme devreye girer. Günümüzde kullanılan araçlar önceden kaydedilmiş soru-cevaplar ya da gerçek insanlar tarafından idare edilmektedir. Doğal dil işleme ile bu süreç kullanıcıdan alınan girdiyi anlayarak ona uygun çözümler sunmayı amaçlamaktadır.

14 of 22

Çeviri

Günümüzde binlerce dil bulunmakta ve farklı diller arasında iletişim büyük bir sorun teşkil etmektedir.

Çeviri yapan kişilerin iki dili ve konuşulan konuyu bilmesi gerekmektedir. Bilgisayarlı çeviri için

Aynı dil ailesi ve farklı dil ailesinden olan dillere göre çeviri yöntemi değişiklik göstermektedir. Bu yöntemler kural temelli ve istatiksel temelli olmak üzere ikiye ayrılır. Kural temelli çeviride her iki dilin dil bilgisi bilgisayara öğretilir ve çeviri sözlüğü bilgisayara yüklenir. İstatiksel çeviride çevirmenler tarafından oluşturulan metinler bilgisayara yüklenerek cümlelerin karşılığı bulunmaya çalışılır.

15 of 22

DOĞAL DIL İŞLEMEDE KARŞILAŞILAN ZORLUKLAR

Kuralsız ve Anlaşılamaz Konuşmalar

Her dilin düzenli ve kurallara uygun konuşulduğu bir biçim vardır. Bu biçime ‘’ölçünlü dil’’ denir. Konuşma anlama ve yazıya geçirme sürecindeki kişiler dilin bu biçiminde çalışır. Gündelik hayatta dilin yörelere göre kullanım biçimleri değişiklik gösterir. Bunlarla ilgili bazı örnekler şöyledir.

-- Napıyon? = ne yapıyorsun?

-- Gelcen mi? = gelecek misin?

-- Bögün nassın? = bugün nasılsın?

Konuşma tek taraflı ya da karşılıklı olabilir. Karşılıklı konuşmada, konuşmanın kime ait olduğunu anlama sorununu oluşturur. Konuşma anlamada diğer sorunlar ortam kaynaklı gürültünün konuşmadan ayırt edilmesi ve uzun konuşmalardan kaynaklı konunun anlaşılamamasıdır.

16 of 22

  • Türkçe’nin sesçil bir dil olmasından dolayı ölçünlü dil dışı kullanımlar yazıya döküldüğünde önemli bir sorun teşkil etmez. Sesçil olmayan dillerde kural dışı ve aksanlı söyleyiş biçimleri için ayrı bir yazım kuralı oluşturmak gerekir.
  • Bilgisayarlı yanıtlama sistemlerinde kullanıcılara kesin cevap verebileceği sorular sorulur.
  • Sesle telefon numarası çevirme ve hastaya konulan tanının söylenmesi gibi sistemlerde bilgisayar tarafından beklenen söz öbeklerini ona öğretilir.
  • Robot sistemlerinde robotun anlayacağı belirli sözcükler kullanılır.
  • Gürültüyü konuşmadan ayırt etmede gürültünün ses genliği genliğinin küçük olması durumunda ayırt edilebilir. Bu genliğin büyük olması ayrıştırmayı olanaksız hale getirebilir.
  • Konuşmada harmoniklerin genliği insandan insana fark gösterir bu özellik sayesinde konuşanın kim olduğu ayırt edilebilir.
  • Konuşmada metnin kısa tutulması konunun anlaşılmasını kolaylaştırır.

17 of 22

  • Yazım yanlışlarının düzeltilmesi için önce sözcüklerin doğru yazılmış olup olmadığı denetlenir. Düzeltme sürecinde yanlış yazılan sözcüğe benzer sözcükler bulma, harf sırası ya da eksik harf araştırması, dil kurallı bir dil ailesindense kurallara göre düzeltme yapılır.
  • Benzetme yöntemi ile ‘’kelebek’’ kelimesine benzeyen yazım yanlışları düzeltilebilir.
  • Liman ve limon kelimelerinin benzerlik oranları aynı olmakla birlikte kelimeler arasında ilişki yoktur. Bu durumda benzetme yöntemi kullanılamaz.

Kuralsız ve Bozuk Yazılar

Yazılı metinlerin anlaşılması ve işlenmesinden önce metinlerdeki yanlışların düzeltilmesi gerekir. Bu yanlışlar dil bilgisi kurallarına uymama, noktalama işareti yanlışı, optik tarayıcı kaynaklı yanlış okuma, kısaltma kullanımı, günlük ve yöresel dil gibi birçok nedenden kaynaklanabilir. Bunlarla ilgili bazı örnekler şunlardır.

-- kelbek

-- kelabek

-- keleebek

18 of 22

  • Karşılaşılan bu zorluk konuşmacının soluk alması, ara vermesi ve dilbilgisi kurallarının yardımıyla çözümlenir.

Konuşmayı ve Metni Dilimleme

Gündelik konuşmalarda ve zaman zaman cümlelerin nerede başlayıp bittiğinin anlaşılamaması, konuşmacıların bir cümleyi bitirmeden öbürüne başlaması sorun oluşturabilir.

Sözcük Niteliklerinde Belirsizlik

Doğal dil işleme sürecince sözcüklerin niteliklerinin belirlenerek etiketlenmesi önem taşır. Bilgisayarla gerçekleştirilen bu süreçte kelimelerin her dilde birden fazla niteliğinin olması, bitişken dillerde dile gelen ekler kelimenin niteliğini ve anlamını değiştirmesi, kelimelerin birden fazla anlamı olması zorluk oluşturur.

  • Komşu yani bir önceki ve sonraki sözcüklere bakılarak istatiksel yöntemler kullanılır. Bu yöntemlere ‘’n gram’’ adı verilir. İstatiksel yöntemlerde sözcük niteliğini belirlemek için derlemlerden(koleksiyonlardan) yararlanılır.
  • Kural tabanlı karar verme yöntemleri de komşu sözcüklerden geliştirilmiştir. Bu yöntemde ikili sözcüklerden birinin niteliği biliniyorsa öbürü de bulunabilir.

19 of 22

  • Oluşan anlam belirsizliklerini gidermek için çevirilerde tek kelime yerine cümle geneline bakılarak çeviri yapılır.

Anlam Belirsizliği

Tüm dillerde olan anlamları farklı ama yazılışları aynı olan kelimeler doğal dil işlemede anlam belirsizliğine neden olabilir. Bu kelimeler zaman zaman çevirmenler tarafından da karıştırılmaktadır. Bununla ilgili Fransız yapımı orijinal adı ‘’Mon Oncle’’ olan film Türkçeye ‘’Amcam’’ olarak yanlış çevrilmiştir. Fransızcada ‘’oncle’’ kelimesi amca, dayı anlamına gelirken Türkçede bunları karşılayan kelimeler ayrıdır.

20 of 22

  • Söz diziminden kaynaklı belirsizlikler sözcüklerin birbirleriyle olan ilişkilerini anlayarak çözülür. Bu ilişkiler sözcüklerin ‘’sözcük ağacı ya da sözcük ağı’’ denilen sisteme oturtulması ile yapılır. Verilen örneklerde dizilimler aynı olmasına rağmen ‘’acılık’’ yemeğe ait bir özellik, ‘’tok olma durumu’’ canlıya yani bu cümlede Asu’ya aittir.

Söz Dizimsel Belirsizlik

Konuşma dilleri programlama dilleri kadar kesin anlam ifade etmezler. Bu dillerin farklı dizilmesi bazen farklı anlamlar ifade ederken bazen aynı anlama gelirler. Oluşan bu durum doğal dil işleme sürecinde zorluk oluşturur.

Bu zorluklara örnek olarak şu cümleler verilebilir.

-- Asu yemeği acı olduğu için yemedi.

-- Asu yemeği tok olduğu için yemedi.

21 of 22

Erişim Tarihi: 1 Şubat 2023

Erişim Tarihi: 1 Şubat 2023

Erişim Tarihi: 2 Şubat 2023

Doğal Dil İşleme Şadi Evren Şeker, Erişim Tarihi: 1 Şubat 2023

Erişim Tarihi: 1 Şubat 2023

Erişim Tarihi 1 Şubat 2023

Kaynakça

22 of 22

Erişim Tarihi: 1 Şubat 2023

Doğal Dil İşleme Eşref Adalı, Erişim Tarihi: 5 Şubat 2023

Türkçe Doğal Dil İşleme Kemal Oflazer, Erişim Tarihi: 5 Şubat 2023