1 of 23

2 of 23

Ben Kimim?

Enes Mahmut KULAK

(Proje Lideri ve Yazılımcı)

  • Bartın Fen Lisesi 10. Sınıf öğrencisiyim.
  • 2021 yılında Fen Liseleri IV. Ulusal Öğrenci Kongresinde yapay zeka projemi sundum.
  • 2022 yılında Tübitak 2204-A Lise Öğrencileri Araştırma Projeleri Yarışmasına katıldım.
  • NLP ve GAN alanında projeler yaptım.

3 of 23

Problem

Görme engelliler dışarıda birçok tehlike ile karşılaşıyorlar. Onlara etrafı tasvir eden, yol gösteren ve tehlikelerden koruyan bir kişiye ihtiyaç duyuyorlar ama o kişi her zaman yanlarında olamayabiliyor.

4 of 23

Çözüm

Bu sorunu çözmek için görme engellilere yol gösteren ve onları tehlikelere karşı uyaran bir yapay zeka sistemi geliştirildi.

Bu projede amaç, yapay zekanın resimlerden metinsel tasvirler oluşturması ve o metinlere bakarak kullanıcının risk skorunun hesaplanması.

5 of 23

Projenin Genel Açıklaması

Model bir resim alır ve kendi içinde onu işleyip metne dönüştürür.

Bir kız doğum günü pastasında mumları üfler.

Sörf yapan bir adam.

Bir grup otobüs, bir otoparkta park edildi.

6 of 23

Teknik Çalışmalar

  1. Veri Elde Edilmesi ve İşlenmesi
  2. Ne Görüyorsun Uyarı Sistemi
  3. Sonuçlar
  4. Kullanım Alanları

7 of 23

Veri Elde Edilmesi ve İşlenmesi

•Resim ve metinler

wikipedia sayfasından

alındı.

•Toplam Wikipedia’daki Türkçe veri sayısı:272,821

8 of 23

Veri Temizleme

  • Sadece Türkçe verileri al.
  • Alınan verilerde GIF,SVG gibi modeli eğitirken kullanmadığım fotoğraf türlerini at.
  • Metin-Resim çiftlerini elde et.
  • Silinen fotoğrafların url’lerini çıkar.

9 of 23

Wikipedia Verisetinden Örnekler

2008'de Irak üzerinde uçan

Amerika Birleşik Devletleri

Hava Kuvvetlerine ait bir F-16C

Fotoğraf makinesi

New York

10 of 23

Tasvir Et Veriseti

Türkçe MSCOCO Veriseti

Resim Sayısı 8,091

Metin Sayısı:16,182

Resim Sayısı 82,892

Metin Sayısı:414,460

11 of 23

Model Oluşturulması

Modeli oluşturmak için CLIP ve GPT2 modelleri birleştirildi.

CLIP

GPT-2

[1,512]

12 of 23

CLIP modeli

CLIP, OpenAI tarafından 400 milyon veri ile eğilmiş encoder modelidir.

N=512

13 of 23

GPT-2 modeli

GPT-2, OpenAI tarafından oluşturulmuş bir dil modelidir.

14 of 23

Sonuçlar

M1:Mavi gömlekli bir adam bir köpekle konuşuyor.

M2:Köpeği ile konuşan bir adam.

M1:Model1(Yaklaşık 10 saat eğitilen model)

M2:Model2(Yaklaşık 6 saat eğitilen model)

M1:Bir grup kuş, bir ağaç dalında tünemiş.

M2:Bir grup kuş, bir ağaç dalının üzerine tünemiş.

15 of 23

Sonuçlar

M1:İki genç erkek bir resim poz veriyor.

M2:İki çocuk kameraya gülümseyerek poz veriyorlar.

M1:Model1(Yaklaşık 10 saat eğitilen model)

M2:Model2(Yaklaşık 6 saat eğitilen model)

M1:Çimlerin altında duran bir yavru kedi.

M2:Yeşil gözlü bir yavru kedi yavrusu.

16 of 23

Modelin Geliştirebilir Yanları

1-) Modele daha çeşitli veriler vermek.

2-) Kelime skoruna bakıp modelin emin olmadığı kelimeleri tespit etmek ve kullanıcıyı uyarmak.

3-) Modeli daha uzun süreler eğitmek.

4-) GPT-2 Large gibi modellerle parametre sayısını büyültmek.

17 of 23

Demo Gösterimi

18 of 23

Ne Görüyorsun Video Tasviri

Resimleri tasvir edebilen modeli kullanarak tam zamanlı görüntü tasviri de mümkün. Bunu yapabilmek için her 5 saniyede bir fotoğraf alınıp modele veriliyor ve elde edilen sonuçlar sesli olarak kullanıcıya aktarılıyor.

NOT:Oluşturulan cümleler tamamen eğittiğim yapay zeka tarafından elde edildi. Projenin işlevselliğini ortaya çıkarmak için ses sonradan eklenmiştir. Bunu Google Text to Speech ile yapmak mümkün.

19 of 23

Tehlike Skorunun Hesaplanması

Tasvir edilen cümleler alındıktan sonra her bir cümlenin tehlike skoru hesaplanıyor. Bu sayede kullanıcıya belli bir skorun üstündeyse haber veriliyor.

Hesaplama Adımları:

  1. Cümleler kelimelere ayrıldı ve her bir kelimenin kökü alındı.
  2. Alınan kelime köklerinin, daha önceden verilen tehlikeli kelimelerle olan benzerliği hesaplandı. Bu sayede o kelimenin ne kadar tehlikeli olduğu öğrenildi.
  3. Elde edilen kelimelerin tehlike puanları toplanıp o cümlenin tehlike skoru hesaplandı.

20 of 23

Tehlike Skoru Uygulaması

Model Sonucu:

Çitlerle çevrili bir bahçede

yürümekte olan bir köpek.

Tehlike Skoru:2.689

Model Sonucu:

Kaldırımda yürüyen bir grup insan.

Tehlike Skoru:0.627

21 of 23

Proje İş Akışı

22 of 23

Gelecek Hedefler

  1. Modelin videoları daha iyi anlaması için frame değil birden çok frame’i aynı anda alıp değerlendiren bir encoder model kullanılması.
  2. Projenin mobil app halinde kullanılabilir olması.
  3. Giyilebilir bir teknoloji ile görme engelliler için projeyi hayata geçirmek.

23 of 23

BENİ DİNLEDİĞİNİZ İÇİN TEŞEKKÜR EDERİM

Proje hâla geliştirme aşamasındadır.

Projenin Github linki: https://github.com/enes3774/NeGoruyorsun

Elde Ettiğim Wikipedia İmage-text dataset linki:

https://drive.google.com/file/d/1NA1w-nA1wsoOoTncgifxF0CqttxygdBL