Ben Kimim?
Enes Mahmut KULAK
(Proje Lideri ve Yazılımcı)
Problem
Görme engelliler dışarıda birçok tehlike ile karşılaşıyorlar. Onlara etrafı tasvir eden, yol gösteren ve tehlikelerden koruyan bir kişiye ihtiyaç duyuyorlar ama o kişi her zaman yanlarında olamayabiliyor.
Çözüm
Bu sorunu çözmek için görme engellilere yol gösteren ve onları tehlikelere karşı uyaran bir yapay zeka sistemi geliştirildi.
Bu projede amaç, yapay zekanın resimlerden metinsel tasvirler oluşturması ve o metinlere bakarak kullanıcının risk skorunun hesaplanması.
Projenin Genel Açıklaması
Model bir resim alır ve kendi içinde onu işleyip metne dönüştürür.
Bir kız doğum günü pastasında mumları üfler.
Sörf yapan bir adam.
Bir grup otobüs, bir otoparkta park edildi.
Teknik Çalışmalar
Veri Elde Edilmesi ve İşlenmesi
•Resim ve metinler
wikipedia sayfasından
alındı.
•Toplam Wikipedia’daki Türkçe veri sayısı:272,821
Veri Temizleme
Wikipedia Verisetinden Örnekler
2008'de Irak üzerinde uçan
Amerika Birleşik Devletleri
Hava Kuvvetlerine ait bir F-16C
Fotoğraf makinesi
New York
Tasvir Et Veriseti
Türkçe MSCOCO Veriseti
Resim Sayısı 8,091
Metin Sayısı:16,182
Resim Sayısı 82,892
Metin Sayısı:414,460
Model Oluşturulması
Modeli oluşturmak için CLIP ve GPT2 modelleri birleştirildi.
CLIP
GPT-2
[1,512]
CLIP modeli
CLIP, OpenAI tarafından 400 milyon veri ile eğilmiş encoder modelidir.
N=512
GPT-2 modeli
GPT-2, OpenAI tarafından oluşturulmuş bir dil modelidir.
Sonuçlar
M1:Mavi gömlekli bir adam bir köpekle konuşuyor.
M2:Köpeği ile konuşan bir adam.
M1:Model1(Yaklaşık 10 saat eğitilen model)
M2:Model2(Yaklaşık 6 saat eğitilen model)
M1:Bir grup kuş, bir ağaç dalında tünemiş.
M2:Bir grup kuş, bir ağaç dalının üzerine tünemiş.
Sonuçlar
M1:İki genç erkek bir resim poz veriyor.
M2:İki çocuk kameraya gülümseyerek poz veriyorlar.
M1:Model1(Yaklaşık 10 saat eğitilen model)
M2:Model2(Yaklaşık 6 saat eğitilen model)
M1:Çimlerin altında duran bir yavru kedi.
M2:Yeşil gözlü bir yavru kedi yavrusu.
Modelin Geliştirebilir Yanları
1-) Modele daha çeşitli veriler vermek.
2-) Kelime skoruna bakıp modelin emin olmadığı kelimeleri tespit etmek ve kullanıcıyı uyarmak.
3-) Modeli daha uzun süreler eğitmek.
4-) GPT-2 Large gibi modellerle parametre sayısını büyültmek.
Demo Gösterimi
Ne Görüyorsun Video Tasviri
Resimleri tasvir edebilen modeli kullanarak tam zamanlı görüntü tasviri de mümkün. Bunu yapabilmek için her 5 saniyede bir fotoğraf alınıp modele veriliyor ve elde edilen sonuçlar sesli olarak kullanıcıya aktarılıyor.
NOT:Oluşturulan cümleler tamamen eğittiğim yapay zeka tarafından elde edildi. Projenin işlevselliğini ortaya çıkarmak için ses sonradan eklenmiştir. Bunu Google Text to Speech ile yapmak mümkün.
Tehlike Skorunun Hesaplanması
Tasvir edilen cümleler alındıktan sonra her bir cümlenin tehlike skoru hesaplanıyor. Bu sayede kullanıcıya belli bir skorun üstündeyse haber veriliyor.
Hesaplama Adımları:
Tehlike Skoru Uygulaması
Model Sonucu:
Çitlerle çevrili bir bahçede
yürümekte olan bir köpek.
Tehlike Skoru:2.689
Model Sonucu:
Kaldırımda yürüyen bir grup insan.
Tehlike Skoru:0.627
Proje İş Akışı
Gelecek Hedefler
BENİ DİNLEDİĞİNİZ İÇİN TEŞEKKÜR EDERİM
Proje hâla geliştirme aşamasındadır.
Projenin Github linki: https://github.com/enes3774/NeGoruyorsun
Elde Ettiğim Wikipedia İmage-text dataset linki:
https://drive.google.com/file/d/1NA1w-nA1wsoOoTncgifxF0CqttxygdBL