Bu yazı Hasan ERYILMAZ tarafından 11.10.2020 tarihinde Yazılım kategorisine yazıldı. Yapay Zeka İnsanlaşmaya Devam Ediyor! GPT-3 v2 Neler Yapıyor?

makale içerik

Yapay Zeka İnsanlaşmaya Devam Ediyor! GPT-3 v2 Neler Yapıyor?

 

Önce bir soru. Bu fotoğraflara bir bakın.. Bu fotoğraflarda ne görüyorsunuz? Biraz düşünün. Birazdan yeniden geleceğiz bunlara.

Ama öncelikle.

Bu zamana kadar ortaya çıkarılmış bütün Yapay Zeka modellerinin içinde kısa sürede OpenAI’ın GPT-3 modeli en coşku vericisiydi. Çok azca müdahale ile şiirler, kısa hikayeler ve şarkılar yazabiliyordu. Ve hatta bu model ile bir talebe ortaya çıkardığı bir blog ile onbinlerce kişiyi kandırmayı başarmıştı. İnsanlar harbiden bu blog’un bir insan tarafınca yazıldığını düşünmüştü. Hatta bu blog’un yaratıcısı şu şekildeki söylemişti. “Aslında yaptığım şey aşırı kolaydı”. “Ve aslolan korkulu olan da bu”.

GPT-3 ile alakalı kucak dolusu video yapıldı, izlemişsinizdir. Ne kadar inanılmaz görünse de aslen reel zeka ile karıştırılmaması ihtiyaç duyulan bir nevi programlama sihri benzer biçimde bir algoritma GPT-3. Ama bugün bunun da ötesine geçecek bir gelişmeden bahsedeceğiz.

Yine GPT-3’ün ortaya çıkarılmasında kullanılan tekniklerle oldukça daha inanılmaz bir suni zeka örneğinden. Araştırmacılara bakılırsa bu teknikler daha gelişmiş bir suni zekanın gizemini saklıyor olabilir. Çıkış noktamız da şu soru. GPT-3’te suni zeka oldukça yüksek oranda “metin” kısaca makale verisi ile eğitilmişti. Peki bu aynı algoritma hem metin bununla beraber görsellerle beslendiğinde ne olur? Bakın ne oluyor…

1975’te Bill Gates ile beraber Microsoft’u kuran adlardan önde gelen ve 2018 senesinde yaşamını kaybeden Paul Allen’ın kurmuş olduğu Allen Institute for Artificial Intelligence kısaca Allen Yapay Zeka Enstitüsünün AI2 adını verdiği yeni emek harcaması işte GPT-3’ün potansiyelini yeni bir seviyeye çıkarmayı başardı. Bu çalışmada araştırmacılar muayyen bir kalıba haiz bir cümleden görsel kurmayı başarabilen ve “görsel-dil modeli” olarak malum yeni bir makale ve görsel modeli geliştirdiler. İlk sonuçlar da size başta gösterdiğim resimlerdi. Şimdi bu biçimde baktığımızda son yıllarda karşımıza çıkan Deepfake modelleri benzer biçimde “hiper-realist” görünmeyebilir ama sunmuş olduğu potansiyel inanın deepfake’ten bile oldukça daha derin. Çünkü bu model bizlere oldukça daha parlak zeka bir suni zeka ile beraber oldukça daha zeki robotlar sunabilir.

Gelin dilerseniz bu modelin detaylarına bir bakalım. 

Gpt-3 modeli “transformer” olarak malum bir grubun bir parçasıdır aslen ve bu modelin de popüler olmasını elde eden Google’ın BERT ismini verdiği modeldir.

2019 senesinde Google Arama Motoruna entegre edilen bu modelden özetlemek gerekirse anlatmak gerekirse.

BERT aslen İngilizce açılımının bir kısaltması: “Bidirectional Encoder Representations from Transformers”. Türkçe olarak anlatım edersek: “İki yönlü transformatör kodlayıcı gösterimi” diyebiliriz. Daha anlaşılır bir ifadeyle, organik dili yakalayabilen (günlük konferans dilimiz benzer biçimde düşünebilirsiniz) bir sistemden bahsediyoruz!

Her türlü içeriğin bir tür konteksti, kısaca teması vardır. O içeriğin hangi mevzudan bahsettiğini, bu bağlam üstünden anlarız. İşte BERT güncellemesi de, bu işi, artık tıpkı bir insan zihni benzer biçimde yapabildiğini iddia ediyor.

Şimdi Google’ın bütün kullanıcılar için oldukça daha ilgili sonuçlar sunmaya yönelik sunmuş olduğu bu model makine öğrenmesinin dil öğrenimini bir üst seviyeye çıkarmıştır. Daha ilkin cümleleri otomatik tamamlama benzer biçimde  rahat tahmine dayalı dil modelleri uzun ve mantıklı cümle kurmaya vardığında sınıfta kalıyordu. İşte BERT bunu değiştirecekti.

Bunu da “maskeleme” ismi verdiğimiz yeni bir teknikle yapıyordu. Yani okulda sınavlarda veya alıştırmalarda gördüğünüz “boşluk doldurma” sorularına oldukça benzer bir teknikle. Modele mesela bir cümle veriyor ve cümlede bir kelimeyi boş bırakıyordu ve modelden bu boşluğu doldurması isteniyordu.

Bu biçimde milyonlarca suali cevapladıktan sonrasında model bir müddet sonra kelimelerin cümleye ve cümlelerin de paragraflara iyi mi dönüştüğüne dair mantığı kavramaya başlayacaktı. Ve netice olarak GPT-3 örneğinde gördüğümüz benzer biçimde insandan ayırt edilemez metinler yazmaya ve üstelik yazılı metinleri anlamaya, dili çözmeye başlamıştı. Bu boşluk doldurma tekniği oldukça başarı göstermiş olunca işte araştırmacılar bu modeli “görsel-dil modellerine” de uygulamaya karar verdiler ve hem kelimeler arasındaki linke bununla beraber cümlenin bulunmuş olduğu fotoğrafa bakarak boşluğu doldurmasını istediler.

Yine normal olarak milyonlarca denemeden sonrasında suni zeka modeli kelimeler arasındaki bağlantının ötesinde kelimelerin fotoğraftaki cisimler ile arasındaki ilişkiyi de çözmeye başladı. Burası harbiden insanı korkutuyor arkadaşlar. Çünkü bu neye benziyor biliyor musunuz? Etrafınızda yeni konuşmaya başlamış olan bir bebek var ise ne demek istediğimi anlayacaksınız. Bebekler de öğrendikleri kelimelerle gördükleri nesneler arasındaki bağlantıyı kurmaya başladığında oldukça süratli öğrenmeye başlarlar. Bu model de mesela bu fotoğrafa bakarak, ancak fotoğrafa bakarak şu şekildeki söyleyebiliyor mesela “Çocuklar futbol sahasında top oynuyor”.

Bitti mi. Hayır. Mesela modele sonrasında “Fotoğraftaki topun rengi ne?” diye sorduğunuzda fotoğraftaki daire biçimindeki nesne ile top kelimesini eşleştirerek bu soruya da yanıt verebiliyor.

Tabi dahası da var ki aslına bakarsanız en can alıcı bölümü da burası.

AI2 projesindeki araştırmacılar bir noktadan sonrasında şunu öğrenmek istiyor. Bu model, bu suni zeka modeli acaba harbiden “görsel” olarak bir kabiliyet geliştirdi mi? Yani kavramsal olarak görsel bir anlayışa haiz mi?

Çünkü öğrenmekten, zekadan bahsediyorsak mesela bir çocuk ancak kelime ile nesneyi eşleştirmekle kalmaz biliyorsunuz. Belli bir noktadan sonrasında birazcık acemice de olsa bir şey söylediğinizde onu kağıda çizebilir. O vakit o kelimenin, kavramın anlamını tam olarak anladığını söyleyebilirsiniz.

Araştırmacılar da suni zekaya tam olarak bunu yaptırmak istediler. Cümlelerden bir fotoğraf çizmesini. İlk başta netice birazcık hayal kırıklığıydı. Pek anlaşılmayan “piksel” çorbası çıkmıştı ortaya.

Aslında o kadar da şaşırmadılar. Çünkü fotoğraftan anlam çıkarmak başka, bir cümleden resim çıkarma oldukça başkaydı. Çünkü bir cümle kurduğunuzda o cümle fotoğrafta bulunacak her şeyi belirtmiyor. Hangi pikselin nereye geleceğini, bunu belirlemesi oldukça zor. Örneğin “yolda yürüyen bir zürafa” çizmesini istediğinizde yolun bir okyanusun üstünde olmayacağını veya havada duramayacağını bilecek bir genel malumat birikimine haiz olması gerekiyor. Yani dünyayı hemen hemen tam olarak çözememiş bir çocuktan bahsediyoruz.

İşte bu problemi halletmek için AI2’deki araştırmanın başındaki adlardan olan Ani Kembhavi ve kadrosu cümlelerdeki boşlukları doldurma yaklaşımını görsellere uygulamaya karar veriyor. Yani alakalı fotoğrafa bakarak cümledeki kelimeleri tahmin etmesini istemenin yanında alakalı cümlelere bakarak fotoğraflarda boş bırakılan pikselleri de tahmin edecek biçimde eğitmeye başıyorlar.

Yine milyonlarca yeniden ondan sonra en başta gördüğümüz resimler ortaya çıkıyor.

Algoritmanın bu resimleri ortaya çıkardığı cümleler ise şöyleydi.

Bir şehrin ortasında büyük bir saat kulesi.

Bilgisayar ekranları bulunan bir ev ofisinin tam görüntüsü.

Bisiklet devam eden insanlar.

Düz bir tepede kayak oluşturmaya çalışan kadın.

Bir koltukta oturarak video oyunu oynayan iki kişi.

Yolda yürüyen bir ayı.

Çok realist görünmese de işin mantığını çözmeye başlamış bir çocuk var karşımızda. Bir çocuğun insanı resmederken çöp erkek çizmesi benzer biçimde.

Yani görsel-dil modellerinin bu tip “görsel oluşturma” kabiliyetini göstermesi suni zeka araştırmalarında yepyeni bir kapı açıyor. Modellerin muayyen bir “soyut kavram” idrak seviyesine ulaştığını ve dünyayı anlamak adına temel bir kabiliyet geliştirmeye başladığını gösteriyor.

İleride bu emek vermeyi yürüten takım daha kaliteli görselleri kurmak ve daha çok konu, nesne ve ödat kullanarak modelin görsel kabiliyetlerini ve kelime haznesini geliştirmek istiyor.

Bunun gelecek açısından barındırdığı en temel potansiyel bilhassa robotik açısından olacaktır. Bir robot görsel olarak çevresini idrak etme ve gördükleri ile alakalı dil kullanarak malumat aktarımını ne kadar iyi yapabilirse o denli karmaşa işlerin altından kalkabilir. Kısa vadede ise “black box” ismi verilen kısaca özetlemek gerekirse bizim girdilerden ve işlemlerden o kadar da haberimizin olmadığı, makinelerin iyi mi öğrendiğine dair o kadar da fikrimizin bulunmadığı kara kutu Yapay Zeka modellerinin iyi mi öğrendiği mevzusunda bizlere birtakım avantajlar sağlayabilir. Yapay zekanın dünyayı ele geçirmesini istemiyorsak bunu öğrensek iyi olur harbiden. İsterseniz bu kara kutu suni zeka modellerini ayrı bir yazıda konuşalım. Ne dersiniz?

Bu arada bu modeli siz de deneyebilirsiniz. Açıklamada verdiğim linkten şu an için kısıtlı olan “ortam” seçeneklerinden birini seçtikten sonrasında İngilizce bir cümle yazarak oluşturduğu resimlere siz de bir göz atabilirsiniz.

Sonuçları da yorumlarda paylaşın.

 

Belirttiğim Site:

https://vision-explorer.allenai.org/text_to_image_generation

Kaynaklar:

These weird, unsettling photos show that AI is getting smarter | MIT Technology Review

https://allenai.org/

 

Anahtar Kelimeler : Önce,bir,soru.,Bu,fotoğraflara,bir,bakın...