Teknoloji
Yapay Zeka Üniversite Sınavında Yüksek Puan Elde Ediyor
Los Angeles - California Üniversitesi'nde (UCLA) görev yapan psikologların Nature Human Behavior dergisinde yayınlanan yeni bir araştırması, GPT-3 gibi geniş dil modellerinin, zor sorulara insan gibi yanıt verme yeteneği konusunda ne kadar etkili olduklarını inceledi. Araştırma, GPT-3'ün ortalama bir lise öğrencisinden daha iyi muhakeme yeteneklerine sahip olduğunu gösteriyor.
Araştırma sonuçlarına göre, GPT-3, UCLA'da öğrenim gören 40 kişilik bir öğrenci grubundan daha karmaşık standartlaştırılmış sınav sorularını daha iyi çözebildiği tespit edildi. Bu tür sınavlarda yeni sorunların çözümü için benzer sorunlardan çıkarılan çözümler kullanılması gerekmektedir.
Bilim insanları, "Sorular, aynı tür ilişkiye sahip kelime çiftlerini seçmeyi gerektiriyordu. (Örneğin, 'Sevgi' kelimesinin 'Nefret' kelimesiyle ilişkisine karşılık gelen kelime çifti nedir? Cevap: 'Zengin' kelimesi 'Fakir' kelimesiyle ilişkilidir)." şeklinde açıklama yapıyor. Başka bir benzerlik sorusunda ise kısa bir hikayeden türetilen cevaplar kullanılarak, hikayedeki bilgilerle ilgili sorular sorulmuş. Araştırma, "Analojik/çıkarımsal muhakeme olarak bilinen bu sürecin uzun süre boyunca insanlara özgü bir yetenek olduğu düşünüldü" şeklinde ifade ediliyor.
GPT-3, aslında ortalama bir lise öğrencisinin SAT puanından daha yüksek puanlar elde etmiştir. Ayrıca, GPT-3, "Raven's Progressive Matrices" olarak adlandırılan bir dizi problemle test edildiğinde, insan denekler kadar iyi bir performans sergilemiştir.
GPT-3'ün SAT'de başarılı olması şaşırtıcı değil. Önceki çalışmalarda, bu tür dil modellerinin mantıksal yeteneklerini test etmek için bazı standartlaştırılmış testleri çözmeleri istenmiş ve model bu testlerin hepsinden başarıyla geçmiştir. Görüntü işleme yeteneği eklenmiş olan GPT-4 ise daha da gelişmiş bir versiyon olarak karşımıza çıkmaktadır. Google'daki araştırmacılar, geçtiğimiz yıl, bu tür dil modellerinin mantıksal muhakeme yeteneklerini, karmaşık problemleri küçük adımlara bölen düşünce süreçleriyle geliştirebileceklerini keşfetmişlerdir.
Yapay zeka, günümüzde bilgisayar bilimcilerini, makine zekasını basit ölçütlere göre yeniden değerlendirmeye zorlamaktadır, ancak bu modeller henüz mükemmel değillerdir.
Örneğin, Riverside - California Üniversitesi'nde çalışan bir araştırma ekibinin bulgularına göre, Google ve OpenAI tarafından geliştirilen dil modelleri, sağlıkla ilgili sorulara hatalı bilgiler sunabilmektedir. Stanford ve Berkeley Üniversiteleri'nde çalışan bilim insanları da, ChatGPT'nin kod üretme veya matematik problemlerini çözme gibi konularda henüz belirgin olmayan nedenlerle yetersiz cevaplar verebileceğini belirtmişlerdir. ChatGPT, popüler ve eğlenceli bir araç olsa da, günlük kullanım için hala yeterince pratik değildir.
Ayrıca, görsel bulmacalarda ve gerçek dünya fiziksel alanlarını anlamada hala zayıf bir performans sergilemektedir. Google, bu sorunu çözmek için multimodal dil modellerini robotik sistemlerle birleştirme çabasındadır.
Bu modellerin insanlar gibi düşünüp düşünmediği veya bilişsel süreçlerinin insanlarınkine benzer olup olmadığı tartışmalı bir konudur. Ancak iyi bir test çözme yeteneğine sahip olan bir yapay zeka, genellikle insanlar gibi zeki değildir. Bu modellerin sınırları ve potansiyelleri hakkında kesin bir yargıya varmak zordur. Bunun için daha fazla iç görü ve yazılım eğitim verilerinin açıklığa kavuşturulması gerekmektedir. OpenAI'nin geniş dil modeli araştırmasını sıkı bir şekilde koruması, uzmanların temel eleştirilerinden birini oluşturmaktadır.
kaynak: popsci.com