Çoğu senaryoda insan seviyesinde performans
Microsoft araştırmacıları yapmış oldukları testlerde GPT-4’ün erken sürümünü kullandıklarını belirtiyor. Ekip, GPT-4’ün önceki nesilde eksik olan bir dizi kategoride insan seviyesine yakın performans elde ettiğini vurguluyor. Bu kategoriler matematik, kodlama, görüş, tıp, hukuk ve psikoloji gibi alanları içeriyor. Makaleye göre, ChatGPT (GPT-4) ayrıca çeşitli sınavlarda (Baro, LSAT vb.) olağanüstü bir performans göstererek ilk yüzde 10’luk dilimde yer aldı. GPT-3.5 modelinin aynı testlerde ya zar zor geçer not aldığı ya da en kötü yüzde 10’luk dilimde olduğu belirtiliyor.
“GPT-4’ün yeteneklerinin genişliği ve derinliği göz önüne alındığında bunun makul bir şekilde bir yapay genel zeka (AGI) sisteminin erken bir versiyonu olarak görülebileceğine inanıyoruz.” ifadelerinin kullanıldığı araştırmada Kasım 2022’de çıkan GPT-3.5’e göre sadece birkaç ayda her alanda kaydedilen bu üstel büyümeye dikkat çekiliyor. Ancak makalede eksikliklere de fazlasıyla değiniliyor.
Bilinçli yapay zekaya daha var
Yine de araştırmacılar makalede, GPT-4’ün “birçok görev için insan seviyesinde veya ötesinde” olmasına rağmen, kesinlikle “insan benzeri olmadığını” kabul ediyorlar. Yani GPT-4, üstün olduğu zamanlarda bile hala tam olarak bir insan gibi düşünmüyor. Öte yandan daha farklı alanlardaki uzmanlar 2030’lu yıllarda AGI’lere ulaşacağımızı düşünüyor.
Bilim insanları, yapay zeka sisteminin bilinçli olduğunda ve tıpkı bir insan gibi düşündüğünde AGI’ye ulaşıldığı konusunda hemfikir olsa da tüm çevreler tarafından kabul edilen bir AGI tanımı henüz yapılmış değil. Dolayısıyla GPT-4’ün bazı alanlarda insan seviyesinde veya daha iyi performans göstermesi AGI’ye doğru atılmış bir adım olarak ele alınabilir.