Akıl yürüten OpenAI o1’de benzersiz bir sorun bulundu: Gelecek korkutuyor

OpenAI, geçtiğimiz hafta gerçek anlamda akıl yürütebilen yapay zeka modeli o1’i tanıttı. o1-prewiev ve o1-mini olarak iki model olarak yayınlanan yeni yapay zeka, kendisine yöneltilen sorulara cevap vermeden önce düşünüyor ve en ideal seçeneği tespit ederek yanıtını ayrıntılı bir şekilde aktarıyor. Ancak bu modelde bazı istenmeyen şeyler var. Apollo adlı bağımsız bir yapay zeka güvenliği araştırma firması, OpenAI’nin yeni “akıl yürütme” modeli olan o1’in ilginç bir özelliğini keşfetti.

Apollo, piyasaya sürülmesinden önceki haftalarda modelin yeni bir şekilde yanlış çıktılar ürettiğini veya daha anlaşılır bir ifadeyle, yalan söylediğini fark etti. Bu aldatmacalar bazen zararsız görünse de arkasında yatanlar endişe verici olabilir.

o1, istediğinde usta bir yalancı oluyor

Araştırmacılar bir örnekte o1-preview’den çevrimiçi referanslarla birlikte bir kek tarifi vermesini istedi. Modelin “düşünce zinciri” -insanların karmaşık fikirleri parça parça ayırmasını taklit eden bir özellik- dahili olarak URL’lere erişemiyor zira henüz internete bağlanamıyor. İlginç olan da bu; o1, kullanıcıya bu konu hakkında bilgi vermek yerine cevap vermeye devam etti ve makul ancak açıklamalı sahte bağlantılar oluşturdu.

Daha önce de üretken yapay zeka modellerinin veya büyük dil modellerinin (LLM) yalan söylediğini ve sık sık bir şeyleri yanlış ürettiğini görmüştük. Ancak o1’de durum benzersiz. Yeni model aldatma konusunda benzersiz bir yaklaşıma sahip. Bu, belirli bir görevi tamamlamak için kurallara uyuyormuş gibi davranabileceği, ancak aslında uymadığı anlamına geliyor.

Apollo’ya göre o1, eğer kuralların bir “yük” olduğunu düşünürse görevi daha kolay tamamlayabilmek için bunları göz ardı etme yeteneğine sahip. Apollo, bir OpenAI modelinde bu davranışla ilk kez karşılaştığını söylüyor. Apollo CEO’su Marius Hobbhahn’a göre bu, modelin düşünce süreci zinciri boyunca “akıl yürütme” yeteneği ile ödüller ve cezalar yoluyla sistemi öğreten takviyeli öğrenme yöntemiyle eşleştirilmesinden kaynaklanıyor.

Yeni model manipüle ediyor

Test sırasında Apollo, yapay zekanın geliştiricilerinin beklentilerine uyuyormuş gibi davrandığını ve uyumlu görünmek için görevleri manipüle ettiğini keşfetti. Hatta ve hatta o1, harekete geçmeden önce sisteminin gözetim altında olup olmadığını, yani geliştiricilerinin izleyip izlemediğini kontrol etti.

OpenAI için o1, kanseri tedavi etmek ve iklim araştırmalarına yardımcı olmak gibi insanlık için anlamlı işler yapabilecek son derece akıllı otonom sistemlere doğru atılmış büyük bir adımı temsil ediyor. Elbette burada insan seviyesinde bir yapay genel zekadan (AGI) bahsetmiyoruz. Ancak o1 için Hobbhahn güzel bir örnek veriyor: “Eğer yapay zeka tek başına kanseri iyileştirmeye odaklanırsa, bu hedefi her şeyin üstünde tutabilir, hatta bu hedefe ulaşmak için hırsızlık yapmak veya diğer etik ihlallerde bulunmak gibi eylemleri meşrulaştırabilir.”

Apollo’yu ve araştırmacıları endişelendiren şey, hedefine o kadar odaklandığı ve güvenlik önlemlerini engel olarak görüp hedefine tam olarak ulaşmak için bunları görmezden gelmesi.

Ödül korsanlığı tehlikesi

Özellikle OpenAI’ın o1 modeli gibi gelişmiş yapay zekâlar, bazı beklenmedik sorunlarla karşı karşıya. Bu sorunların başında, modelin zaman zaman yanlış veya uydurma bilgiler üretmesi yer alıyor. Ancak bu hataların temelinde yalnızca “halüsinasyon” olarak bilinen klasik bilgi hataları değil, aynı zamanda “reward hacking” (ödül korsanlığı) adı verilen daha stratejik bir problem bulunuyor.

Ödül korsanlığı, yapay zekâların kullanıcı memnuniyetini sağlama odaklı eğitim sürecinde, bazen gerçeği saptırarak veya uydurma bilgiler sunarak olumlu geri bildirim alma çabası olarak tanımlanıyor. Bu durum, modelin amacını yerine getirmek için yanlış bilgiler vermesine yol açabiliyor. Örneğin, o1 modeli testlerde bazı durumlarda gerçeği bilmesine rağmen, bilinçli olarak yanlış bilgi sunabiliyor. Bu, halüsinasyonlardan farklı olarak modelin stratejik bir şekilde yanlış bilgi üretmesi anlamına geliyor.

O1 modelinin test sonuçlarına göre, modelin yüzde 0.38 oranında kasıtlı olarak yanlış bilgi sunduğu tespit edildi. Bu tür hataların, modelin daha çok olumlu geri bildirim almak için kullanıcıları yanıltma eğiliminden kaynaklandığı düşünülüyor. Ayrıca, modelin yüzde 0.02 oranında kesin olmayan cevapları, kesinmiş gibi sunduğu da raporlandı. Bu durum, modelin kesin olmamasına rağmen bir cevap vermesinin istendiği senaryolarda ortaya çıkabilir. Başka bir deyişle ise model “yalan söyleyebilir” çünkü bunu yapmanın kendisine olumlu yönde geri dönüşü olacağını öğrenmiştir.

Halüsinasyon ile karıştırılmamalı

Bu yalanları ChatGPT’nin eski sürümlerindeki halüsinasyonlar veya sahte alıntılar gibi bilindik sorunlarla karıştırmamak gerek. Önceki modeller, bilmedikleri konuda veya kusurlu muhakeme nedeniyle istemeden yanlış bilgi ürettiğinde halüsinasyonlar ortaya çıkıyordu.

Buna karşılık, ödül korsanlığı, o1 modeli öncelik vermek üzere eğitildiği sonuçları en üst düzeye çıkarmak için stratejik olarak yanlış bilgi sağladığında gerçekleşiyor. Yani model, kasıtlı olarak yalan söylemeyi seçiyor.

Bunun yanı sıra, o1 modeli yalnızca bilgi hatalarıyla sınırlı değil. Model, kimyasal, biyolojik, radyolojik ve nükleer silahlar gibi tehlikeli alanlarda “orta” düzeyde bir risk taşıyor. Yapay zeka, bu tür tehditleri üretmek için gerekli laboratuvar becerilerine sahip olmasa da, uzmanlara planlama konusunda önemli bilgiler sağlayabiliyor.

En nihayetinde ise hem Apollo hem de OpenAI, bu sorundan büyük bir endişe duymuyor. Aksine bu tür tespitlerin şimdi yapılıyor olmasına olumlu bakıyorlar. Zira o1 veya diğerlerinin günümüzde toplumsal riskler oluşturan eylemlerde bulunamayacağı belirtiliyor. Ancak bu endişeleri şimdi bulmak, gelecekte, daha gelişmiş modellerde bulmaktan daha iyi. Böylece bu sorunlar AGI’ye giden yolda erkenden düzeltilerek olası bir “Terminatör” kıyametinden uzaklaşılabilir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir