ÇİN ODASINDAKİ AHTAPOT: BÜYÜK DİL MODELLERİNDE ANLAM İLLÜZYONU


Yasin Taşdemir*, Sedat Gençer**
Yapay zekâ ve dil modelleri tartışılırken gerek popüler içeriklerde olsun gerek daha akademik içeriklerde olsun, bu araçları “anlayan”, “anlama sahip”, “kavrayan” gibi özellikler ile nitelemenin âdeta bir rutin hâline geldiğini görmekteyiz. Bahsedilen özellikleri bu sistemlere atfetmek o kadar yaygınlaştı ki bunu yaparken bu kavramların ne anlama geldiklerini düşünmeden, rahatça sarf eder olduk. Bugün bu türden sistemlerin hepimizi şaşırtacak derecede birçok işte üstün başarılar göstereceği doğrudur. Herhangi bir soru sorduğunuzda sizi “anlar” gibi metinler oluşturup, hatta bu metinleri “konuştuğuna” şahit olmaya başladık. Fakat bunun ciddi ve abartılı bir heyecan dalgası olduğunu ve bu sistemleri tasvir ederken kullandığımız söz konusu ifadelerin de bu durumu hem büyüttüğünü hem de karşı karşıya olduğumuz karışıklığı derinleştirdiği fikrindeyiz[1]. Peki bu kullanımlarımız meşru mu? Bu kavramları kullanırken bir tür “antropomorfizm” yapmakta mıyız? Bunlar düşündüğümüz ve düşünülmesinin gerekli olduğunu ileri sürdüğümüz sorulardır.
Bu soruya cevap vermek için önce soruşturduğumuz sistemlerin “ne cinsten” sistemler olduğunu anlamanın da elzem olduğu fikrindeyiz. Özellikle ChatGPT, Claude, DeepSeek, Gemini benzerlerinin sıkça kullanıldığı, farklı modelleri ve türevleriyle beraber onlarca farklı Büyük Dil Modellerinden (Large Language Models) bahsetmekteyiz. İlerleyen kısımlarda da iddia edeceğimiz üzere, bu Büyük Dil Modellerinin, “kavramlara”, “niyete” ve “deneyime” sahip olmadığı kanaatindeyiz. Aksine, dil modelleri insanlar tarafından üretilmiş metinlerle eğitilen ve istatistiksel sistemlerle bir sonraki sözcüğü[2] tahmin etmeye dayalı bir tür “mekanik araçlardır”. Bu sebeple dil modeline bir şey sorduğumuzda aslında gerçekleşen şey düşünme, kavrama, yaratma ve anlama değil, inanılmaz bir hızla verilen metine bağlı olarak bir sonraki gelebilecek ifadeyi istatiksel olarak hesaplamadır. Bunu da makine öğrenmesi (machine-learning) denilen eğitildiği sözcükler arasındaki hangi sözcüklerin birbiri ardına ne sıklıkla geldiği benzeri örüntüleri ve dildeki düzenlilikleri matematiksel formda hesaplayabilme gücüyle başarmaktadır. Bu kısaca tarif ettiğimiz manzara dahi yukarıda bahsettiğimiz kavramları bu sistemlere atfederken bizde bir “duraklama” ve “tedirginlik” yaratmalıdır. Nitekim bir sistem sadece ona sunulan verilerden hareketle elde ettiği genellemeler ile bir sonraki sözcüğü istatistiksel olarak tahmin ediyorsa, bu sisteme oluşturduğu çıktıları “anlıyor” diyebilir miyiz? Bu sadece hangi sözcüğü kullanmamız gerektiğine dair bir “gramer” konusu değil; daha ziyade makineler, zihin ve anlama dair felsefi bir konudur.
Bu yazıda da bahsi geçen kullanımların felsefi bir gözle bakınca hâlâ meşru olup olmadığını soruşturmak niyetindeyiz. Fakat öncesinde ne tür sistemler hakkında konuştuğumuzu ve bu sonraki sözcük tahmini (next token prediction) denilen sürecin, konuyu çok fazla teknik detaya boğmadan, nasıl gerçekleştiğini kısaca açıklamaya çalışacağız. Bu anlamıyla yapmak istediğimiz işi “hesaplama yapan” hesap makineleri açıp “içini görmeye” benzetebiliriz. Ne tür sistemler hakkında konuştuğumuz ve bu sistemlerin ne yaptığını gösterdikten sonra, sormak istediğimiz sorunun ve dayandığı zeminin daha açık ve seçik bir hâle gelmesini umuyoruz.
LLM, Sonraki Token Tahmini, dikkat mekanizması üzerine
Bu amaçla öncelikle sıkça yapay zekâ diye yanlış bir şekilde adlandırılan Büyük Dil Modelleri (Large Language Models) kavramıyla başlamamız gerekmektedir (Bender vd., 2021). BDM’ler sanılanın aksine yapay zekâ değil yapay zekâyı gerçekleştirebilmek adına başvurulan yöntemlerden birini teşkil etmektedir (Bender vd., 2021). Konuyu çok dağıtmadan yapay zekâ şemsiyesi altında kabaca iki yöntemin varlığından söz edilebilir; sembolik yöntemler ve istatistiksel yöntemler. Konumuzla doğrudan ilgisi olduğu için istatistiksel yöntemlere odaklanmak yerinde olacaktır. İstatistiksel yöntemler arasında mevcut verilerin birbiriyle korelasyon içindeki özelliklerinden faydalanarak ve bu özelliklerin bir kısmını kullanarak diğer kısımlarını tahmin etmeye dayalı makine öğrenmesi algoritmaları gelmektedir. Makine öğrenmesi algoritmaları arasında Destek Vektör Makinaları (Support Vector Machines), Karar Ağaçları (Decision Trees) ve yapay sinir ağları (neural nets) sayılabilir. ChatGPT, Grok ve Gemini gibi ticari büyük dil modelleri temelde yapay sinir ağlarına dayanmaktadır (Radford vd., 2019; Brown vd., 2020).
Yapay sinir ağları, canlıların sinir sisteminden esinlenerek oluşturulmuş bir algoritma türüdür. Sinir hücrelerinde olduğu gibi yapay sinir ağlarında da nöron adı verilen birimler bulunur. Bu birimler matematiksel hesaplamaları yaparlar. Nöronlar, çalışma prensibi olarak girdileri alırlar ve diğer nöronlarla aralarındaki bağlantıların ağırlığı adı verilen katsayılarla çarparlar. Daha sonra çarpım sonuçları toplanır ve aktivasyon fonksiyonu adı verilen bir filtreden geçirilir. Daha önce de bahsedildiği gibi yapay sinir ağları sinir sisteminden esinlenilerek geliştirilmiş bir istatistiksel yöntem olduğu için, tıpkı beyin dokusunda olduğu gibi çok sayıda nöron birbirine katmanlar hâlinde bağlanmış durumdadır. Nöronların ilk katmanını girdi katmanı oluşturur. Girdi katmanından alınan girdiler gizli ara katmanlara (hidden layers) iletilir. Bu katmanlar en uçta çıktı katmanına bağlıdırlar. Bu tarz çok sayıda gizli ara katman içeren sinir ağları mimarisine derin öğrenme (deep learning) adı verilir (Bengio vd., 2003).
Derin öğrenme de yine kendi içinde farklı mimarilere sahiptir. Bunlardan biri de transformer adı verilen bir mimaridir (Vaswani vd., 2017). Büyük Dil Modellerinde bu transformer adlı mimari sıklıkla tercih edilmektedir (Kaplan vd., 2020). Transformer mimarisinin en önemli iki temel özelliği dikkat (attention) ve sonraki token tahmini (next token prediction) olarak karşımıza çıkmaktadır (Vaswani vd., 2017; Li vd., 2024).
Sonraki token tahminine daha detaylı ele almadan önce token kavramında durmak gerekmektedir. İnsan dilleri cümlelerden oluşmaktadır. Cümleler ise sözcüklerden meydana gelen yapılardır. Dolayısıyla insanların anlamlı yapılar üretme biçimi sözcükleri bir araya getirerek cümleleri meydana getirmekten ibarettir. Ancak cümle boyutuna ulaşabilmiş dilsel yapıların önerme olduğu, yani doğruluk ve yanlışlık belirtebileceği mantık alanındaki çalışmalarla da sabittir. Ne var ki insanların yaptığı gibi sözcükleri temel yapı taşı olarak kullanma stratejisi bilgisayarlara taşınmaya çalışılırsa bazı sorunlar ortaya çıkmaktadır. Türkçe gibi çekim eklerinin yaygın olarak kullanıldığı dillerde gözümüze sözcüklerin bazı alt bileşenlerden oluştuğu çarpmaktadır. Buna göre kök ve ek gibi yapılar bir araya gelerek sözcük adlı yapıyı oluşturmaktadır. Dolayısıyla Türkçe gibi dillerde temel yapı taşı olarak sözcüğü seçme stratejisi bazı karmaşık sözcüklerin üretilememesi ile sonuçlanacaktır. Bu nedenle sözcük yerine LLM’ler sözcük ya da sözcüğün daha küçük birimlerini (örn. ekler) kapsayacak şekilde şemsiye bir kavram olan token kavramını tercih etmektedirler (Li vd., 2024).
Bir örnekle açıklamak gerekirse:
Biz-im mahalle-de su-lar ___ ifadesinde en azından 6 token olduğu varsayılabilir. Bu nedenle herhangi bir LLM yukarıdaki ifadeyi tamamlamak için bu 6 tokeni tek tek inceler ve daha sonra olabilecek tokenler hakkında istatistiki sonuçlar üretir:
- Kesik (%85)
- Sıcak (%3)
- Soğuk (%1)
Ardından istatistik olarak [biz, i, m, mahalle, de, su,lar] tokenlerini en iyi tamamlayan “kesik” tokenini seçer ve ifadeyi tamamlar. Dolayısıyla bir kullanıcı büyük dil modeline bir komut girdiğinde, bu komut, yukarıdaki örnekte yer alan 6 token gibi kabul edilir ve bir sonraki token belirlenir, daha sonra bu belirlenen token de girdi havuzunun içine katılır ve daha sonraki token belirlenir ve sonuca ulaşana kadar böylece devam edilir. Bir sonraki token tahmini kabaca böyle çalışmaktadır (Brown vd., 2020). Bunun dışında token tahminlerinin tamamen mekanistik ve deterministik olmaması adına seçilen tokenlere bir rastgelelik de (temperature) eklenmektedir (Bender vd., 2021). Dikkat (attention) kavramına gelecek olursak, bir önceki kısımda anlatılan dile ilişkin bazı temel bilgilere geri dönmemiz gerekmektedir (Vaswani vd., 2017). Sözcüklerden (ya da tokenlerden) oluşan cümleler içinde bu temel yapı taşları arasındaki ilişki doğrusal ve eşit değildir. Tokenler arasında asimetrik ilişkiler bulunur. Bu asimetrik ilişkilerden biri, örneğin, özne-yüklem ilişkisidir. “Ağaçlar gündüzleri fotosentez yaparlar” ifadesinde yer alan “ağaçlar” ve “fotosentez yaparlar” ifadeleri bu türden bir ilişkidir. Aynı cümleyi “Ağaçlar gündüzleri fotosentez yaparım” şeklinde yazmaya çalıştığımızda bir uyumsuzluk olduğunu fark ederiz. Dikkatimizi çeken bu uyumsuzluk temelde bir özne-yüklem uyumsuzluğudur. Bu nedenle ikisi arasındaki ilişki cümle içindeki diğer sözcüklerden farklı bir düzeydedir. İşte bu asimetrik ilişkinin belirlenmesi amacıyla büyük dil modelleri dikkat mekanizmasını kullanır (Vaswani vd., 2017). Diğer bir deyişle, hangi tokenin diğer hangi token ya da tokenlerle ilişkili olduğunu “öğrenir”. Böylelikle devrik, eksiltili ya da anlam bulanıklığına sahip cümlelerin tokenleri arasındaki ilişkileri çözümlerler (Li vd., 2024).
Anlayabileceğimiz üzere bu sistemler, bir sözcüğü bizim temsil ettiğimiz gibi temsil etmez. Dilbilimsel olarak bir sözcük insanlar açısından biçim ve içerik olmak üzere iki kısımdan oluşmaktadır. Biçim açısından bakıldığında örneğin “kedi” sözcüğü [k,e,d,i] şeklinde 4 adet birbirini takip eden sesten meydana gelmiş bir sözcüktür. İçerik açısından bakıldığında ise bir canlı türüne karşılık gelen ve “Kediyi gördün mü?” gibi bir soruda sağımıza solumuza bakmamıza neden olan bir isimdir. Dolayısıyla, biz bir sözcük ile karşı karşıya gelince, önce onun dış dünyadaki referansını (veya daha doğru bir ifade ile onun zihnimizdeki temsilini) düşünürüz. Fakat makine için geçerli olan ise yukarıda anlatıldığı şekliyle belirli katsayılar ağı içinde hesaplanmış sayısal değerlerden başkası değildir. Daha net bir şekilde ifade etmek gerekirse, Büyük Dil Modelleri için sözcükler sadece biçimsel dizgelerdir. Verilen bir biçimsel dizge ile diğer biçimsel dizgelerin nasıl bir araya geldiği istatistiksel olarak hesaplanır ve bir sonraki sözcük (aslında token) belirlenir. Bu açıdan bir dildeki istatistiksel ilişkileri hesaplamak ve buna bağlı olarak bir sonraki sözcüğü tahmin etmek ile bir sözcüğü anlamak, onun dış dünyadaki referansı zihninde canlandırmak birbirinden tamamen ayrı iki durumdur/olgudur. Diğer bir deyişle bu durum hesaplama (computation) ile anlama (comprehension) arasındaki farkın bir başka şekilde tezahürüdür. Ek olarak, dildeki istatistiksel ilişkilerin tespitini ve dikkat kavramındaki ek-kök ilişkilerini düşündüğümüzde sistemin yaptığı ve “öğrendiği” tek şeyin biçimsel ilişkiler olduğunu; sözcüklerin semantik dünyada (veya anlam dünyasında) neye karşılık geldikleri, neyi temsil ettikleri gibi şeylerle yapılanın bir ilişkisi bulunmadığını görürüz. Bu dış dünyaya referans verememe sorunu birçok filozof tarafından farklı şekillerde dile getirilmiştir. Bu türden tartışmalarda sıkça başvurulan örneklerden biri, John Searl’un 1980 tarihli “Zihinler, Beyinler ve Programlar” (Minds, Brains, and Programs) makalesinde geçen meşhur “Çin Odası” argümanıdır (Searle, 1980). Çin Odası argümanı literatürde sıkça kullanıldığı için detaylı bir şekilde burada yer vermeyi gerekli görmüyoruz.
Onun yerine literatürde „The Symbol Grounding Problem“ denilen, „Sembol Temellendirme Sorunu“ndan bahsedebiliriz. Stevan Harnad’ın 1990’da ortaya koyduğu bu probleme göre asıl mesele, sembollerin gerçek dünyada neye ‘tutunduklarıdır’ (Harnad, 1990). Örnek vermek gerekirse, biri size sıcak dediğinde, bu ses dalgası sizde sadece bir sembolü değil; ateşin yakıcılığını, bir yaz gününde güneşin ısısını, yani dış dünyadan kaynaklanan hafıza ve duyu verileri üzerine “tutunur”. Yani semboller bizim için gerçeklikte, hayatta bir yere temellenir. Fakat bir sistem için, bir sembol ne üzerine temellenebilir? Cevap diğer sembollerdir. Bu durum bir tür kısır döngü yaratır. Anlamsız semboller diğer anlamsız semboller ve onların arasındaki matematiksel ilişkiler üzerine temellenir. Diğer bir bakışla, sistemler için hiçbir sembol gerçek hayattan bir şey üzerine “tutunamaz”. Sadece anlamsız semboller döngüleri yaratmış olur.
Bu durumu Searle’ün Çin Odası argümanı ile birleştirdiğimizde şöyle düşünebiliriz. Elimizde sadece Çince bir sözlük olduğunu varsayalım. Normalde bir sözcüğü anlamak için sözlükten o sözcüğün tanımına bakarız. Fakat o dili hiç bilmiyorsak bir döngüye düşeriz ve kapalı bir kutudan çıkamayız. Örnek olarak, Çincede ‘ev’ (家) sözcüğünü düşünelim. Bu sembol ile karşılaşınca sözlükte bu sözcüğün tanımına bakarsak şöyle bir şey ile: 家:人们居住的地方, yani yine bilmediğimiz başka sembollerle karşılaşırız. Bilmediğimiz bir sözcük için başvurduğumuz tanımdaki sözcükleri de bilmediğimiz böylesi bir durumda ne yapabiliriz? Bu, içinden çıkılmaz bir sorundur. Çünkü daha önce de ifade ettiğimiz gibi sadece biçime ve anlamsız sembollere dayanan bir sistem, biçimi aşıp sözcüklerin gerçek dünyadaki anlamlarına, yani semantik dünyaya ulaşamaz.
Bütün bu anlatılanları göz önünde bulundurduğumuzda karşımıza temelde bu sistemlerin anlamı simüle etmek için bir tür işlemlemeden (computation) faydalandıkları çıkmaktadır. Diğer bir deyişle, Büyük Dil Modelleri temelde anlama eylemini gerçekleştirmekten ziyade sözcükleri sayısal değerler gibi kabul edip bu sayısal değerler arasındaki fonksiyonları çözer ve hesaplamalarını bunun üzerine temellendirir. Ancak, insanların karşısına bu hesaplamaların sonuçlarını çıkarmak yerine insanların anlayacağı şekilde bu sayı değerlerini, onların sözcük karşılıklarıyla yer değiştirerek gösterirler. Böylece illüzyon gerçekleşmiş ve insanların girdiği sözcüklere yine sözcüklerle karşılık verilmiş olur. Özetle, Büyük Dil Modelleri olarak adlandırılan sistemler, –biraz kışkırtıcı bir şekilde ifade etmek gerekirse– çok gelişmiş ve oldukça karmaşık bir hesap makinesi gibi kabul edilebilirler.
Bu hesaplamaya dayalı algoritmadan semantik alana geçilemeyeceğini ‘ahtapot hikâyesi’ örneğinden de çarpıcı bir şekilde görebiliriz (Bender & Koller, 2020). Bender ve Koller Searle’ün 1980’de kalmış Çin Odası deneyini güncelleyerek yeni bir senaryo oluşturur. Bu senaryoya göre iki farklı adada mahsur kalmış A ve B kişisi su altından bir kablo yardımıyla mesajlaşma imkânına sahiptirler. Suyun altında yaşayan zeki bir canlı olan bir ahtapot ise bu kabloya erişim sağlar ve iki kişinin sürekli mesajlaşmasını gizlice takip eder. Bir süre sonra hangi mesajların hangi mesajlarla karşılandığını “öğrenmiş” olur. Örneğin birinin sabah “Günaydın, bugün nasılsın?” sorusuna, “Günaydın, iyiyim. Orada hava nasıl?” sorusuyla karşılık vermesi gibi istatistiksel örüntüleri hafızasına kaydeder. Ahtapot kendine güvendiği bir anda, bu kabloyu kesip B kişisinin yerine geçer ve A kişisine daha önceki mesajlaşmalardan öğrendiği şekilde mesajlar göndermeye başlar. A kişisi karşısında konuştuğu kişinin B kişisi olduğunu düşünerek bir süre daha mesajlaşmaya devam eder. Bu senaryoda kırılma şu noktada yaşanır: A kişisi adada bir ayı ile karşılaşır ve dehşet için bir mesaj atar: “Bir ayı ile karşılaştım! Elimde sadece birkaç değnek var, ne yapmalıyım?”
Büyü bu noktada bozulur. Ahtapot daha önce ayı sözcüğünü ve değnek sözcüklerinin istatistiksel örüntülerini bilse de gerçek dünyada bir ayının nasıl bir şey olduğunu, ayının ne kadar tehlikeli olduğunu ve bir değneğin fiziksel olarak nasıl kullanılacağını “bilemez”. Yani bu nesnelerin fiziksel dünyadaki karşılıklarından habersizdir. Bu sebeple ahtapot bu mesajın gerçekte “ne anlama geldiğini” bilmez ve genel geçer cevaplar verir. Böylece A kişisi durumun farkına varır ve karşısındaki kişinin gerçek bir insan olmadığını anlar (eğer ayıdan kurtulmayı başarırsa). Bu düşünce deneyi de bize sadece dildeki formlara, istatistiksel örüntülere dayanan, fakat dış dünyaya referansı olmayan sistemlerin gerçek bir anlam kavrayışına sahip olamayacağını gösterir. Karşı karşıya olduğumuz Büyük Dil Modelleri (LLM’ler) işte bu hikâyedeki ahtapottur. Bu Dil Modellerinin “büyüsüne kapılmış” A bireylerinin karşılarında gerçek bir insan olmadığını fark etmeleri için belki de bir “ayı ile karşılaşmaları” gerekiyordur. Asıl kritik soru ise şudur: Bizim hikâyemizde bu “ayı” ne olacak?
*Yasin Taşdemir, İstanbul Üniversitesi.
**Sedat Gençer , Münih Ludwig Maximilian Üniversitesi.
Kaynakça
- Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623. https://doi.org/10.1145/3442188.3445922
- Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137–1155.
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.
- Kaplan, J., McCandlish, S., Henighan, T., Brown, T., Chess, B., Child, R., … Amodei, D. (2020). Scaling laws for neural language models. arXiv:2001.08361.
- Li, Y., Huang, Y., Ildiz, M. E., Rawat, A. S., & Oymak, S. (2024, April). Mechanics of next token prediction with self-attention. In International Conference on Artificial Intelligence and Statistics (pp. 685-693). PMLR.
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Technical Report.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., … Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.
- Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 5185–5198. https://doi.org/10.18653/v1/2020.acl-main.463
- Harnad, S. (1990). The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1–3), 335–346. https://doi.org/10.1016/0167-2789(90)90087-6
- Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417–424. https://doi.org/10.1017/S0140525X00005756
[1] Bu fikre katılıyoruz da diyebiliriz. Nitekim literatürde bunu iddia eden insanlar mevcut.
[2] Hatta sözcük de değil, token denilen en küçük birimi.