Sunday, December 28, 2025

MaxEnt-IRL Bir Algoritma Değil, Bir Düşünme Disiplinidir

 

MaxEnt-IRL Bir Algoritma Değil, Bir Düşünme Disiplinidir

Maximum Entropy (MaxEnt) ilkesi, yüzeyde bir olasılık dağılımı seçme kuralı gibi görünse de, özünde güçlü bir bilme ve varsayma ahlakı taşır. Bu ahlakın temel buyruğu son derece yalındır: Bildiklerinin ötesinde hiçbir şey varsayma. Ne daha fazlasını ekle, ne de eksik olanı hayali kabullerle tamamla.

Bu ilke, belirsizlikle karşılaşıldığında insan zihninin doğal eğilimine ters düşer. Zihin boşluklardan hoşlanmaz; boşlukları hızla sezgilerle, önyargılarla ya da “makul görünen” açıklamalarla doldurur. MaxEnt yaklaşımı ise tam tersini yapar: Boşluğu doldurmak yerine onu korur. Bu koruma, rastlantısallık pahasına bile olsa, bilgisel dürüstlüğü muhafaza etmeyi hedefler.

Bu nedenle MaxEnt, “en düzgün”, “en tarafsız” ya da “en rastlantısal” dağılımı seçerken estetik bir sadelik aramaz; epistemik bir sınır çizer. Söylediği şudur: Sadece bildiklerinin zorunlu kıldığı yapıyı dayat; geri kalan her şeyi mümkün olduğunca serbest bırak.

Inverse Reinforcement Learning (IRL) bağlamında bu ilke kritik bir rol oynar. Çünkü IRL’nin problemi, görülen davranışlardan gizli bir amacı ya da ödül fonksiyonunu çıkarsamaktır. Buradaki tehlike açıktır: Gözlenen davranışı “tek doğru davranış” ilan etmek. MaxEnt-IRL bu tuzaktan bilinçli olarak kaçınır.

Bir trajektörün ödülünün

R(τ)=wϕ(τ)R(\tau) = w^\top \phi(\tau)R(τ)=wϕ(τ)

şeklinde tanımlanması, davranışı deterministik bir zorunluluk haline getirmez. Aksine, yüksek ödüllü trajektörler daha olasıdır, ama asla tek seçenek değildir. Bu fark, teknik olduğu kadar felsefidir. Uzman davranışı “zorla kopyalanacak” bir norm değil, “olasılıksal olarak açıklanacak” bir olgudur.

Bu bakış açısı, hatayı ve gürültüyü sistemin düşmanı olmaktan çıkarır. Uzman bazen yanılır, bazen farklı bir yol seçer, bazen de bağlama özgü bir tercih yapar. MaxEnt-IRL, bu sapmaları açıklanması gereken anomaliler olarak değil, dağılımın doğal bileşenleri olarak kabul eder. Böylece model, tekil örneklere aşırı bağlanmak yerine, davranış uzayının tamamını dengeli biçimde temsil eder.

Partition function (bölümleme fonksiyonu) burada yalnızca teknik bir normalizasyon terimi değildir. O, bu varsayımsızlık disiplininin matematiksel sigortasıdır. Tüm olası trajektörleri hesaba katarak, hiçbirinin keyfi biçimde dışlanmamasını garanti eder. Modelin “ben sadece şunları düşündüm” deme lüksünü elinden alır; her olasılığın bedelini ödemesini sağlar.

Bu yüzden MaxEnt-IRL’i tek satırda şöyle özetlemek mümkündür:

MaxEnt-IRL = Bildiklerim dışında hiçbir şeyi varsaymama kararlılığı.

Bu kararlılık, yalnızca makine öğrenmesi için değil, belirsizlik altında düşünmenin her alanı için örnek teşkil eder. Az bildiğinde susmayı, çok bildiğinde bile temkinli konuşmayı ve her durumda rastlantısallığa saygı duymayı öğretir. Bu yönüyle MaxEnt-IRL, bir algoritmadan ziyade, disiplinli bir düşünme biçimidir.

 

TAŞ TAŞ ÜSTÜNE




J. B. Bury, A History of Greece to the Death of Alexander the Great adlı eserinde antik dünyada “taş taş üstüne bırakılmayan” şehirleri anlatır. Thebes’in MÖ 335’te İskender tarafından yerle bir edilmesi bunun çarpıcı örneklerindendir: altı bin kişinin öldüğü kıyımın ardından şehir tamamen yıkılmıştır. Antik dünyada yıkım, tarihsel sürekliliğin sıradan bir parçasıdır.
Bu yıkım kültürünün karşısında ise Didim’deki Branşid Kahin Tapınağı durur. Ekrem Akurgal’ın aktardığı üzere tapınak MÖ 8. yüzyılda inşa edilmiş, MÖ 6. ve 5. yüzyıllarda büyütülmüş, 112 sütunlu devasa bir yapı hâline gelmiştir. Perslerin İyon ayaklanmasını bastırmasıyla Didim ve Milet yakılıp yıkılmış, Branşid rahipleri sürgüne gönderilmiştir. İskender’in Anadolu’yu kurtarmasından sonra tapınak yeniden ve daha da büyük ölçekte inşa edilmeye başlanmış, ancak yapım süreci yüzyıllar boyunca sürmüş ve hiçbir zaman tamamen tamamlanamamıştır.
Yaklaşık bin yıllık bir geçmişe sahip bu yapı, defalarca yıkılıp yeniden yapılmış; her nesil kendinden öncekilerin bıraktığı yerden devam etmiştir. Didim Tapınağı, “taş taş üstüne koyma” kararlılığının, bireysel ömrü aşan bir iradenin simgesidir.



Bu tarihsel örnek, günümüzün BÜYÜK SİSTEMLERİ için güçlü bir metafor sunar. Büyük yazılım projeleri, altyapı yatırımları, ulaşım ağları, enerji sistemleri ve savunma teknolojileri; kısa vadede tamamlanabilecek işler değil, kuşaklar arası bilgi aktarımı ve kurumsal hafıza gerektiren yapılardır. Nitekim büyük yazılım projelerinin sıkça başarısız olmasının nedenlerinden biri, bu kültürel sürekliliğin kurulamamasıdır.
ISO 9000 gibi kalite sistemlerinin özü de aslında budur: bilginin bireyde değil kurumda birikmesi ve aktarılabilmesi. Ancak bu, yalnızca belgeyle değil, ustalık kültürüyle mümkündür. Mühendislik, başkasından devralınan bilgiye küçük ama anlamlı bir katkı yapabilme; yapılan işi büyütmeden, ama sürekliliğini bozmadan sürdürme erdemidir.
Antik çağın dev tapınaklarıyla modern büyük yazılım sistemleri arasında temel bir ortaklık vardır: büyüklük, yalnızca ölçüyle değil, karşılaşılan belirsizliklerle baş edebilme kapasitesiyle tanımlanır. Didim Tapınağı gibi “hiçbir zaman bitmeyecek” büyük sistemler üzerinde çalışmak, insanlığa bu kapasiteyi kazandırır.
Sonuç olarak mesele, yıkmayı değil üstüne koymayı seçen bir kültürü kurabilmektir. Taş taş üstüne koyma kararlılığı, hem antik dünyanın kalıcı eserlerini hem de çağımızın büyük sistemlerini mümkün kılan temel değerdir.
Ali R+