Büyük Dil Model Geliştiricileri için Şeffaflık Endeksi 2023

LLM geliştiricilerinin şeffaflığına ilişkin gerçekleştirilen ilk kapsamlı değerlendirme yayınlandı!

6 min readOct 29, 2023

ChatGPT’den önce yapay zekâ son kullanıcıyla hiç bu kadar sıkı fıkı olmamıştı. Büyük dil modellerinin (Large Language Models-LLMs) en bilineni olduğu için ChatGPT dedim. Ama genel olarak üretken yapay zekâ (generative AI) ve bunun bayrak taşıyıcısı şirket ve onların modelleri gündelik hayata bu kadar dâhil olmuş olsa bile çabaların toplumsal etkisi üzerine yürütülen çalışmalar çok kısıtlıdır.

Büyük dil modelleri için verinin toplanması ve veri kümelerinin oluşturulması, modellerin eğitilmesi ve dağıtılması hakkındaki dar kapsamlı çalışmaların yanı sıra, bu modellerin dağıtımı sonrasında kullanıcıların modelleri ne amaçla ve ne koşullarda kullandığı gibi sorular daha önce sistematik bir şekilde ölçülmemişti.

Sosyal medya gibi araçlar vasıtasıyla büyük dil modellerinin yaratacağı negatif etkiler daha önce bazı yazılarımın konusu olmuştu ve pek çok araştırmacı bu alanda yazıp çizmiş olsa da geçtiğimiz hafta içinde Stanford, MIT ve Princeton Üniversitesitelerinden araştırmacıların iş birliği ile Stanford Temel Modelleri Araştırma Merkezi (CRFM) ve Stanford İnsan Merkezli Yapay Zekâ Enstitüsü (HAI) araştırması olarak ilki yayınlanan endeks; teknik ve sosyal 100 gösterge ile önde gelen 10 şirketin amiral gemisi niteliğindeki büyük dil modelleri için şeffaflık değerini 100 üzerinden belirledi.

Şimdi, derinlemesine bir şekilde konuya girmeden önce, öncelikle ‘şeffaflık’ kavramını daha yakından tanıyalım. Ardından endeks üzerinde hangi temel eksenler etrafında hangi göstergelerin ölçüldüğüne dair bir göz atacağız. Yazının sonunda da bu göstergelerin sonuçları bize neler anlatıyor, gelin birlikte görelim!

3 Alana Göre Temel Model Şeffaflık Endeks Skorları, 2023

Şeffaflık Nedir, Neden Gerekli ve Önemlidir?

Şeffaflık genel tabiriyle; görünür olma ve kolayca anlaşılabilme özelliğidir ve hesap verebilirliğin temel gerekliliğidir.

Şeffaflık gereklidir; çünkü bilgilerin şeffaf ve anlaşılır olarak ifşa edilmesi, bu bilgilerin kullanılabilir, paylaşılabilir ve doğrulanabilir olmasını sağlar. Böylece karmaşık süreçlerde oluşabilecek riskler ve zorluklar farkedilebilir ve gerekçelendirilebilir. Karar verme süreçlerinde şeffaflık, bu kararın ardındaki motivasyonu, kararın haklılığı yönündeki kanıtları, kararın maliyeti ve faydalarının değerlendirilmesine yardımcı olabilir.

Şeffaflık ve Açıklanabilirlik İlkesi — “Otomatik ve algoritmalara dayanılarak alınan kararların, bu kararlara yol açan verinin ve o veriden elde edilen bilginin; neden, nasıl, nerede ve ne amaçla kullanıldığı, teknik olmayan terimlerle ve yalın bir dille son kullanıcıya ve diğer paydaşlara açıklanabilmelidir.” Ulusal Yapay Zekâ Stratejisi

Şeffaflık önemlidir; çünkü dijital teknolojileri yaygın kullanımıyla internette yanıltıcı reklam, fiyatlandırma ve belirsiz ücret uygulamalarının yanı sıra sosyal medyada oluşan dezenformasyon ekosistemi toplumsal bir tehdit haline gelebilmektedir. Kullanılan dijital araçların denetlenememesi ve bunun sebebi de şeffaflığının az olmasıdır.

Politika yapıcılar açısından şeffaflık; diğer politika çabalarının ön koşulu niteliğindedir. Büyük dil modelleri fikrî mülkiyet, işgücü uygulamaları, enerji kullanımı ve önyargı gibi önemli sorunları ele almak için gerekli ve önemlidir. Şeffaflığın sağlanmadığı durumlarda düzenleyicilerin doğru soruları sorması bile mümkün olamayacaktır.

📣 Selamlar!

💌 Yayınladığım hiç bir yeni yazıyı kaçırmak istemiyorsanız, abone olabilirsiniz, buyursunlar! 🚀

ayyucekizrak.medium.com

Şeffaflık Endeksini Oluşturan Göstergeler

Temel modellerin nasıl oluşturulduğuna ve kullanıldığına ilişkin incelikleri anlamak, etik yapay zekâ uygulamalarının temelini oluşturuyor.

Süreçlere ışık tutmak için endeks değerlendirmesi üç ana kategoride gerçekleştirilmiştir. Bunlar yukarıdaki grafikte renk ayrımıyla farkedebileceğiniz, yukarı yönlü göstergeler (upstream), model göstergeleri ve aşağı yönlü göstergelerdir (downstream).

Yukarı yönlü kaynaklarla (yani veriler, bilgi işlem) başlayıp temel modele, sonraki ana bilgisayarlara (veya dağıtım kanallarına) geçiş yapan ve aşağı yönlü uygulamalarla biten temel model tedarik zincirinin kavramsal bir tasviri aşağıdaki gibidir.

🟢Yukarı Yöndeki Göstergeler: Modelin Oluşturulması

Veri Şeffaflığı (10 gösterge): Veri boyutunu, kompozisyonunu ve iyileştirme adımlarını kapsar. Kişisel, telif hakkıyla korunan ve lisanslı verilerin eklenmesine odaklanır.
Veri İşçiliği (7 gösterge): Ücretler, korumalar ve üçüncü taraf ortaklıkları dâhil olmak üzere ilgili insan emeğini ele alır.
Veri Erişimi (2 gösterge): Harici tarafların verilere erişimini değerlendirir.
Hesaplama (7 gösterge): Donanımı, hesaplama yöntemlerini, enerji kullanımını ve çevresel etkiyi araştırır.
Yöntemler (4 gösterge): Teknik özellikleri, eğitim aşamalarını, yazılım çerçevelerini ve bağımlılıkları gözden geçirir.
Veri Azaltımları (2 gösterge): Veri mahremiyeti ve telif hakkı endişelerini gidermek için atılan adımları ele alır.

🔵Model Göstergeleri: Modelin İşlevini Anlamak

Model Temelleri (6 gösterge): Model boyutu, mimariyi ve merkezi model dokümantasyonunun varlığını ele alır.
Model Erişimi (3 gösterge): Harici varlıkların modele erişimini değerlendirir.
Yetenekler (5 gösterge): Modelin işlevlerini ve değerlendirmelerini gözden geçirir.
Sınırlamalar (3 gösterge): Sınırlamaları ve değerlendirme süreçlerini kapsar.
Riskler (7 gösterge): Önyargı ve dolandırıcılık gibi kasıtsız ve kasıtlı zararlara odaklanır.
Model Azaltmalar (5 gösterge): Model düzeyindeki azaltımları ve bunların etkinliğini inceler.
Güvenilirlik (2 gösterge): Modelin güvenilirliğini değerlendirir.
Çıkarım (2 gösterge): Modelle standartlaştırılmış çıkarımı değerlendirir.

🔴Aşağı Yöndeki Göstergeler: Sorumlu Şekilde Kullanım

Dağıtım (7 gösterge): Sürüm süreçlerini, dağıtım kanallarını, lisansları ve içerik algılama mekanizmalarını araştırır.
Kullanım Politikası (5 gösterge): Geliştiricinin kabul edilebilir kullanım politikalarını ve yaptırım yöntemlerini inceler.
Model Davranış Politikası (3 gösterge): Model davranış ve uygulama stratejilerine ilişkin politikaları inceler.
Kullanıcı Arayüzü (2 gösterge): Varsa, kullanıcı arayüzündeki şeffaflığa odaklanır.
Kullanıcı Verilerinin Korunması (3 gösterge): Kullanıcı verilerinin depolanması, paylaşılması ve erişimine ilişkin politikaları değerlendirir.
Model Güncellemeleri (3 gösterge): Sürüm oluşturma protokollerini, değişiklik günlüklerini ve kullanımdan kaldırma ilkelerini araştırır.
Geribildirim (3 gösterge): Hükümet soruşturmaları da dahil olmak üzere geri bildirim mekanizmalarını ve özetlerini inceler.
Etki (7 gösterge): Toplumsal etkiyi, etkilenen pazar sektörlerini, kullanım istatistiklerini ve zarar durumunda telafi mekanizmalarını analiz eder.
Aşağı Yönde Dokümantasyon (2 gösterge): Alt yönde kullanıma yönelik merkezi belgelerin ve sorumlu kullanım kılavuzlarının varlığını değerlendirir.

Büyük Dil Model Geliştiricilerinin Şeffaflık Düzeyi

İyi haber; sonuçlar iyileştirmeye açıktır. Çünkü 100 göstergesinin 82'si en az bir geliştirici tarafından sağlandığı raporlanmıştır. Bu iyi bir oran gibi görünse bile ortalama puan 100 üzerinden ancak 37'yi geçerek şeffaflığın arttırılmasına yönelik önemli bir ihtiyacı ortaya koymaktadır.

En yüksek başarıya sahip olan şirket ve modelleri bile 50 puan sınırını zar zor aşmıştır. Bu da yapay zekâ endüstrisinde temel bir şeffaflık eksikliğinin altını çizmektedir.

En önemlisi, bu modellerin nasıl oluşturulduğunun bir sır gibi saklı kaldığı anlaşılmaktadır. Geliştiriciler, veri kaynakları, ücretlendirme yapıları ve hesaplama yöntemleri dâhil olmak üzere önemli ayrıntılar konusunda şeffaf değildir. Üstelik bu modellerin gerçek dünyadaki etkisine ilişkin bilgilerin endişe verici derecede az olduğu ortaya çıkmaktadır. Aşağıdaki tablo, şirketlerin ana boyutlardaki sonuç detaylarını göstermektedir.

Model geliştiricilerinin şeffaflığın ana boyutlarına ilişkin puanları

Açık ve Kapalı Modeller: Ayrımları Çözmek

Daha derine indiğimizde bu çalışmanın şaşırtıcı bir eğilimi ortaya çıkardığı görülüyor.

Listedeki üç geliştirici (Meta, Hugging Face ve Stability AI) açık temel modelleri geliştiriyor (sırasıyla Llama 2, BLOOMZ ve Stable Diffusion 2), bu model ağırlıkları indirilebilir demektir. İçlerinde OpenAI (GPT-4) yer aldığı diğer yedi geliştirici kapalı temel modeller oluşturmaktadır; model ağırlıkları herkese açık olarak indirilemez ve modele bir API aracılığıyla erişilmesi gerekir.

Açık büyük dil modeli geliştiricileri, karşılaştıkları doğal zorluklara rağmen şeffaflık göstergeleri doğrultusunda öncü olarak ortaya çıkıyorlar. Bu geliştiricilerin üçte ikisi oldukça yüksek puanlar alırken, OpenAI kapalı bir modele sahip olmasına rağmen liderliğini sürdürüyor. Teorik olarak değerlendirilmesi daha kolay olan kapalı modeller önemli avantajlar sergilemediğinden, bu beklentilerle çelişmektedir.

Alt alanlara göre açık ve kapalı model geliştiricileri

Sonuç ve Değerlendirme

Hızla gelişen yapay zekâ alanında şeffaflık pek çok etki analizi için yol göstericidir. Bu sadece ilerlemeyi sergilemekle ilgili değil; geleceğimizi şekillendiren teknolojinin süreçlerini, karmaşıklıklarını ve kalp atışlarını açığa çıkarmakla ilgilidir.

Büyük dil modeli geliştirenlerin dünyasında şeffaflığın kaybolduğunu da rahatlıkla söyleyebiliriz. En yüksek puan olan %54 yeterince düşüktür. Acil bir değişim ihtiyacı var; karmaşıklığın ortasında bir netlik talebi mevcut.

Bireysel geliştiricilerin çalışmaları incelendiğinde ise farklı derecelerde şeffaflığa sahip bir duvar halısını ortaya çıkmıştır. Boşlukların ve iyileştirme fırsatlarının farkına varmak gereklidir.

Şeffaflık yalnızca bir onay kutusu değildir; toplumsal ilerlemenin dayandığı temel taşıdır. Şeffaflıktan yoksun yapay zekâ araçlarının zarar potansiyeli büyük görünüyor.

Büyük dil modellerini geliştirme, dağıtma ve benimseme yarışı çılgınca sürerken bu coşkunun ortasında bir değişim ihtiyacı bu endeksle sistematik bir şekilde ölçülmüş ve dillendirilmiştir. Teknolojimizin kamu çıkarını artırmasını sağlayan değişim, şeffaflığın lüks değil zorunluluk olduğu bir geleceği besliyor.

⭐ LinkedIn, Twitter ve GitHub hesabımı da takip edebilirsiniz! ⭐

Benzer yazılarım:

Açıklanabilir, Sorumlu ve Güvenilir Yapay Zeka

“Öğrenmenin en önemli kısmı aslında unutmaktır.” Naftali Tishby

ayyucekizrak.medium.com

Dezenformasyonun Zehiri ve Şifası: Yapay Zekâ

Görmek inanmaktır diyoruz, ama aslında inanmakta görmekten çok daha iyiyiz. Aslında, inandığımız şeyleri her zaman…

ayyucekizrak.medium.com

Veri Odaklı Yapay Zekâ

“There are things known and there are things unknown, and in between are the doors of perception.” — Aldous Huxley

ayyucekizrak.medium.com

Stratejiden Başarıya Doğru: Kamu Sektöründe Yapay Zekâ Teknolojilerinin Kullanımı

ayyucekizrak.medium.com

Kaynaklar:

Foundation Model Transparency Index

A comprehensive assessment of the transparency of foundation model developers Paper Blog Interview Data Context…

crfm.stanford.edu

Introducing The Foundation Model Transparency Index

A new index rates the transparency of 10 foundation model companies and finds them lacking.

hai.stanford.edu

GitHub - stanford-crfm/fmti: The Foundation Model Transparency Index

The Foundation Model Transparency Index. Contribute to stanford-crfm/fmti development by creating an account on GitHub.

github.com

Büyük Dil Model Geliştiricileri için Şeffaflık Endeksi 2023

LLM geliştiricilerinin şeffaflığına ilişkin gerçekleştirilen ilk kapsamlı değerlendirme yayınlandı!

Şeffaflık Nedir, Neden Gerekli ve Önemlidir?

📣 Selamlar!

💌 Yayınladığım hiç bir yeni yazıyı kaçırmak istemiyorsanız, abone olabilirsiniz, buyursunlar! 🚀

Şeffaflık Endeksini Oluşturan Göstergeler

🟢Yukarı Yöndeki Göstergeler: Modelin Oluşturulması

🔵Model Göstergeleri: Modelin İşlevini Anlamak

🔴Aşağı Yöndeki Göstergeler: Sorumlu Şekilde Kullanım

Büyük Dil Model Geliştiricilerinin Şeffaflık Düzeyi

Açık ve Kapalı Modeller: Ayrımları Çözmek

Sonuç ve Değerlendirme

Benzer yazılarım:

Açıklanabilir, Sorumlu ve Güvenilir Yapay Zeka

“Öğrenmenin en önemli kısmı aslında unutmaktır.” Naftali Tishby

Dezenformasyonun Zehiri ve Şifası: Yapay Zekâ

Görmek inanmaktır diyoruz, ama aslında inanmakta görmekten çok daha iyiyiz. Aslında, inandığımız şeyleri her zaman…

Veri Odaklı Yapay Zekâ

“There are things known and there are things unknown, and in between are the doors of perception.” — Aldous Huxley

Stratejiden Başarıya Doğru: Kamu Sektöründe Yapay Zekâ Teknolojilerinin Kullanımı

Kaynaklar:

Foundation Model Transparency Index

A comprehensive assessment of the transparency of foundation model developers Paper Blog Interview Data Context…

Introducing The Foundation Model Transparency Index

A new index rates the transparency of 10 foundation model companies and finds them lacking.

GitHub - stanford-crfm/fmti: The Foundation Model Transparency Index

The Foundation Model Transparency Index. Contribute to stanford-crfm/fmti development by creating an account on GitHub.

Written by Ayyüce Kızrak, Ph.D.