Veri Odaklı Yapay Zekâ

“There are things known and there are things unknown, and in between are the doors of perception.” — Aldous Huxley

Ayyüce Kızrak, Ph.D.
8 min readOct 11, 2021

Yapay zekâ başlığı altında incelediğimiz makine öğrenmesi ve derin öğrenme yöntemlerini kullanarak bir problemi çözmek istediğimizde doğrudan çözümü öneremeyiz. Bunun için adım adım ilerler ve deneylerle iteratif olarak en uygun çözüme yakınsarız.

Photo by Joy Tyson on Unsplash

Yapay zekâ mühendisleri arasında eğilimin model güncelleme yönünde olduğunu söylemek yanlış olmaz. Matematiksel model ve optimizasyon yöntemlerindeki gelişmeleri model odaklı bu yaklaşımın pozitif bir sonucu olarak değerlendirebiliriz. Yapay zekâ alanındaki açık kaynak yazılım ve veri kültürü; GitHub, Kaggle gibi ortamların hemen her sektörde yaygın kullanılması, gelişmeleri hızlandıran önemli pozitif etmenlerden biridir. Bir diğer etmen ise; gerçek hayat problemlerinin çözümünde devlet teşvikleri, dünya devi teknoloji şirketlerinin de açık kaynağa yaptığı katkı ve yarışmalar yoluyla sağladığı finansmanlardır. Bu sayede, uzmanlar yapay zekâ modeli geliştirmeye efor sarfetmek için motive ediliyor. Oluşan kazan-kazan ortamı model odaklı yapay zekâyı da desteklemiş oluyor. Diğer yandan, gerek akademide gerekse ürün geliştiren özel sektörde oluşan rekabet ortamı büyük veri kümelerine olan ihtiyacı ve model tarafındaki teknik uzmanlığı ön plana çıkarıyor. Ancak kimse veri üzerinde çalışmaya o kadar hevesli durmuyor!

“Birçok uygulama için model ve algoritma, temelde çözülmüş bir problemdir. Artık modeller belirli bir noktaya ulaştığına göre, verileri de çalışır hale getirmemiz gerekiyor.” Andrew NG

Pekala, yapay zekâ modelleri neden yeterince genellenebilir değil?

Düşük kaliteli veri ile yapacaklarımız her zaman sınırlı ve bazen de yanıltıcı olacaktır. Genel eğilimin aksine, model yerine veri odaklı yaklaşımın performansı artırmakta oldukça etkin olduğunu bu yazımda anlatmaya çalışacağım.

Yapay Zekâ Sistemi Yaşam Döngüsü: Yapay zekâ sistemleri için tasarım, veri hazırlama ve model geliştirme sürecinin işletilmesi, doğrulama ve geçerleme adımlarının takip edilmesi, ürünleştirilmesi ile işletim ve bakımının gerçekleştirilmesini kapsayan ve paydaşlar arası bilgi paylaşımını kolaylaştıran döngüdür. Bu döngünün bir parçası olan yapay zekâ sistemini aşağıdaki gibi özetlemek mümkündür.

Yapay Zekâ Sistemleri = Model /Algoritma + Veri

“Yakın tarihli yayınlar incelendiğinde, makalelerin %99'unun model odaklı olduğunu ve yalnızca %1'inin veri odaklı olduğunu ortaya çıkarıyor.”Andrew NG

✔️Model Odaklı Yaklaşım Nedir?

Problemin çözümüne ulaşırken; iyileştirmeler için model etrafında güncellemeler gerçekleştirilir. Model mimarisi ve eğitim sürecindeki iyileştirmelerin yapılması ile en uygun konfigürasyonu bulmaya odaklanılır.

✔️Veri Odaklı Yaklaşım Nedir?

Problemin çözümüne ulaşırken; doğruluğu artırmak için sistematik olarak veri kümesinde iyileştirmeler gerçekleştirilir. Veri kümesindeki etiket doğruluğu, kesinliği ve kalitesini etkileyen faktörlere odaklanılır.

Veri odaklı yapay zekâ (Data-Centric Artificial Intelligence-DCAI) ile amaç; kaliteli veri kümelerini oluşturmak, korumak ve değerlendirmeyi daha kolay, daha ucuz ve tekrarlanabilir hale getirmek için yüksek üretkenlik ve verimliliğe sahip yapak zekâ ekosistemini iyileştirmektir.

Burada temel zorluk, veri mühendisliğini demokratikleştirerek yeniden kullanım verimliliğini artırmakla birlikte sürdürülebilir ve tutarlı veri kümeleri oluşturmayı hızlandırmaktır.

Verinin Önemi ve Veri Odaklı Yapay Zekâ için Sistematik Yaklaşım

Bir problemi çözmek için yapay zekâ kullanacaksak aşağıdaki gibi bir yaklaşım genel ve en kabul görmüş olanıdır. Projenin tanımı kapsamında veri toplanır, model eğitilir ve ürünleştirme sürecinde alınan geri bildirimlerle hem model hem de veri tarafında güncellemeler yapılır. Ürünleştirme sürecine insan katılımı da bir o kadar önemlidir. Buna human-in-the-loop yapay zekâ da denir.

Veri Odaklı Yapay Zekâ için Sistematik Yaklaşım

Bir hata analizi ile iyileştirmeler yapmak karşılaşabilecek tüm sorunların önüne geçmemizi sağlamaz. Çünkü eğitim kümesinle olabilecek korelasyonlar test kümesinde de karşımıza geliyor olabilir ve bu sonucumuzu manipüle edecektir. Bunun önüne geçmek için modelin sağlamlığına yönelik daha proaktif bir yaklaşıma ihtiyaç duyuyoruz.

Bu noktada veriyi daha detaylı incelememiz gerektiğini anlamalıyız! Bilinen bir örnekle farklı konularda elde edilen makine öğrenmesi tahmin sonuçlarını iyileştirmek için sadece kullanılan modelde ve sadece veride iyileştirmeler yapılarak sonuçların iyileşme oranı aşağıdaki tabloda karşılaştırılıyor.

Veri temizleme ve etiket iyileştirme basit bir işlem ve başarım performansındaki artış çok net görülüyor. Ancak model odaklı yaklaşımda katkı 0 ya da 0'a yakınsayan şekildeyken muhtemelen yapay zekâ uzmanının vaktini epey almış oluyor.

Model ve verideki iyileştirmelerin temel sonuçlara etkisi

Özetlemek gerekirse; ürün geliştirirken doktora yapmadığınızı hatırlayın ve verinin çok olmasından ziyade kaliteli olmasının size güç kazandıracağına emin olun. Peki, veride dikkat etmemiz gereken temel unsurlar nelerdir?

⭐Verinin Hacmi

Tam otonom sürüş, insan sürücülerden alınan binlerce saatlik veriyle eğitilmiş en iyi yapay zekâ sistemlerimizde hala hatalarla karşılaşırken, insanlar nasıl oluyor da çok az denetimle yaklaşık 20 saatlik pratikte araba kullanmayı öğrenebiliyor?” Yann Lecun

Veri miktarı hepimizin bildiği gibi yapay zekâ sistemleri için çok önemli, hatta bu sistemlerin yakıtı olarak değerlendiriliyor. Yapay zekâ modelleri düşük sapmalı ve yüksek varyanslı matematiksel makinelerdir. Varyans sorununun önüne geçmek için çeşitliliği de gözeterek daha fazla veri ile modellerimizi eğitiyoruz. Ancak körü körüne daha fazla veri toplama ile bir yere varılamayacağını bilelim. Veri ile ilgili yapılacak iyileştirmelerden en maliyetlisi yeni veri toplamaktır. Ne tür verilere ve etiketlere ihtiyaç olduğunu doğru tespit etmek de gereklilikler arasındadır.

⭐ Verinin Tutarlılığı

Veri etiketlerindeki tutarlılık şarttır. Bu konudaki tutarsızlıklar modelinizi boşuna eğittiğiniz anlamına gelecektir. Bu bazen sizin topladığınız bir veri kümesinde değil, yüzlerce benchmark yapılmış yaygın kullanılan bir veri kümesinde bile karşınıza çıkabilir.

“Örneğin; CIFAR-100 test kümesinin yaklaşık %6' sının yani 2.916 etiket hatasının bulunduğu görülmektedir. Diğer taraftan Amazon Reviews veri kümesinin yaklaşık %4’ünün (yaklaşık 390.000 veri) hatalı etiketlendiği belirlenmiştir. İncelenen MNIST dâhil 10 farklı veri kümesi için ortalama hata oranının %3.4 olduğu ortaya konmuştur Başak Buluz Kömeçoğlu’nun yazısından detayları okumanızı tavsiye ederim.

Bu veri kümeleri ile yapılan tüm çalışmaların gözden geçirilmesi gerektiği gerçeği ile karşı karşıya kalmış oluyoruz. Bu nedenle, daha iyi eğitim ve güvenilir değerlendirme için tutarlı bir şekilde etiketlenmiş veri kümelerine ihtiyacımız var!

Aşağıdaki görselde, insan etiketlemesindeki tutarsızlığın veri kümenize ne kadar kolay yansıyabileceğini görebilirsiniz. “İnsan” etiketlerinin hepsi doğrudur — içinde insan vardır — ancak birbirleri ile tutarsızdır. Bizim için insanların tek tek mi tespit edilmesi ya da grup halinde mi tespit edilmesi gerekiyor? Yani problem tanımımıza göre etiketlerin tutarlı şekilde düzenlenmesi başarım performansının gerçekçi olması için gereklidir.

Bu sorunların önüne geçmek için çapraz etiketleme ve çapraz kontroller gerçekleştirilip, etiketlerin tutarlılığından emin olunmalıdır. Bunun yanında çoklu etiketleme ile sonucu oylama yoluyla en iyi etiketin seçilmesi de tutarlılığın sağlanması için yaygın olarak kullanılan yöntemlerden biridir.

⭐ Verinin Kalitesi

Verilerin çözümünü istediğimiz probleme ilişkin varyasyonları kapsayan çeşitlilikte ve rastgelelikte olması isteriz. Verinin kaliteli olduğunu söyleyebilmek için dikkat etmek gereken bazı unsurlar vardır:

Görsel Kaynağı
  • Sahte korelasyonlar: İnek görseline bir gözatalım. Bir nesne sınıflama problemi üzerinde çalışırken nesnel olmayan bir özniteliğin etiketle ilişkilenmesi — yani inek 3 görselde de inekken arka planın değişmesi etiketle ilişkilenmiştir — nesne aynı olsa bile sınıflandırma sonucunu olumsuz etkiler ve arkaplana bağlı olarak çöl ortamındaki ineğe deve, karlı ortamdaki ineğe kutup ayısı deme eğiliminde olur. Bu sahte korelasyonlar istenmeyen durumların başında geliyor.
Görsel Kaynağı
  • Varyasyon eksikliği: Görüntü parlaklığı gibi nedensel olmayan bir öznitelik veri kümesinde yeterince değişemediğinde, model bu özniteliğin dağılımına fazla fit olabilir ve iyi bir genelleme yapamaz. Buna aşırı öğrenme diyoruz. Örneğin; gündüz verilerinde eğitilen modeller karanlıkta başarılı olamaz ve bunun tersi de geçerlidir. Daha fazla varyasyona sahip yeni veriler toplamanın yanı sıra, veri artırma, sahte korelasyonları ve varyasyon sorunlarının önüne geçmek için iyi bir stratejidir.

BONUS💎 Şeffaflığı Desteklemek için Makine Öğrenmesi Sistemlerinin Eğitim Verilerinin Açıklanması

Eğitim veri kümeleri, yapay zekâ sistemlerinin performansını temel olarak etkiler. Eğitim sırasında ortaya çıkan herhangi örtük ve ya açık bir önyargı, genellikle sistemin davranışlarına yansır. Doğruluk ve sisteme olan güven kaybı hakkında sorulara yol açabilir. Ancak, eğitim verilerine ilişkin bilgiler nadiren paydaşlara iletilir. Referansını vermiş olduğum bu çalışmada, eğitim verilerini son kullanıcılara açıklayan yapay zekâ sistemleri için veri odaklı açıklamalar (Data-Centric Explanations) kavramı araştırılmıştır. Biçimlendirici bir çalışma aracılığıyla, katılımcıların en çekici bulduğu eğitim verileri hakkındaki bilgiler de dâhil olmak üzere, böyle bir yaklaşımın potansiyel faydasından bahsedilmektedir. Sonuçlar, veri odaklı açıklamaların, kullanıcıların bir sistemin güvenilirliğini nasıl değerlendirdiğini etkileme ve kullanıcılara adaleti değerlendirmede yardımcı olma potansiyeline sahip olduğunu göstermektedir. Kullanıcıların yapay zekâ sistemlerine ilişkin algılarını desteklemek ve açıklamalar tasarlamak için bulgular tartışılmaktadır.

BONUS💎Önde gelen konferanslarda/çalıştaylarda veri odaklı oturumlarda konu işlenmektedir.

Bu çalıştayın temel amacı, veri odaklı yapay zekâ topluluğunu pratik veri sorunlarını ele alan canlı, disiplinler arası bir alana dönüştürmektir. Bu sorunlardan bazıları şunlardır:

  • veri toplama/oluşturma
  • veri etiketleme
  • veri ön işleme/artırma
  • veri kalitesi değerlendirmesi
  • veri maliyeti
  • veri yönetişimi

Bu alanların çoğu yeni gelişmektedir ve bunları tutarlı bir bütün halinde bir araya getirerek gelişimlerini ilerletmek için bu çalıştay 2021 yılının Aralık ayında (NEURIPS DCAI Workshop) gerçekleştirilecek.

Veri mühendisliğinde yapılacak iyileştirmelerle henüz var olmayan bir çerçeveye ihtiyacımız olduğu aşikar. Verilerle ilk pazara girişte, veri kümelerinin sürdürülebilirliği, yeniden üretilebilirliği, güvenilirliği, geçerliliği ve aslına uygunluğu genellikle gözden kaçırılır. Bu düşünce tarzını tersine çevirmek ve veri toplama konusunda mükemmellik için örnekleri, vaka çalışmalarını ve metodolojileri vurgulamak için bu tip çalıştaylar yakın gelecekte daha çok dikkat çekecektir.

Veri odaklı yapay zekâya yönlenen aktif bir araştırma topluluğu oluşturmak; temel sorunları tanımlama ve veri kalitesi görevleri aracılığıyla yapay zekâdaki ilerlemeyi ölçmek için yollar yaratma sürecinin önemli bir parçasıdır.

🎉 Yazıyla ilgili geri bildirimler veren Başak Buluz Kömeçoğlu çok teşekkür ederim.

👽 Daha fazla içerik için GitHub ve Twitter hesabımı da takip edebilirsiniz!

🚴 Veri Odaklı Yapay Zekâ Yarışması

🐝 İlginizi çekebilecek diğer yazılar

⛲️ Kaynaklar

A Chat with Andrew on MLOps: From Model-centric to Data-centric AI

From Model-centric to Data-centric Artificial Intelligence

MLOps: From Model-centric to Data-centric AI

Towards a Data-Centric Architecture in the Automotive Industry

“Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI

Data-centric AI: Real World Approaches

Data-Centric Explanations: Explaining Training Data of Machine Learning Systems to Promote Transparency

Model bias and its impact on computer-aided diagnosis: A data-centric approach

On the Benefits of Invariance in Neural Networks

Merve Ayyüce Kızrak isimli yazarın Veri Odaklı Yapay Zekâ başlıklı eseri bu Creative Commons Atıf-AynıLisanslaPaylaş 4.0 Uluslararası Lisansı ile lisanslanmıştır

--

--

Ayyüce Kızrak, Ph.D.

AI Specialist @Digital Transformation Office, Presidency of the Republic of Türkiye | Academics @Bahçeşehir University | http://www.ayyucekizrak.com/