Human-in-the-Loop Makine Öğrenmesi Nedir?

“Dün, bugün ve yarın peş peşe gelmez. Sonsuz bir döngü halinde birbirlerine bağlıdırlar. Her şey birbirine bağlıdır! Hayat bir labirenttir.” H. G. Tannhaus

Görsel: Gustav Klimt — The tree of life

🤔 İnsanın makine öğrenmesi döngüsünde olması gerekli mi?

Günümüzün yapay zekâsı izlediğimiz filmlerin aksine kendi başına her işi yapamaz ve her şeyi öğrenemez, insanlardan aldığı geri bildirimlere yoğunlukla ihtiyaç duyar.

Büyük olasılıkla bugün makine öğrenmesi uygulamalarının %80'ine yakını denetimli (eğiticili/gözetimli) öğrenme modellerinden meydana gelmektedir. Yine de uygulamalar çok çeşitli kullanım alanlarını kapsamaktadır.

İlgili Yazı: Yapay Zeka Kullanım Alanları ve Uygulamalarına Derinlemesine Bir Bakış

Örneğin otonom araç sizi güvenle bir yere taşıyabilecek şekilde ‘yaya’, ‘hareketli araç’, ‘şerit işaretleri’ gibi bir çok bilgi için eğitilmişlerdir. Evinizdeki cihazınıza ‘sesi aç’ komutu verdiğinizde veya bir makine çevirisi uygulamasına farklı dillerde bunu söylediğinizde cihazınızın sizi anlaması sağlanabilir. Bunun için makine öğrenmesi modellerinin belki binlerce saat milyonlarca veri ile eğitilmiş olması gerekiyor.

Annotation(Etiketleme, açıklama) ve aktif öğrenme, yapay zekâda human-in-loop yaklaşımının birinci adımı ve temel taşlarıdır.

Yani human-in-loop; insanın makine öğrenmesi yaklaşımları ile hayat kolaylaştırıcı yapay öğrenme araçları geliştirmesine imkan sağlayan bir döngüdür. İnsanlardan eğitim verilerini nasıl alacağınızı ve tüm verileriniz hakkında insan geri bildirimi için bütçeniz veya zamanınız olmadığında doğru verilerin ne olduğunu belirlemek gerekir. Transfer öğrenme, mevcut yapay öğrenme modellerini en baştan başlamak yerine yeni görevimize uyarlayarak zor bir noktayı aşmamamızı sağlar. Transfer öğrenme bir süredir popülerdir, bu nedenle yazının sonuna doğru bahssetmeden geçmeyeceğim. Ancak en başta insanın döngüye dahil olduğu etiketleme konusuyla başlayacacağız.

Human-in-loop konusuna bir yazı dizisi olarak devam etmek istiyorum. Etiketleme meselesine girmeden önce insanın makine öğrenmesi döngüsünde olması için ilkeler nelerdir bir bakalım.

1️⃣ Makine öğrenmesi için human-in-loop temel ilkeleri

İnsanlar ve makine öğrenmesi, aşağıdaki süreçlerden birini veya daha fazlasını çözmek için etkileşime girdiğinde human-in-loop dediğimiz kavram gerçekleşmeye başlamış oluyor:

  • Makine öğrenmesini daha doğru hale getirme
  • Makine öğrenmesini istenen doğruluğa daha hızlı getirme
  • İnsanların daha doğru karar vermesine yardımcı olmak
  • İnsanları daha verimli kılmak

Esasen veri etiketleme süreci de en basit tabirle insanın makine öğrenmesi performansına dahil olduğu bir human-in-loop sürecidir. Görüntü, ses, yazı, sensör verileri ne olursa olsun, aşağıdaki şekle benzer bir süreç gerekir.

Verilerdeki etiketleri tahmin etmek için Human-in-Loop sürecinin mantığı

2️⃣ Etiketleme

Makine öğrenmesi modellerinde eğitim yapabilmek için çoğunlukla gerekli olan adımdır. Eğer bir veri bilimciye veri setini iyileştirme ve makine öğrenmesi modelini uygun hale getirmek için ne kadar zaman harcadığını soracak olursanız, sürecin tamamının %50' sinden fazla sürdüğü yanıtını vereceklerdir. Yani farklı stratejilerle de uygulanabilen meşakkatli bir iştir.

Gif Kaynak: Giphy

🔹 Basit ve karmaşık etiketleme stratejileri
Etiketleme işlemi çok basit olabilir. Örneğin bir ürününün sosyal medya yayınlarına dayanarak, ürünle ilgili duyarlı eğilimleri analiz etmek için “pozitif”, “negatif” veya “nötr” olarak etiketlemek istiyorsanız, birkaç saat içinde bir HTML formu oluşturabilir ve dağıtabilirsiniz. Basit bir HTML formu, birinin her sosyal medya yayınını duygu seçeneğine göre derecelendirmesine izin verebilir ve her derecelendirme, eğitim verileriniz için sosyal medya yayınındaki etiket haline gelir ve kullanırsınız.

Ama etiketleme süreci çok karmaşık olabilir. Bir videodaki her nesneyi basit bir sınırlayıcı kutu ile etiketlemek istiyorsanız, basit bir HTML formu yeterli değildir. Grafiksel bir arayüze ihtiyacınız vardır ve iyi bir kullanıcı deneyimi oluşturmak için mühendislik anlamında yapılması gerekenler aylarca sürebilir.

🔹 Veri bilimi bilgisindeki boşluğu doldurmak
Makine öğrenmesi algoritması stratejinizi ve veri stratejinizi aynı anda optimize etmeniz gerekir. Algoritmalar ve etiketler, dayanıklı ve başarılı bir makine öğrenmesi uygulaması için eşit derecede önemli ve iç içe geçen bileşenlerdir. Bütünleşik bir yaklaşımınız varsa modellerinizden genellikle daha iyi doğruluk elde edersiniz.

Hemen her bilgisayar bilimi bölümü müfredatında makine öğrenmesi dersleri bulunmaktadır. Ancak çok azı eğitim verilerinin nasıl oluşturulacağı konusunda yeterli bilgi sunmaktadır. Yüzlerce makine öğrenmesi dersi arasında, eğitim verisi oluşturmayı konu alan bir veya iki dersle karşılaşırsınız. Neyse ki bu yaklaşım yavaş yavaş değişiyor.

Akademi ve sektördeki insanların da aynı zorlu yolda, farklı şekillerde yürümeye çalıştığına şahit oluyoruz. Akademik çalışmalardaki makine öğrenmesinin aksine sektörde, daha fazla eğitim verisi ekleyerek model performansını artırmak daha yaygındır. Özellikle verilerin doğası zaman içerisinde değiştiğinde (ki bununla da çok karşılaşılır), o zaman sadece bir avuç yeni etiketlenmiş veri eklemek mevcut bir makine öğrenmesi modelini yeni bir veri alanına uyarlamaya çalışmaktan çok daha etkili olabilir. Ancak akademik makalelerin çoğu, doğru yeni eğitim verilerinin nasıl verimli bir şekilde oluşturulup etiketleneceğine odaklanmak yerine, yeni eğitim verileri olmadan algoritmaların yeni alanlara nasıl uyarlanacağına odaklanmıştır. Bunun sebebi de tabii ki gerçek veriye ulaşma zorluğu yani veri kısıtıdır.

Makine öğrenmesinde en son teknoloji algoritmalarının nasıl oluşturulacağını bilen, ancak eğitim verisi oluşturma veya etiketleme için doğru arayüzleri düşünme konusunda deneyimi olmayan insan kaynağı yığılması olması an meselesi gibidir. Bunu son zamanlarda dünyanın en büyük otomobil üreticilerinden birinde tespit etmek mümkündür. Çok sayıda yeni makine öğrenmesi/yapay zeka mühendisliği mezunu istihdam ediyorlar, ancak veri açıklama ve etiketleme stratejilerini ölçekleyemedikleri için otonom araç teknolojilerini işlevsel hale getirmekte zorlanıyorlar. Stratejilerini nasıl yeniden inşa etmeleri gerektiğini düşünürsek;

İyi performanslı bir makine öğrenmesi uygulaması için iki bileşen eşit derecede önemlidir:

  • Algoritmalar
  • Doğru şekilde oluşturulmuş eğitim verileri

🔹 İnsanların kaliteli şekilde etiketleme yapması neden zor?
Araştırmacılar için etiketleme makine öğrenmesine çok yakından bağlı bir bilimdir. Ancak bu işlemin zorluğunu gösteren en bariz örnek, etiketleri sağlayan insanların hata yapabilmesidir ve bu hataların üstesinden gelmek şaşırtıcı derecede karmaşık istatistikler gerektirir. Bu yüzden veri biliminin önemli bir parçasıdır.

Eğitim verilerindeki insan hataları, kullanım durumuna bağlı olarak az çok önemli olabilir. Bir makine öğrenmesi modeli yalnızca tüketici duyarlılığındaki geniş eğilimleri tanımlamak için kullanılıyorsa, hataların %1 kötü eğitim verilerinden kaynaklanması muhtemelen önemli değildir. Ancak otonom bir araca güç veren bir makine öğrenmesi algoritması, kötü eğitim verilerinden yayılan hatalar nedeniyle yayaların %1'ini görmezse felaket olabilir. Bazı algoritmalar eğitim verilerinde biraz gürültü kullanabilir ve rastgele gürültü, bazı algoritmaların aşırı öğrenme (overfitting) durumunu önleyerek daha doğru sonuçlar üretmesine ve genelleştirilebilir olmasına yardımcı olur.

Ancak insan hataları rastgele gürültü olma eğiliminde değildir ve bu nedenle eğitim verilerine geri döndürülemez önyargı (bias) sağlama eğilimindedir.

Nesnel görevlere ilişkin ikili etiketler gibi basit görevler için, istatistikler, farklı etiketler katılmadığında hangisinin ‘doğru’ etiket olduğuna karar vermek oldukça kolaydır. Ancak sübjektif görevler ve hatta sürekli verileri olan nesnel görevler için, doğru etiketin ne olması gerektiğine karar vermeye yardımcı basit bir sezgisel tarama yoktur. Kendi kendine giden bir otomobil için her yayaya sınırlayıcı bir kutu koyarak eğitim verisi yaratmanın kritik görevini düşünün, korkunç olabilir. İki etiketin biraz farklı kutuları varsa ne olur? Hangisi doğrudur? Mutlaka tek bir kutu veya iki kutunun ortalaması değildir. Aslında, bu sorunu çözmenin en iyi yolu makine öğrenmesinin kendisidir.

Bu yazıda veri oluşturma ve etiketleme konusunu bir bilim olarak ele alıp öneminden bahsediyor olmak herkesi heyecanlandırmayabilir. Etiketleme, insanların makineler ile işbirliği yapmak için ilk adımı olarak nitelendirilmektir.

3️⃣ Aktif Öğrenme: Hızı arttırmak ve maliyetini düşürmek

Denetimli öğrenme modelleri daha fazla etiketlenmiş verilerle büyük oranla başarılı olmaktadır. Aktif öğrenme hangi verilerin insan etiketi almak için gerekli olduğunu seçme işlemidir. Aktif öğrenme ile ilgili araştırma makalelerinin çoğu eğitim verilerinin sayısına odaklanmıştır. Ancak hız birçok durumda daha da önemli bir faktör olabilir. Örneğin; afet müdahalesinde çalışırken, ortaya çıkan felaketlerden gelen bilgileri filtrelemek ve çıkarmak için sık sık makine öğrenmesi modelleri kullanılır. Afet müdahalesindeki herhangi bir gecikme potansiyel olarak kritiktir, bu nedenle kullanılabilir bir modeli hızlı bir şekilde elde etmek, o modele girmesi gereken etiket sayısından daha önemlidir.

Tıpkı bir makine öğrenmesi modelini her durumda daha doğru hale getirecek tek bir algoritma, mimari veya parametre kümesi olmadığı gibi; aktif öğrenme için tüm kullanım durumlarında ve veri kümelerinde optimum olacak tek bir strateji de yoktur. Ancak, makine öğrenmesi modellerinde olduğu gibi, ilk önce denemeniz gereken bazı yaklaşımlar vardır. Çünkü çalışma olasılıkları daha yüksektir.

🔹 En sık kullanılan üç aktif öğrenme örnekleme stratejisi: Belirsizlik, Çeşitlilik ve Rastgelelik
Farklı aktif öğrenme stratejileri ve bunları uygulamak için birçok algoritma vardır. Çoğu iyi çalışan ve neredeyse her zaman başlangıç ​​noktası olması gereken üç temel yaklaşım:

  • Belirsizlik Örneklemesi,
  • Çeşitlilik örneklemesi
  • Rastgele örneklemedir.

Rastgele örnekleme en basitidir, ancak aslında en zoru haline de gelebilir. Verileriniz zaman içinde değiştiğinde önceden filtrelenirse veya başka bir nedenden dolayı rastgele bir örneğin ele aldığınız sorunu temsil etmeyeceğini biliyorsanız, ne olacak? Stratejiden bağımsız olarak, modelinizin doğruluğunu ölçmek ve aktif öğrenme stratejilerinizi rastgele seçilen öğelerin temelinde karşılaştırmak için her zaman bir miktar rastgele verinin açıklanması ve etiketlenmesi gerekir.

Belirsizlik Örneklemesi ve Çeşitlilik Örneklemesi, literatürde “Sömürü” (Exploitation) ve “Keşif” (Exploration) olarak da anılırlar ve şeffaf değillerdir.

Belirsizlik Örneklemesi, mevcut makine öğrenmesi modelinizde karar sınırına yakın etiketlenmemiş öğeleri tanımlamak için bir stratejidir. İkili bir sınıflandırma göreviniz varsa, bunlar her iki etikete ait olma olasılığının %50'ye yakın olduğu tahmin edilen öğeler olacaktır. Bu nedenle model “belirsiz” veya “karmaşık” tır. Bu öğelerin yanlış sınıflandırılması büyük olasılıklıdır. Bu nedenle tahmin edilen etiketten farklı bir etikete neden olma olasılığı en yüksektir ve eğitim verilerine eklenip model yeniden eğitildikten sonra karar sınırını değiştirir.

Çeşitlilik Örneklemesi, mevcut durumda makine öğrenmesi modeli tarafından bilinmeyen etiketlenmemiş öğeleri tanımlamak için kullanılan bir stratejidir. Bu genellikle eğitim verilerinde nadir görülen veya görünmeyen özellik değerlerinin kombinasyonlarını içeren öğeler anlamına gelir. Çeşitlilik örneklemesinin amacı, makine öğrenmesi algoritmasına sorun alanında olağandışı veya aykırı öğeleri daha fazla etiket için hedeflemektir.

Belirsizlik Örneklemesi yaygın olarak kullanılan bir terim olsa da, Çeşitlilik Örneklemesi farklı alanlardaki farklı isimlerle kullanılır ve genellikle sorunun sadece bir kısmıyla mücadele eder. Çeşitlilik Örneklemesi türlerine verilen isimler arasında “Outlier Detection” ve “Anomaly Detection” bulunmaktadır. Astronomik veri tabanlarındaki yeni fenomenleri tanımlamak veya güvenlik için yabancı ağ etkinliğini tespit etmek gibi bazı kullanım durumlarında, görevin amacı aykırı / anormalliği tanımlamaktır. Ancak bunları burada aktif öğrenme için bir örnekleme stratejisi olarak uyarlayabiliriz.

Çeşitlilik Örneklemesi türleri, eğitim verilerine kıyasla açıkça etiketlenmemiş verilere en çok benzeyen, etiketlenmemiş öğeleri bulmaya çalışmaktadır. Örneğin, etiketlenmemiş verilerde gerçekten yaygın olan, ancak henüz eğitim verilerinde bulunmayan kelimeler içeren metin belgelerinde etiketlenmemiş öğeler bulunabilir. Bu nedenle, verilerin zaman içinde değiştiğini bildiğiniz durumlarda uygulamak iyi bir yöntemdir.

Hem Belirsizlik Örneklemesi hem de Çeşitlilik Örneklemesinin tek başına eksiklikleri vardır. Belirsizlik Örneklemesi sadece karar sınırının bir kısmına odaklanabilir. Çeşitlilik Örneklemesi sadece sınırdan çok uzakta olan aykırı değerlere odaklanabilir. Bu nedenle stratejiler genellikle hem Belirsizliği hem de Çeşitliliği en üst düzeye çıkaracak etiketlenmemiş öğelerin bir seçimini bulmak için birlikte kullanılır.

Aşağıdaki gösterimlerde farklı aktif öğrenme çeşitlerinin pozitif ve negatif yönleri ifade edilmeye çalışılmıştır.

Sol: A ve B etiketlerini ayıran karar sınırı — Sağ: Belirsizlik Örneklemesi: karar sınırına yakın etiketlenmemiş kalemlerin seçilmesi.
Sol: Çeşitlilik Örneklemesi; Problem alanının çok farklı bölümlerinde bulunan etiketlenmemiş öğeleri seçmek. — Sağ: Birleşik Belirsizlik ve Çeşitlilik Örneklemesi; hem sınıra yakın hem uzak örneklerden etiketleme yapmak.

Aktif öğrenme sürecinin yinelemeli (iteratif) olduğunu belirtmek önemlidir. Aktif öğrenmenin her bir yinelemesinde, bir dizi öğe tanımlanır ve insan tarafından oluşturulan yeni bir etiketi alır. Daha sonra model yeni verilerle yeniden eğitilir ve işlem tekrarlanır. Bu, yeni öğelerin seçilmesi ve etiketlerin eklenmesi için değişen bir sınır ile sonuçlanan iterasyonlar aşağıdaki şekilde gösterilmektedir.

Etiketlenen veriler sonrası iki adımda güncellenen karar sınırı

Aktif Öğrenme bu kendi kendini düzeltme işlevine sahip olmalıdır: Her yineleme, verilerin etiketi için en iyi olan yeni yönlerini bulacaktır. Ancak, veri alanınızın doğası gereği belirsiz olan bir kısmına sahipseniz, her yineleme sizi bu belirsiz öğelerle sorun alanının aynı kısmına ulaşmaya devam edebilir. Bu nedenle, hem Belirsizlik hem de Çeşitlilik örnekleme stratejilerini dikkate almak genellikle akıllıca olacaktır. Mümkün olduğunca az insan etiketi ile mümkün olan en kısa sürede doğru bir modele ulaşmaya çalışıyoruz. Ne sıklıkta yineleme yapılacağı ve kısa bir yineleme gerektiğinde hızlı bir şekilde yeniden eğitim stratejileri için, Aktif Öğrenme ve Transfer Öğrenimi ile ilgili detaylara inmek gerekir.

🔹 Değerlendirme verilerinin rastgele seçimi nedir?
Her zaman rasgele tutulan verilerin seçimini değerlendirmeniz gerektiğini söylemek kolaydır. Ancak pratik anlamda o kadar kolay olmayabilir. Çalıştığınız verileri anahtar kelime, zaman veya başka bir faktörle önceden filtrelediyseniz, yine de temsili olmayan bir örneğiniz vardır. Ama bu örneğin doğruluğu, daha geniş bir veri seçiminin doğruluğunu göstermez.

Yakın geçmişte, araştırmacılar iyi bilinen ve geniş bir veri seçimi olan ImageNet veri kümesini makine öğrenmesi modellerine uyguladıklarında, görüntünün kategorisini “basketbol”, “taksi”, “yüzme” ve diğer birincil kategoriler gibi tanımladığı 1000 etiketi kullanırlar. ImageNet yarışmaları, bu veri kümesinden test için elde tutulan veriler üzerinde değerlendirilir ve rastgele dağıtılan veri kümesinde insan seviyesine yakın hassasiyete ulaşmıştır. Bununla birlikte, aynı modelleri alır ve bir sosyal medya platformunda yayınlanan rastgele bir görüntü seçimine uygularsanız, doğruluk hemen en azından ~%10 kadar düşer.

Gördüğünüz hemen hemen her makine öğrenmesi uygulamasında olduğu gibi, veriler de zamanla değişecektir. Dil verileriyle çalışıyorsanız, insanların konuştuğu konular zamanla değişecek ve dillerin kendileri de makul ölçüde küçük zaman dilimlerinde yenilik yapacak ve gelişecektir. Bilgisayarlı görü verileriyle çalışıyorsanız, karşılaştığınız nesne türleri zamanla değişir ve bazen de aynı derecede önemli olarak, görüntülerin kendileri kamera teknolojisindeki ilerlemelere ve değişikliklere bağlı olarak değişir.

Anlamlı rasgele bir değerlendirme veri kümesi tanımlayamıyorsanız, temsili bir değerlendirme veri kümesi tanımlamaya çalışmalısınız. Temsili bir veri kümesi tanımlarsanız, gerçekten rastgele bir örneğin mümkün olmadığını veya veri kümeniz için anlamlı olmadığını kabul edersiniz. Veriler nasıl uyguladığınıza göre belirleneceğinden, kullanım durumunuzu neyin temsil ettiğini tanımlamak size bağlıdır. Çeşitliliği sağlamak için önem verdiğiniz her etiket için bir dizi veri noktası, her zaman diliminden belirli bir sayı veya bir kümeleme algoritmasının çıktısından belirli bir sayı seçmek isteyebilirsiniz. Bu konuyu bir başka yazıda detaylı olarak inceleyemeye çalışırız.

Gerçek dünyadaki çoğu uygulama için, modelinizin gerçekten ne kadar iyi genelleştirildiğine dair en iyi durumu yakalamanızı sağlayacak farklı değerlendirme veri kümesine sahip olmanız önerilir. Bu, Aktif Öğrenme ile zor olabilir, çünkü bu verileri etiketlemeye başlar başlamaz, artık “farklı bir veri kümesi” olmaktan çıkar, bilinir bir küme olmuş olur.

🔹 Aktif Öğrenme ne zaman kullanılır?
Aktif Öğrenmeyi, verilerinizin yalnızca çok küçük bir kısmına etiketleme yapabileceğiniz ve rastgele örneklemenin veri çeşitliliğini kapsamayacağı durumlarda kullanmalısınız. Bu verilerin ölçeği birçok kullanım durumunda önemli bir faktör haline geldiğinden, gerçek dünyadaki çoğu senaryoyu kapsar. Buna iyi bir örnek, videolarda bulunan veri miktarıdır. Bir videonun her karesindeki her nesnenin etrafına sınırlayıcı bir kutu (bounding box) koymak istiyorsanız, bu çok zaman alıcı olacaktır. Bunun otonom bir araç için olduğunu ve önem verdiğiniz sadece yaklaşık 20 nesnenin bulunduğu bir sokak videosu olduğunu düşünün: 10 diğer araba, 5 yaya ve 5 trafik işareti olduğunu varsayalım. Saniyede 30 kare hızında, bu 30 kare * 60 saniye * 20 nesnedir. Yani, sadece bir dakikalık veri için 36.000 kutu oluşturmanız gerekir! Sadece bir dakikalık video için gerekli etiketlerin tamamlanması, en hızlı etiketleme yapan insan için bile en az 12 saat sürmekte. Yalnızca ABD’de, insanlar günde ortalama 1 saat araç sürmekte, bu da ABD’deki insanların yılda 95.104.400.000 saat araç kullandıkları anlamına gelmektedir. Yakında, her otomobilin önünde sürüş veya sürüşe yardımcı olacak bir video kamera olacak diyoruz. Yani sadece ABD’de de bir yıllık sürüşe etiket yapmak yaklaşık 60,000,000,000 (60 Trilyon) saat sürecektir! Dünyanın geri kalanı, ABD sürücülerini daha güvenli hale getirmek için tüm gün verilere etiket yapmaktan başka bir şey yapmasa bile, bugün ABD sürücülerinin videolarını etiketlemek için yeterli insan yok gibi görünüyor. Otonom bir araç şirketinin etiketleme için bütçesi ne olursa olsun, etiket ekleyebilecekleri veri miktarından çok daha düşük olacaktır. Yani, otonom araç şirketindeki veri bilimcilerinin etiketleme süreci hakkında karar vermeleri gerekiyor: bir videodaki her çerçeve uygun mu? Videolara örnek ekleyebilir miyiz, böylece hepsine etiket eklemeye gerek kalmasını önleyebilir miyiz? Süreci hızlandırmak için etiketleme arayüzü tasarlamanın yolları var mı?

Etiketlemenin sürdürülemezliği çoğu durumda geçerli olacaktır: Gelinen nokta göstermektedir ki, elimizde her zaman etiketleme yapmak için ayrılan bütçe ve zamandan çok daha fazla veri olacaktır.

Human-in-loop makine öğrenmesi yaklaşımında, aktif öğrenmeye ihtiyacınızın olmadığı kullanım örnekleri de vardır. Küçük bir veri kümeniz ve her şeyi bir insan etiketi yapmak için bütçeniz varsa, Aktif Öğrenmeye ihtiyacınız yoktur. Yasalara göre, insanların her veri noktasına etiket yapmak zorunda olduğu durumlar olabilir. Örneğin, mahkemece verilen bir denetim, bir insanın şirket içindeki her iletişime potansiyel sahtekarlık için bakmasını gerektirebilir. O zaman bile, bir insanın sonuçta her veri noktasına bakması gerekecek olsa da, Aktif Öğrenme “sahtekarlık” örneklerini daha hızlı bulmalarına yardımcı olabilir ve kişinin kullanması için en iyi kullanıcı arabirimini belirlemeye yardımcı olabilir.

Ayrıca neredeyse hiçbir şekilde Aktif Öğrenmeye ihtiyaç duymadığınız bazı dar kullanım durumları da vardır. Örneğin, tutarlı bir aydınlatmaya sahip bir fabrikada ekipman izliyorsanız, belirli bir makine parçasının ışıktan “açık” veya “kapalı” olup olmadığını belirlemek için bir bilgisayarlı görme modeli uygulamak kolay olmalı veya o makineyi açmalıdır. Makine ve aydınlatma, kamera vb. zaman içinde değişmediğinden, modeliniz oluşturulduktan sonra eğitim verilerini almaya devam etmek için muhtemelen Aktif Öğrenmeyi kullanmanıza gerek yoktur. Bu kullanım durumları çok sınırlıdır. Sektörde karşılaştığımız kullanım alanlarının % 1'inden daha azının, daha fazla eğitim verisi bir fayda sağlamaz.

4️⃣ Makine Öğrenmesi ve İnsan-Bilgisayar Etkileşimi

Onlarca yıl boyunca, insanlar insan çevirisini makine çevirisinden daha hızlı ve doğru seviyeye getiremedi. İnsan çevirisi ile makine çevirisi birleştirmenin mümkün olması sezgisel olarak açık görünüyor. Bununla birlikte, bir insan çevirmenin Makine çevirisi çıktısından bir cümledeki 1 veya 2 hatayı düzeltmesi gerektiğinde, tüm cümleyi sıfırdan yazması çevirmenden daha hızlı oluyor. Çeviri sırasında makine çevirisi cümlesini referans olarak kullanmak, hızda çok az fark yaratmakta ve insan çevirmen fazla özen göstermedikçe, makine çevirisinde sürekli hatalar yaparak çeviri işlemlerini daha az doğru seviyeye getireceklerdir.

Gif Kaynak: Giphy

Peki bu sorunun nihai çözümü ne olabilir diye düşündünüz mü? Yanıt, makine çevirisi algoritmalarının doğruluğunda değil kullanıcı ara yüzündeydi. Modern çeviri sistemleri, tüm cümleleri düzenlemek yerine insan çevirmenlerin telefonlarda , e-posta ve belge oluşturma araçlarında yaygınlaşan aynı tür öngörülü metinleri kullanmasına artık izin veriyor. Bu, çevirmenin çevirileri her zaman olduğu gibi yazmasına ve öngörülen çevirideki bir sonraki kelimeyi kabul etmek için hızlıca enter veya tabtuşuna basmasına izin vererek, makine çevirisi tahmini her doğru olduğunda genel hızlarını artırır. Yani, en büyük atılım temel makine öğrenmesinde değil İnsan-Bilgisayar Etkileşimindeydi.

🔶 Pekala, sonuç?

Son kullanıcılarından etkileşimli olarak öğrenen akıllı sistemler hızla yaygınlaşmaktadır. Yakın zamana kadar, bu ilerleme çoğunlukla makine öğrenimindeki ilerlemelerle körüklenmiştir; ancak giderek daha fazla araştırmacı bu sistemlerin kullanıcılarını incelemenin öneminin farkındadır. Bu yaklaşımın nasıl daha iyi kullanıcı deneyimleri ve daha etkili öğrenme sistemleri ile sonuçlanabileceğini gösteriyoruz. Etkileşimin etkisini karakterize eden, mevcut bazı sistemlerin kullanıcı için nasıl hesap vermediğini gösteren ve öğrenen sistemlerin kullanıcılarıyla etkileşime girmesinin yeni yollarını araştıran bir dizi örnek mevcuttur. Etkileşimli makine öğrenme sistemleri için tasarım sürecinin her aşamasında kullanıcıları içermesi gerektiğini savunmamak için bir neden bulunmamaktadır: insan etkileşimi modellerini ortaya çıkaran ve yeni etkileşim yöntemlerine ilham veren keşiflerin yanı sıra arayüzün ayrıntılarını ayarlamak ve alternatifler arasından seçim yapmak için iyileştirme aşamalarından meydana gelir.

İnsan-bilgisayar etkileşimi, bilgisayar bilimi alanında, son zamanlarda makine öğrenmesi için özellikle önemli hale gelen köklü bir alandır. İnsanların eğitim verileri oluşturması için arayüzler oluştururken, bilişsel bilim, sosyal bilimler, psikoloji, kullanıcı deneyimi tasarımı ve diğer birçok alanın kesiştiği bir alandır.

Human-in-Loop makine öğrenmesi, insan ve makine bileşenlerini birleştiren yinelemeli bir süreçtir. Etiketleme yalnızca bunun birinci adımıdır. Umarım çok uzun olmayacak bir yazı dizisi şeklinde insan-bilgisayar etkileşimi, transfer öğrenme gibi konuları da human-in-loop bakış açısıyla aktarmayı planlıyorum.

Son güncelleme: 08.09.2020

🎉 Yazıyla ilgili geri bildirimler veren Zumrut MUFTUOGLU ツ’na çok teşekkür ederim.

👽 Daha fazla içerik için GitHub ve Twitter hesabımı da takip edebilirsiniz!

Merve Ayyüce Kızrak isimli yazarın Human-in-Loop Makine Öğrenmesi Nedir? başlıklı eseri bu Creative Commons Atıf-AynıLisanslaPaylaş 4.0 Uluslararası Lisansı ile lisanslanmıştır.

Ph.D. Candidate at Yıldız Technical University | AI Researcher at Bahçeşehir University | www.ayyucekizrak.com/

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store