AWS Türkçe Blog
Amazon SageMaker Canvas Duyurusu – İş Analistleri için Görsel, Kodsuz Makine Öğrenimi Yeteneği
Orijinal makale: Link (Alex Casalboni, AWS’te Developer Advocate)
İş sorunlarıyla karşılaşan ve günlük olarak verilerle uğraşan bir kuruluş olarak, iş sonuçlarını tahmin edebilecek sistemler oluşturma yeteneği çok önemli hale geliyor. Bu yetenek, yavaş süreçleri otomatikleştirerek ve IT sistemlerinize zeka katarak sorunları çözmenize ve daha hızlı hareket etmenize olanak tanır.
Ancak kuruluştaki tüm ekiplerin ve bireysel karar vericilerin diğer veri bilimi ve veri mühendisliği ekiplerine bağlı olmadan, bu makine öğrenimi (ML) sistemlerini uygun ölçekte oluşturma yetkisine sahip olduğundan nasıl emin olabilirsiniz? Bir iş kullanıcısı veya veri analisti olarak yüzlerce algoritma, eğitim parametresi, değerlendirme metriği ve dağıtım en iyi uygulamaları hakkında bilgi edinmek zorunda kalmadan her gün analiz ettiğiniz ve işlediğiniz verilere dayalı tahmin sistemleri oluşturmak ve kullanmak istersiniz.
Bugün iş analistlerinin kod yazmadan veya makine öğrenimi uzmanlığı gerektirmeden makine öğrenimi modelleri oluşturmasına ve doğru tahminler oluşturmasına olanak tanıyan, kod içermeyen yeni bir görsel olan Amazon SageMaker Canvas’ın genel kullanıma sunulduğunu duyurmaktan heyecan duyuyorum. Sezgisel kullanıcı arayüzü, buluttaki veya şirket içindeki farklı veri kaynaklarına göz atmanıza ve bunlara erişmenize, bir düğmeyi tıklayarak veri kümelerini birleştirmenize, doğru modeller eğitmenize ve ardından yeni veriler kullanılabilir olduğunda yeni tahminler oluşturmanıza olanak tanır.
SageMaker Canvas verilerinizi otomatik olarak temizlemek ve birleştirmek, başlık altında yüzlerce model oluşturmak, en iyi performans göstereni seçmek ve yeni bireysel veya toplu tahminler oluşturmak için Amazon SageMaker ile aynı teknolojiden yararlanır. İkili sınıflandırma (binary classification), çok sınıflı sınıflandırma (multi-class classification), sayısal regresyon (numerical regression) ve zaman serisi tahmini (time series forecasting) gibi çoklu problem türlerini destekler. Bu sorun türleri tek bir kod satırı yazmadan dolandırıcılık algılama, kayıp azaltma ve envanter optimizasyonu gibi iş açısından kritik kullanım durumlarını ele almanıza olanak tanır.
SageMaker Canvas’ı İş Başında Görün
Bir ürünün zamanında gönderilip gönderilmeyeceğini tahmin etmesi gereken bir e-ticaret yöneticisi olduğumu hayal edin. Elimdeki veri kümeleri, her ikisi de CSV biçiminde olan bir ürün kataloğundan ve geçmiş sevkiyat veri kümesinden oluşur.
Öncelikle tüm modellerimin ve veri setlerimin oluşturulduğu ve incelendiği SageMaker Canvas uygulamasına giriyorum.
Import (İçe Aktar) seçeneğini seçiyorum ve iki CSV dosyası yüklüyorum: ProductData.csv ve ShippingData.csv. 120 ürünüm ve 10.000 kargo kaydım var.
Ayrıca Amazon Simple Storage Service’ten (Amazon S3) veri alabilir veya Amazon Redshift veya Snowflake gibi diğer bulut veya şirket içi veri kaynaklarına bağlanabilirim. Bu kullanım durumu için, doğrudan bilgisayarımdan 1,6 MB veri yüklemeyi tercih ediyorum.
İçe aktarmayı onaylamadan önce iki veri kümesini, sütunlarını ve ilgili değerlerini önizleme şansım var. Örneğin, her ürünün bir ComputerBrand, ScreenSize ve PackageWeight‘i vardır. ShippingOrigin, OrderDate ve ShippingPriority gibi yararlı sütunlara ek olarak gönderi veri kümesindeki her kayıt On Time veya Late olan OnTimeDelivery‘i de içerir. Bu sütun, SageMaker Canvas tarafından geçmiş verilere dayalı bir tahmin modeli oluşturmak için kullanılacaktır.
Birkaç saniyelik işlemden sonra veri kümeleri hazır ve hem ürün hem de nakliye bilgilerini içeren tek bir veri kümesi oluşturmak için onları birleştirmeye karar verdim. Bu genellikle bir tahmin modelinin kesinliğini artırmanıza izin veren isteğe bağlı bir adımdır.
Artık iki veri kümesini basitçe sürükleyip bırakabilirim: SageMaker Canvas, paylaşılan ProductId sütununu otomatik olarak tanımlayacak ve bir Inner Join dönüşümü uygulayacaktır.
Join önizlemesi ortaya çıkan sütunları görselleştirmeme, eksik veya geçersiz değerleri belirlememe ve isteğe bağlı olarak istenmeyen sütunların seçimini kaldırmama olanak tanıyor.
Save joined data diyorum ve artık 16 sütun ve 10.000 kayıt içeren bu birleştirilmiş veri kümesi için yeni bir ad sağlıyorum.
Daha sonra bir model oluşturmak ve sol menüden Models bölümünde New model seçerek başlamak istiyorum. Ben buna On Time Prediction Model (Zamanında Tahmin Modeli) diyorum.
İlk adım bir veri kümesi seçmektir.
Modelimin tahmin edeceği bir hedef sütun seçiyorum: OnTimeDelivery.
SageMaker Canvas bana değer dağılımını gösteriyor ve zaten en uygun model türünü öneriyor: İki kategori sınıflandırması (two categories classification).
Model eğitimine geçmeden önce bir analiz raporu oluşturma seçeneğim var. Bu analiz bana çok önemli iki bilgi veriyor: Tahmini doğruluk ve her bir sütunun etkisi.
%99,9’luk tahmini doğruluk bana güven veriyor, ancak daha sonra en yüksek etkinin ActualShippingDays sütunu tarafından sağlandığını fark ettim. Ne yazık ki, bu sütun önceden mevcut değil ve tahminlerim için kullanamıyorum. Bu yüzden seçimini kaldırıyorum ve analizi tekrar çalıştırıyorum.
Yeni ölçülen doğruluk %94,2’dir ve bu hala oldukça yüksektir. En etkili sütunlar ShippingPriority, YShippingDistance, XShippingDistance ve Carrier‘dır. Bu harika çünkü tüm bu bilgiler önceden mevcut ve bir tahmin için kullanılabilir. Öte yandan PackageWeight ve ScreenSize gibi ürünle ilgili sütunların tahmin üzerinde çok küçük etkileri vardır. Bu, gelecekte eğitim ve tahmin aşamalarına yalnızca nakliye bilgilerini besleyerek genel süreci basitleştirebileceğim anlamına geliyor.
Analiz içgörülerinden memnunum. Bu nedenle Standard build option seçerek ilerlemeye ve bir tahmin modeli oluşturmaya karar verdim.
Artık yürüyüşe çıkabilir, birkaç verimli toplantıya katılabilir veya sadece ailemle biraz zaman geçirebilirim. SageMaker Canvas tüm işi benim için yapıyor, sahne arkasında yüzlerce modeli eğitiyor. En iyi performans göstereni seçecek, böylece birkaç saat içinde doğru tahminler üretmeye başlayabilirim. Elbette eğitim süresi veri seti boyutuna ve problem tipine göre değişiklik gösterecektir.
Yaklaşık bir buçuk saat sonra model hazır ve konsol, doğruluğunu ve sütun etkilerini görsel olarak analiz etmeme izin veriyor. Ayrıca modelin ölçülen doğruluğa karşılık gelen %94,2 doğru değeri tahmin ettiğini görmekten de mutluyum.
İsteğe bağlı olarak Precision, Recall, F1 Score vb. gibi gelişmiş metrikleri de inceleyebilirim. Bu metrikler, modelin nasıl performans gösterdiğini ve bu modelden ne tür yanlış pozitifler ve yanlış negatifler bekleyebileceğimi anlamama yardımcı oluyor.
Buradan modeli Amazon SageMaker Studio‘da paylaşabilir veya yeni tahminler oluşturmak için Canvas UI kullanmaya devam edebilirim.
Sezgisel UI ile devam etmeye karar verdim ve Predict seçtim. Artık toplu tahminler için bireysel kayıtlarla veya bir veri kümesiyle çalışabilirim.
Single prediction seçildiğinde SageMaker Canvas hayatımı basitleştiriyor ve mevcut bir kayıttan başlamama izin veriyor. Sütun değerlerini değiştiriyorum ve tahmin ve ilgili özelliğin önemi hakkında anında geri bildirim alıyorum.
Bu hızlı geri bildirim döngüsü ve sezgisel UI, özel kod yazmak zorunda kalmadan ML modelini kullanmamı sağlıyor. Modeli otomatikleştirilmiş bir üretim sistemine entegre etmeye karar vermem durumunda, Amazon SageMaker Studio entegrasyonu modeli ekibimdeki diğer veri bilimcilerle kolayca paylaşmamı sağlıyor.
Genel Olarak Bugün Kullanılabilir
SageMaker Canvas genel olarak US East (Ohio), US East (N. Virginia), US West (Oregon), Europe (Frankfurt) ve Europe (Ireland) bölgelerinde mevcuttur. Amazon S3, Amazon Redshift veya Snowflake’te depolanmış verilerin yanı sıra yerel veri kümelerinizle kullanmaya başlayabilirsiniz. Yalnızca birkaç tıklamayla veri kümelerinizi hazırlayacak ve birleştirecek, tahmini doğruluğu analiz edecek, hangi sütunların etkili olduğunu doğrulayacak, en iyi performans gösteren modeli eğitecek ve yeni bireysel veya toplu tahminler oluşturacaksınız. Geri bildiriminizi duymaktan ve makine öğrenimi ile daha da fazla iş sorununu çözmenize yardımcı olmaktan heyecan duyuyoruz.