Amazon SageMaker Data Wrangler

Makine öğrenimi için tablo ve görüntü verilerini hazırlamanın en hızlı ve en kolay yolu

SageMaker Data Wrangler nedir?

Amazon SageMaker Data Wrangler, makine öğrenimi için tablo ve görüntü verilerini toplama ve hazırlama süresini haftalardan dakikalara indirir. SageMaker Data Wrangler ile veri hazırlığı ve özellik mühendisliği süreçlerini basitleştirebilir, veri hazırlama iş akışının her adımını (veri seçme, temizleme, keşfetme, görselleştirme ve uygun ölçekte işleme dahil) tek bir görsel arabirimden tamamlayabilirsiniz. Çeşitli veri kaynakları arasından istediğiniz verileri seçmek ve hızlı bir şekilde içe aktarmak için SQL'i kullanabilirsiniz. Sonrasında, veri kalitesini otomatik olarak doğrulamak ve yinelenen satırlar ve hedef sızıntısı gibi anormallikleri algılamak için veri kalitesi ve öngörüler raporunu kullanabilirsiniz. SageMaker Data Wrangler, hiçbir kod yazmanıza gerek kalmadan verileri hızlıca dönüştürebilmeniz için 300 adet yerleşik veri dönüşümü içerir.

Amazon SageMaker Data Wrangler Genel Bakış

SageMaker Data Wrangler'ın Avantajları

Verileri seçin, veri öngörülerini anlayın ve makine öğrenimi için veri hazırlamak üzere verileri dakikalar içinde dönüştürün.
Makine öğrenimi modeli doğruluğunu hızlıca tahmin edin ve modeller üretime dağıtılmadan önce sorunları teşhis edin.
PySpark kodu yazmaya, Apache Spark'ı yüklemeye veya kümeleri başlatmaya gerek kalmadan veri hazırlığını üretime daha hızlı taşıyın.

Nasıl çalışır?

Amazon SageMaker Data Wrangler nasıl çalışır?

Daha hızlı veri erişimi, seçimi ve sorgusu

SageMaker Data Wrangler veri seçim aracıyla çeşitli popüler kaynaklardan [ör. Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake ve Databricks] ve 50'den fazla üçüncü taraf kaynağından (ör. Salesforce, SAP, Facebook Ads ve Google Analytics) tablo ve görüntü verilerine hızlıca erişip bunları seçebilirsiniz. Ayrıca SQL kullanarak veri kaynakları için sorgular yazabilir ve CSV, Parquet ve JSON gibi çeşitli dosya biçimlerinden ve veri tabanı tablolarından verileri doğrudan SageMaker'a aktarabilirsiniz.

Veri öngörüleri oluşturun ve veri kalitesini anlayın

SageMaker Data Wrangler, veri kalitesini otomatik olarak doğrulayan (eksik değerler, yinelenen satırlar ve veri türleri gibi) ve verilerinizdeki anormalliklerin (aykırı veriler, sınıf dengesizliği ve veri sızıntısı gibi) tespit edilmesine yardımcı olan bir veri kalitesi ve öngörüleri raporu sunar. Veri kalitesini etkili bir şekilde doğruladıktan sonra, makine öğrenimi modeli eğitimi için veri kümelerini işlemek üzere etki alanı bilgisini hızlı bir şekilde uygulayabilirsiniz.

Verilerinizi görselleştirerek anlayın

SageMaker Data Wrangler, önceden yapılandırılmış bir dizi güçlü görselleştirme şablonuyla verilerinizi anlamanıza ve ayrıca olası hatalar ile ekstrem değerleri belirlemenize yardımcı olur. Histogramlar, serpme diyagramları, kutu grafikleri, çizgi grafikler ve sütun grafiklerinin tümü, verilerinize uygulamak için kullanıma hazır şekilde mevcuttur. Ayrıca, özellik önemini ve özellik bağıntılarını gösteren daha gelişmiş, makine öğrenimine özgü görselleştirmeler (sapma raporu, özellik bağıntısı, çoklu doğrusal bağlantı, hedef sızıntısı ve zaman serisi gibi) de bulunur. Bu araçlara Analiz sekmesinden erişilebilir.

Verileri daha verimli bir şekilde dönüştürün

SageMaker Data Wrangler, verilerinizi tek bir kod satırı yazmadan dönüştürebilmeniz ve veri hazırlama iş akışınızı ölçeklendirebilmeniz için 300'den fazla önceden oluşturulmuş, PySpark tabanlı veri dönüştürme seçeneği sunar. Önceden yapılandırılmış dönüşümler; JSON dosyalarını düzleştirme, yinelenen satırları silme, eksik verileri ortalama veya orta değerle yükleme, tek-sıcak kodlama ve makine öğrenimi için zaman serisi verilerinin hazırlanmasını hızlandırmak üzere zaman serisine özgü dönüştürücüler gibi yaygın kullanım durumlarını kapsar. SageMaker Data Wrangler, görüntü verileriniz için ortak görüntü artırımları (Bulanıklaştırma, İyileştirme ve Yeniden Boyutlandırma gibi) ve temizleme işlemleri (bozuk görüntüleri ve kopyaları bırakma gibi) sunar. Ayrıca PySpark, SQL ve Pandas'ta özel dönüşümler de yazabilirsiniz. SageMaker Data Wrangler, CV kullanım durumları için özel dönüşümler oluşturmak üzere görüntü (imgaug, OpenCV) kitaplıkları ve özel dönüştürme yazmayı kolaylaştırmak için zengin bir kod parçacığı kitaplığı sunar.

Verilerinizin tahmin gücünü anlayın

SageMaker Data Wrangler Hızlı Model özelliği, verilerinizin beklenen tahmin gücüne yönelik bir tahminde bulunur. Hızlı Model, verilerinizi otomatik olarak eğitim ve test veri kümelerine ayırır ve verileri, varsayılan hiperparametrelerle bir XGBoost modelinde eğitir. Çözdüğünüz göreve bağlı olarak (örneğin sınıflandırma veya regresyon) SageMaker Data Wrangler bir model özeti, özellik özeti ve karışıklık matrisi sağlar ve bu da veri hazırlama akışlarınızı hızlıca yinelemenize yardımcı olur.

ML veri hazırlama iş akışlarını otomatikleştirme ve dağıtma

SageMaker Data Wrangler kullanıcı arabirimi ile PySpark kodu yazmaya, Apache Spark'ı yüklemeye veya kümeleri başlatmaya gerek kalmadan büyük veri kümelerine ölçeklendirme başlatabilirsiniz. Verilerinizi hızlıca işlemek veya bir SageMaker Stüdyo not defterine aktarmak için bir iş başlatabilir ya da planlayabilirsiniz. SageMaker Data Wrangler, SageMaker Data Wrangler işleri, SageMaker Özellik Deposu ve SageMaker İşlem Hatları dahil olmak üzere çeşitli dışa aktarma seçenekleri sunar, böylece veri hazırlama akışınızı makine öğrenimi iş akışınıza entegre edebilirsiniz. Alternatif olarak, veri hazırlama iş akışınızı SageMaker'da barındırılan uç noktaya dağıtabilirsiniz. Son olarak, SageMaker Canvas ile görsel bir arayüz kullanarak makine öğrenimi modelini eğitmek için verileri doğrudan dışa aktarabilirsiniz

Müşteriler

Invista
"INVISTA olarak, dönüşümü destekliyoruz ve dünyanın dört bir yanındaki müşterilerimizin faydalanabileceği ürünler ve teknolojiler geliştirmeye önem veriyoruz. Makine öğrenimini müşteri deneyimini iyileştirmenin bir yolu olarak görüyoruz. Ancak yüz milyonlarca satırı kapsayan veri kümeleriyle, verileri hazırlamamıza ve makine öğrenimi modellerini uygun şekilde ölçeklendirmemize, dağıtmamıza ve yönetmemize yardımcı olacak bir çözüme ihtiyacımız vardı. Amazon SageMaker Data Wrangler ile artık verilerimizi etkili bir şekilde seçebilir, temizleyebilir, keşfedebilir ve anlayabiliriz, bu da veri bilimi ekibimizi yüz milyonlarca satıra yayılan veri kümelerine zahmetsizce ölçeklenebilen özellik mühendisliği işlem hatları oluşturma konusunda güçlendirebilir. Amazon SageMaker Data Wrangler ile makine öğrenimi iş akışlarımızı daha hızlı çalıştırabiliyoruz."

Caleb Wilkinson, Eski Baş Veri Bilimcisi, INVISTA

3M
"3M, makine öğrenimini kullanarak zımpara kâğıdı gibi denenip test edilmiş ürünleri iyileştiriyor ve sağlık hizmetleri de dâhil olmak üzere diğer birçok alanda inovasyonu destekliyor. Makine öğrenimini 3M'in diğer alanlarına da ölçeklemeyi düşünürken veri ve model miktarının her yıl ikiye katlanarak hızlıca büyüdüğünü görüyoruz. Ölçeklememize yardımcı olacağı için yeni SageMaker özellikleri konusunda heyecanlıyız. Amazon SageMaker Data Wrangler, model eğitimi için verileri hazırlamayı çok daha kolay hâle getiriyor ve Amazon SageMaker Özellik Deposu, aynı model özelliklerini tekrar tekrar oluşturma ihtiyacını ortadan kaldırıyor. Son olarak, Amazon SageMaker İşlem Hatları; veri hazırlama, model oluşturma ve model dağıtımını uçtan uca bir iş akışında otomatikleştirmemize yardımcı olarak modellerimizin pazara ulaşma hızını artıracak. Araştırmacılarımız, 3M'de bilimin yeni hızının avantajından yararlanmayı dört gözle bekliyor."

David Frazee, Teknik Faaliyetler Eski Direktörü, 3M Corporate Systems Research Lab

Deloitte
"Amazon SageMaker Data Wrangler, yeni ürünleri pazara ulaştırmak için gereken makine öğrenimi verilerini hazırlama sürecini hızlandıran zengin bir dönüşüm araçları koleksiyonuyla veri hazırlama ihtiyaçlarımızı gidererek işimizi yapmamıza yardımcı oluyor. Böylece müşterilerimizin ihtiyaçlarını aylar yerine günler içinde karşılayan ölçülebilir ve sürdürülebilir sonuçlar sunmamıza olanak tanıyan dağıtılmış modellerimizi ölçeklendirme hızımızdan müşterilerimiz de yararlanıyor."

Frank Farrall, Müdür, Yapay Zekâ Ekosistemleri ve Platformları Lideri, Deloitte

NRI
"AWS Premier Danışmanlık Hizmetleri Çözüm Ortağı olarak, mühendislik ekiplerimiz, AWS ile yakından çalışarak müşterilerimize operasyonlarının verimliliğini sürekli olarak iyileştirmede yardımcı olacak yenilikçi çözümler oluşturuyor. Makine öğrenimi, yenilikçi çözümlerimizin merkezinde yer alıyor ancak veri hazırlama iş akışımız karmaşık veri hazırlama teknikleri içerdiğinden bir üretim ortamında operasyonel hâle geçmesi için çok uzun süre gerekiyor. Amazon SageMaker Data Wrangler, veri bilimcilerimizin veri seçme, temizleme, keşfetme ve görselleştirme dâhil olmak üzere veri hazırlama iş akışının her adımını tamamlamasını sağlayarak veri hazırlama sürecimizi hızlandırmaya ve verilerimizi makine öğrenimi için kolayca hazırlamaya yardımcı oluyor. Amazon SageMaker Data Wrangler ile verilerimizi makine öğrenimi için daha hızlı hazırlayabiliyoruz."

Shigekazu Ohmoto, Kıdemli Genel Müdür, NRI Japonya

equilibrium
"Nüfus sağlığı yönetimi pazarındaki ayak izimiz daha fazla sağlık hizmeti ödeyici, sağlayıcı, eczane yardımı yöneticisi ve diğer sağlık hizmeti kuruluşlarıyla genişlemeye devam ettikçe talep verileri, kayıt verileri ve eczane verileri dâhil olmak üzere makine öğrenimi modellerimizi besleyen veri kaynaklarına yönelik uçtan uca süreçleri otomatik hâle getirmek için bir çözüme ihtiyacımız oldu. Amazon SageMaker Data Wrangler ile artık doğrulaması ve yeniden kullanımı daha kolay olan bir dizi iş akışı kullanarak verileri makine öğrenimi için toplama ve hazırlama süresini kısaltabiliyoruz. Bu da modellerimizin teslim süresini ve kalitesini büyük ölçüde iyileştirdi, veri bilimcilerimizin verimliliğini artırdı ve veri hazırlama süresini neredeyse %50 oranında azalttı. SageMaker Data Wrangler aynı zamanda eczane, teşhis kodları, acil ziyaretleri, yatan hasta ve hem demografik hem de diğer sosyal belirleyici faktörler dâhil olmak üzere binlerce özellikle veri reyonları oluşturmamıza olanak sağladığından müşterilerimiz için tüm uçtan uca süreci hızlandırarak birçok makine öğrenimi yinelemesinden kurtulmamıza ve GPU süresini büyük ölçüde azaltmamıza yardımcı oldu. SageMaker Data Wrangler sayesinde eğitim veri kümeleri oluşturmak, makine öğrenimi modellerini çalıştırmadan önce veri kümeleriyle ilgili veri öngörüleri ortaya çıkarmak ve uygun ölçekte çıkarım/tahmin için gerçek dünyadan veriler hazırlamak üzere verilerimizi olağanüstü bir verimlilikle dönüştürebiliyoruz."

Lucas Merrow, CEO - Equilibrium Point IoT

SageMaker Data Wrangler'ı kullanmaya başlayın

Bloglar

BLOG

Accelerate data preparation with data quality and insights in Amazon SageMaker Data Wrangler

BLOG

Amazon SageMaker Data Wrangler, SaaS Uygulamalarının Veri Kaynağı Olarak Kullanılmasını Destekliyor

Blog

Prepare data from Databricks for machine learning using Amazon SageMaker Data Wrangler

BLOG

Prepare data with PySpark and Altair code snippets in Amazon SageMaker Data Wrangler

BLOG

Import data from cross-account Amazon Redshift to Amazon SageMaker Data Wrangler

BLOG

Use Amazon SageMaker Data Wrangler in Amazon SageMaker Studio with a default lifecycle configuration

Uygulamalı alıştırmalar

Öğretici

SageMaker Data Wrangler'ı kullanmaya başlamak için adım adım öğretici

ATÖLYELER

Kullanım örnekleri için SageMaker Data Wrangler’ın nasıl kullanılacağını keşfedin

Tanıtım videoları

Video

re:Invent 2022: Accelerate data preparation with SageMaker Data Wrangler

re:Invent 2022: Accelerate data preparation (56:45)
VİDEO

Quickly prepare data for ML using SageMaker Data Wrangler Virtual Workshop

Quickly prepare data for ML Virtual Workshop (1:18:08)
VİDEO

AWS On Air 2020: AWS What’s Next ft. SageMaker Data Wrangler

AWS on Air 2020: AWS What’s Next ft. SageMaker Data Wrangler (27:51)
VİDEO

SageMaker Data Wrangler Deep Dive Demo

SageMaker Data Wrangler Deep Dive Demo (28:13)

Yenilikler

  • Tarih (En Yeniden En Eskiye)
Sonuç bulunamadı
1