Veri Hazırlama Nedir?

Bir AWS Hesabı oluşturun

Veri Hazırlama Nedir?

Veri hazırlama, ham verilerin daha fazla işleme ve analize uygun hale gelebilmesi için hazırlanma sürecidir. Temel adımlar arasında ham verilerin toplanması, temizlenmesi ve makine öğrenimi (ML) algoritmalarına uygun bir formda etiketlenmesi ve ardından incelenip görselleştirilmesi yer alır. Veri hazırlama, bir ML projesi için harcanan zamanın %80'i kadar sürebilir. Özel veri hazırlama araçları kullanmak, bu süreci optimize etmek için önemlidir.

ML ile veri hazırlama arasındaki bağlantı nedir?

Veriler, daha önce hiç olmadığı gibi kurumlar arasında dolaşır; yapılandırılmış ve yapılandırılmamış veriler olarak (resimler, belgeler, jeo-uzamsal veriler ve dahası) akıllı telefonlardan akılı şehirlere kadar her yerden gelir. Yapılandırılmamış veriler şu an mevcut verilerin %80’ini oluşturur. ML, yalnızca yapılandırılmış verileri analiz etmez, aynı zamanda yapılandırılmamış verilerdeki desenleri de keşfeder. ML, bir bilgisayarın verileri yorumlamayı ve bu verilere bağlı olarak karar vermeyi ve önerilerde bulunmayı öğrenmesi sürecidir. Öğrenme süreci sırasında ve daha sonra tahminlerde bulunmak için kullanıldığında yanlış, yanlı veya eksik veriler hatalı tahminlerle sonuçlanabilir.

Veri hazırlama ML için neden önemlidir?

Veriler ML’yi besler. İşletmenize yeniden şekil vermek için bu verilerden yararlanmak zorlu bir işlem olsa da bugün ve gelecekte var olabilmek için zorunludur. En bilgili olan hayatta kalır; daha iyi ve daha bilinçli kararlar alabilmek için verilerini işlerine dâhil edenler beklenmedik durumlara daha hızlı karşılık verebilir ve yeni fırsatları yakalar. Bu önemli ancak zahmetli süreç doğru ML modelleri ve analizleri oluşturabilmenin ön koşuludur; öte yandan bir ML projesinin en zaman alan kısmıdır. Zamana yapılan bu yatırımı en aza indirmek için veri bilimcileri veri hazırlama sürecinin çeşitli yollarla otomatikleşmesine yardımcı olan araçlar kullanabilir.

Verilerinizi nasıl hazırlıyorsunuz?

Veri hazırlama; doğru verileri toplamakla başlayan ve temizleme, etiketleme, doğrulama ve görselleştirme ile devam eden bir dizi adımdan oluşur.

Veri toplama

Veri toplama, ML için ihtiyacınız olan tüm verileri birleştirme sürecidir. Veriler dizüstü bilgisayarlar, veri ambarları, bulut, uygulamalar ve cihazlar dâhil birçok veri kaynağında barındığından veri toplama işlemi zahmetli olabilir. Bu farklı veri kaynaklarına bağlanmaya yönelik yollar bulmak zor olabilir. Veri hacimleri de katlanarak arttığından arama yapmak için birçok veri bulunur. Ek olarak veriler kaynağa bağlı olarak çok farklı formatlara ve türlere sahiptir. Örneğin, video verilerinin ve tablo verilerinin birlikte kullanılması kolay değildir.

Verileri temizleme

Veri kalitesinin sağlanmasına yönelik bir adım olan verileri temizleme işlemi, hataları düzeltir ve eksik verileri doldurur. Temiz veriler elde ettikten sonra bu verileri tutarlı ve okunabilir bir formata dönüştürmeniz gerekir. Bu süreç tarih ve para birimi gibi alan formatlarının değiştirilmesi, adlandırma kuralının düzeltilmesi ve tutarlı olması için değerlerin ve ölçü birimlerinin ayarlanması gibi işlemler içerebilir.

Etiket verileri

Veri etiketleme bir ML modelinin öğrenebileceği bir bağlam sağlamak için ham verileri (görüntüler, metin dosyaları, videolar gibi) tanımlama ve bu verilere bir veya daha fazla anlamlı ve bilgilendirici etiket ekleme işlemidir. Örneğin, etiketler bir fotoğrafta kuş mu yoksa araba mı olduğunu, bir ses kaydında hangi kelimelerin söylendiğini veya bir röntgen filminde bir düzensizliğin fark edilip edilmediğini belirtebilir. Veri etiketleme; görüntü işleme, doğal dil işleme ve konuşma tanıma da dâhil çeşitli kullanımlar için gereklidir.

Doğrulama ve görselleştirme

Veriler temizlendikten ve etiketlendikten sonra ML ekipleri, doğru ve ML için hazır olduğundan emin olmak için verileri sıklıkla inceler. Çubuk grafikler, serpme diyagramları, kutu grafikleri, çizelgeler ve sütun grafikler gibi görselleştirmeler, verilerin doğru olduğunu doğrulamak için faydalı araçlardır. Ayrıca görselleştirmeler, veri bilimi ekiplerinin keşif amaçlı veri analizini tamamlamasına yardımcı olur. Bu süreç; desenleri keşfetmek, anomalileri tespit etmek, hipotezleri test etmek veya tahminleri kontrol etmek için görselleştirmeler kullanır. Keşif amaçlı veri analizi biçimsel modelleme gerektirmez; onun yerine veri bilimi ekipleri, verileri deşifre etmek için görselleştirmeler kullanabilir.

AWS nasıl yardımcı olabilir?

Amazon SageMaker veri hazırlama araçları, kuruluşların hem yapılandırılmış hem de yapılandırılmamış verilerden içgörüler elde etmelerine yardımcı olur. Örneğin, kodsuz görsel bir arayüz aracılığıyla yerleşik veri görselleştirmeleriyle yapılandırılmış veri hazırlamayı basitleştirmek için Amazon SageMaker Data Wrangler 'ı kullanabilirsiniz. SageMaker Data Wrangler, hiçbir kod yazmanıza gerek kalmadan özellikleri standartlaştırabilmeniz, dönüştürebilmeniz ve birleştirebilmeniz için yerleşik 300 veri dönüşümü içerir. Tercih ederseniz özel dönüşümlerinizi Python veya Apache Spark’a da getirebilirsiniz. Yapılandırılmamış veriler için büyük, yüksek kalitede, etiketli veri kümelerine ihtiyacınız vardır. Amazon SageMaker Ground Truth Plus'ı kullanarak, etiketleme uygulamaları oluşturmak veya etiketleme iş gücünü kendi başınıza yönetmek zorunda kalmadan veri etiketleme maliyetlerini %40'a kadar azaltırken yüksek kaliteli ML eğitim veri kümeleri oluşturabilirsiniz.

Bir not defterinde veri hazırlamayı tercih eden analistler veya iş kullanıcıları için Amazon S ageMaker Studio dizüstü bilgisayarlarınızdan Amazon EMR üzerinde çalışan Spark veri işleme ortamlarına birkaç tıklamayla görsel olarak göz atabilir, keşfedebilir ve bunlara bağlanabilirsiniz. Bağlandıktan sonra verileri etkileşimli olarak sorgulayabilir, keşfedebilir ve görselleştirebilir, ayrıca eksiksiz veri hazırlama ve ML iş akışları oluşturmak için seçtiğiniz dili (SQL, Python veya Scala) kullanarak Spark işlerini çalıştırabilirsiniz.

AWS'de sonraki adımlar

Ürünle ilgili diğer kaynaklara göz atın

Daha fazla bilgi edinin

Ücretsiz bir hesap açmak için kaydolun

AWS Ücretsiz Kullanımı için anında erişim elde edin.

Kaydolun

Konsolda oluşturmaya başlayın

AWS Yönetim Konsolu'nda AWS ile oluşturmaya başlayın.

Oturum açın

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Yükleniyor

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Veri Hazırlama Nedir?