Veri Büyütme Nedir?

Veri büyütme, öncelikle yeni makine öğrenimi (ML) modellerini eğitmek için mevcut verilerden yapay olarak yeni veriler üretme sürecidir. ML modelleri, ilk eğitim için büyük ve çeşitli veri kümeler gerektirse de veri siloları, düzenlemeler ve diğer sınırlamalar nedeniyle yeterince çeşitli gerçek dünya veri kümesi tedarik etmek zor olabilir. Veri büyütme, orijinal verilerde küçük değişiklikler yaparak veri kümesini yapay olarak artırır. Üretici yapay zeka (AI) çözümleri artık çeşitli endüstrilerde yüksek kaliteli ve hızlı veri artırımı için kullanılmaktadır.

Makine öğrenimi hakkında bilgi edinin

Üretici yapay zeka hakkında bilgi edinin

Veri artırma neden önemlidir?

Derin öğrenme modelleri, çeşitli bağlamlarda doğru tahminler geliştirmek üzere büyük hacimli, çeşitli verilere dayanır. Veri artırma, bir modelin tahminlerinin doğruluğunu artırmasına yardımcı olabilecek veri varyasyonlarının oluşturulmasını tamamlar. Artırılmış veriler eğitimde hayati önem taşır.

Veri artırmanın faydalarına göz atın.

Geliştirilmiş model performansı

Veri artırma teknikleri, mevcut verilerin birçok varyasyonunu oluşturarak veri kümelerini zenginleştirmeye yardımcı olur. Bu, eğitim için daha büyük bir veri kümesi sağlar ve bir modelin çeşitli özelliklerle karşılaşmasını sağlar. Artırılmış veriler, modelin görünmeyen verilere daha iyi genellemesine ve gerçek dünya ortamlarındaki genel performansını iyileştirmesine yardımcı olur. 

Azaltılmış veri bağımlılığı

Eğitim için büyük veri hacimlerinin toplanması ve hazırlanması maliyetli ve vakit alan bir süreç olabilir. Veri artırma teknikleri, daha küçük veri kümelerinin etkinliğini artırarak eğitim ortamlarında büyük veri kümelerine olan bağımlılığı büyük ölçüde azaltır. Kümeyi sentetik veri noktalarıyla desteklemek için daha küçük veri kümeleri kullanabilirsiniz.

Eğitim verilerindeki aşırı uyumu azaltma

Veri artırma, ML modellerini eğitirken aşırı uyumu önlemeye yardımcı olur. Aşırı uyum, bir modelin eğitim verileri için doğru bir şekilde tahminler sağlayabildiği ancak yeni verilerle mücadele ettiği, istenmeyen bir ML davranışıdır. Bir model yalnızca dar bir veri kümesiyle çalışırsa aşırı uyumlu hale gelebilir ve yalnızca o belirli veri türüyle ilgili tahminler sunabilir. Buna karşılık veri artırma, model eğitimi için çok daha büyük ve daha kapsamlı bir veri kümesi sağlar. Eğitim setlerinin derin sinir ağlarına özgü görünmesini sağlar ve yalnızca belirli özelliklerle çalışmayı öğrenmelerini engeller. 

Aşırı uyum hakkında bilgi edinin

Sinir ağları hakkında bilgi edinin

Geliştirilmiş veri gizliliği

Hassas verilere bir derin öğrenme modeli eğitmeniz gerekiyorsa sentetik veriler oluşturmak için mevcut veriler üzerinde artırma tekniklerini kullanabilirsiniz. Bu artırılmış veriler, orijinaline olan erişimi koruyup sınırlarken giriş verilerinin istatistiksel özelliklerini ve ağırlıklarını korur.

Veri artırmanın kullanım durumları nelerdir?

Veri artırma, çeşitli endüstrilerde çeşitli uygulamalar sunarak birçok sektördeki ML modellerinin performansını artırır.

Sağlık hizmetleri

Veri artırma, tıbbi görüntülemede yararlı bir teknolojidir çünkü görüntülere dayalı hastalıkları tespit eden, tanı koyan ve teşhis eden tanı modellerinin geliştirilmesine yardımcı olur. Artırılmış görüntü oluşturma, özellikle kaynak veri varyasyonlarına sahip olmayan nadir hastalıkların modelleri için daha fazla eğitim verisi sağlar. Sentetik hasta verilerinin üretimi ve kullanımı, tüm veri gizliliğini koruyarak tıbbi araştırmalarda ilerleme sağlıyor. 

Finans

Artırma, sentetik dolandırıcılık örnekleri oluşturmaya yardımcı olarak modellerin gerçek dünya senaryolarında sahtekarlığın daha doğru tespit edilmesi için eğitilmesini sağlar. Daha büyük eğitim veri havuzları, risk değerlendirme senaryolarına yardımcı olarak derin öğrenme modellerinin riski doğru bir şekilde değerlendirmek ve gelecekteki eğilimleri tahmin etmek üzere potansiyelini yükseltir. 

Üretim

İmalat endüstrisi, ürünlerdeki görsel kusurları belirlemek için ML modellerini kullanır. Gerçek dünya verilerini artırılmış görüntülerle destekleyerek modeller, görüntü tanıma yeteneklerini geliştirebilir ve olası kusurları bulabilir. Bu strateji aynı zamanda hasarlı veya kusurlu bir projenin fabrikalara ve üretim hatlarına gönderilme olasılığını da azaltır.

Perakende

Perakende ortamları, ürünleri tanımlamak ve bunları görsel faktörlere dayalı kategorilere atamak için modeller kullanır. Veri artırma, ürün görüntülerinin sentetik veri varyasyonlarını üretip aydınlatma koşulları, görüntü arka planları ve ürün açıları konularında daha farklı bir eğitim seti oluşturabilir.

Veri artırma nasıl çalışır?

Veri artırma, varyasyonlar oluşturmak için mevcut verileri dönüştürür, düzenler veya değiştirir. Aşağıda sürece dair kısa bir genel bakış yer almaktadır.

Veri kümesi keşfi

Veri artırmanın ilk aşaması, mevcut bir veri kümesini analiz etmek ve özelliklerini anlamaktır. Giriş görüntülerinin boyutu, verilerin dağılımı veya metin yapısı gibi özelliklerin tümü, artırma için daha fazla bağlam sağlar. 

Altta yatan veri türüne ve istenen sonuçlara göre farklı veri artırma teknikleri seçebilirsiniz. Örneğin, bir veri kümesini birçok görüntüyle büyütmek, bunlara gürültü eklemeyi, ölçeklendirmeyi veya kırpmayı içerir. Alternatif olarak, doğal dil işleme için bir metin veri kümesini artırmaktır (NLP, eş anlamlıların yerini alır veya alıntıları başka kelimelerle ifade eder). 

Doğal dil işleme hakkında bilgi edinin

Mevcut verilerin artırılması

İstediğiniz hedef için en uygun veri artırma tekniğini seçtikten sonra farklı dönüşümler uygulamaya başlarsınız. Veri kümesindeki veri noktaları veya görüntü örnekleri, seçtiğiniz büyütme yöntemini kullanarak bir dizi yeni artırılmış örnek sağlamakla dönüştürülür. 

Büyütme işlemi sırasında veri tutarlılığı için aynı etiketleme kurallarını koruyarak sentetik verilerin kaynak verilere karşılık gelen aynı etiketleri içermesini sağlarsınız.

Tipik olarak, dönüşümün başarılı olup olmadığını belirlemek için sentetik görüntülere bakarsınız. Bu insan liderliğindeki ek adım, daha yüksek veri kalitesinin korunmasına yardımcı olur. 

Veri formlarını entegre etme

Ardından, ML modeli için daha büyük bir eğitim veri kümesi oluşturmak üzere yeni, artırılmış verileri orijinal verilerle birleştirirsiniz. Modeli eğitirken her iki tür verinin bu bileşik veri kümesini kullanırsınız.

Sentetik veri artırma ile oluşturulan yeni veri noktalarının, orijinal giriş verileriyle aynı yanlılığı taşıdığını unutmamak önemlidir. Yanlılığın yeni verilerinize aktarılmasını önlemek için veri artırma işlemine başlamadan önce kaynak verilerdeki herhangi bir yanlılığı giderin.

Veri artırma teknikleri ne örnekler nelerdir?

Veri artırma teknikleri, farklı veri türleri ve farklı iş bağlamları arasında farklılık gösterir.

Görüntü işleme

Veri artırma, bilgisayarlı görü görevleri için temel bir tekniktir. Bir eğitim veri setinde çeşitli veri temsilleri oluşturmaya ve sınıf dengesizliklerinin üstesinden gelmeye yardımcı olur. 

Bilgisayarlı görüde büyütmenin ilk kullanımı pozisyon büyütmedir. Bu strateji, artırılmış görüntüler oluşturmak için bir giriş görüntüsünü kırpar, çevirir veya döndürür. Kırpma işlemi, görüntüyü yeniden boyutlandırır veya yeni bir görüntü oluşturmak için orijinal görüntünün küçük bir bölümünü kırpar. Döndürme, çevirme ve yeniden boyutlandırma dönüşümünün tümü, yeni görüntüler sağlama olasılığı ile orijinal görüntüyü rastgele değiştirir.

Bilgisayarlı görüde büyütmenin bir başka kullanımı da renk büyütmedir. Bu strateji, bir eğitim görüntüsünün parlaklığı, kontrast derecesi veya doygunluğu gibi temel faktörlerini ayarlar. Bu yaygın görüntü dönüşümleri, artırılmış görüntüler oluşturmak için renk tonu, karanlık ve ışık dengesini ve görüntünün en karanlık ve en aydınlık alanları arasındaki ayrımı değiştirir.

Bilgisayarlı görü hakkında bilgi edinin

Ses verisi artırma

Ses kayıtları gibi ses dosyaları da veri artırmayı kullanabileceğiniz yaygın bir alandır. Ses dönüşümleri tipik olarak bazı seslere rastgele gürültü veya Gauss gürültüsü koyarak parçaları hızlı iletmeyi, parçaların hızını sabit bir hızda değiştirmeyi veya ses tonunu değiştirmeyi içerir.

Metin verisi artırma

Metin artırma, NLP ve diğer metinle ilgili ML sektörleri için önemli bir veri artırma tekniğidir. Metin verilerinin dönüşümleri, cümleleri karıştırmayı, kelimelerin konumlarını değiştirmeyi, kelimeleri yakın eş anlamlılarla değiştirmeyi, rastgele kelimeler eklemeyi ve rastgele kelimeleri silmeyi içerir.

Sinirsel stil transferi

Sinirsel stil transferi, görüntüleri daha küçük parçalara ayıran, gelişmiş bir veri artırma şeklidir. Bir görüntünün stilini ve bağlamını ayıran ve tek bir görüntüden birçok görüntü üreten bir dizi evrişimli katman kullanır. 

Çekişmeli eğitim

Piksel düzeyindeki değişiklikler, bir ML modeli için zorluk yaratır. Bazı örnekler, modelin altındaki görüntüyü algılama yeteneğini test etmek üzere görüntü üzerinde algılanamayan bir gürültü katmanı içerir. Bu strateji, gerçek dünyadaki potansiyel yetkisiz erişime odaklanan, önleyici bir veri artırma şeklidir.

Veri artırmada üretici yapay zekanın rolü nedir?

Üretici yapay zeka, sentetik verilerin üretimini kolaylaştırdığı için veri artırmada gereklidir. Veri çeşitliliğini artırmaya, gerçekçi verilerin oluşturulmasını kolaylaştırmaya ve veri gizliliğini korumaya yardımcı olur. 

Çekişmeli üretici ağlar

Çekişmeli üretici ağlar (GAN), karşıt olarak çalışan iki merkezi sinir ağının bir çerçevesidir. Jeneratör sentetik veri örnekleri üretir, ardından ayırt edici gerçek veriler ve sentetik örnekler arasında ayrım yapar.

Zaman içinde GAN'lar ayrımcıyı aldatmaya odaklanarak jeneratörün çıktısını sürekli olarak iyileştirir. Ayrımcıyı kandırabilen veriler, orijinal veri dağılımını iyi taklit eden, son derece güvenilir örneklerle veri artırma sağlayan, yüksek kaliteli sentetik veriler olarak sayılır.

Varyasyonel otomatik kodlayıcı

Varyasyonel otomatik kodlayıcılar (VAE), çekirdek verilerin örnek boyutunu artırmaya ve vakit alan veri toplama ihtiyacını azaltmaya yardımcı olan bir tür sinir ağıdır. VAE'lerin kod çözücü ve kodlayıcı olmak üzere iki bağlı ağı vardır. Kodlayıcı örnek görüntüler alır ve bunları bir ara sunuma çevirir. Kod çözücü temsili alır ve anladığı ilk örneklere dayanarak benzer görüntüleri yeniden oluşturur. VAE'ler, örnek verilere oldukça benzer veriler oluşturabildikleri için kullanışlıdır ve orijinal veri dağılımını korurken çeşitlilik eklemeye yardımcı olur.

AWS, veri büyütme gereksinimlerinizi nasıl destekler?

Amazon Web Services'deki (AWS) Üretici Yapay Zeka, her büyüklükteki kuruluşun özel kullanım alanları için özelleştirilmiş verilerle üretici yapay zeka uygulamaları oluşturmak ve ölçeklendirmek için kullanabileceği bir dizi teknolojidir. Yeni özellikler, sektörde lider altyapı modelleri (FM'ler) seçenekleri ve en uygun maliyetli altyapı ile daha hızlı yenilik yapabilirsiniz. Aşağıda, AWS'deki üretici yapay zeka hizmetlerinin iki örneği verilmiştir.

Amazon Bedrock, önde gelen yapay zeka şirketlerinden yüksek performanslı FM seçenekleri sunan, tam olarak yönetilen bir hizmettir. Altyapıyı yönetmeden veri artırma için üretici yapay zeka yeteneklerini güvenli bir şekilde entegre edebilir ve dağıtabilirsiniz.

Amazon Rekognition, görüntülerinizden ve videolarınızdan hem bilgi hem de öngörüler elde etmek için önceden eğitilmiş ve özelleştirilebilir bilgisayarlı görü özellikleri sunan, tam olarak yönetilen bir AI hizmetidir. Görüntüleri analiz etmek üzere özel bir model geliştirmek zaman, uzmanlık ve kaynak gerektiren önemli bir girişimdir. Modelin doğru kararlar vermesi için yeterli veri sağlamak üzere genellikle binlerce veya on binlerce elle etiketlenmiş görüntü gerekir. 

Amazon Rekognition Özel Etiketler ile, model eğitimi için görüntünün rastgele kırpılması, renk artırması ve rastgele Gauss sesleri dahil olmak üzere çeşitli veri artırımları gerçekleştirilir. Binlerce resim yerine kullanımı kolay konsola, kullanım alanınıza özel, küçük bir eğitim görseli kümesi (genellikle birkaç yüz veya daha az) yüklemeniz gerekir.

Hemen bir hesap oluşturarak AWS'de veri artırma özelliğini kullanmaya başlayın.

AWS'de Sonraki Adımlar

Ücretsiz bir hesap açmak için kaydolun

AWS Ücretsiz Kullanım için anında erişim elde edin.

Kaydolun 
Konsolda oluşturmaya başlayın

AWS Yönetim Konsolu'nda oluşturmaya başlayın.

Oturum açın