Ana İçeriğe Atla

Veri Gölü Evi nedir?

Bir veri gölü evi, büyük ölçekte uygun maliyetli ve esnek depolama sunarken aynı zamanda yapılandırma, yönetişim ve raporlama gibi analiz özellikleri sağlayan bir veri yönetimi sistemidir. Binlerce, hatta yüz binlerce kaynaktan gelen ham verileri merkezi bir konumda ve çeşitli biçimlerde daha uygun maliyetle depolamanızı sağlar. Bu veriler ayrıca yapay zeka modellerini eğitmek ve hem raporlar hem de panolar oluşturmak amacıyla analiz araçları tarafından da kullanılabilir. Bir veri gölü evi, daha ileri düzeyde analizler için göl evindeki ham verileri işlemenize olanak tanıyan pek çok özellik sağlar.

Veri gölü, veri ambarı ve veri gölü evi arasındaki fark nedir?

Veri gölü evi mimarisi, iki geleneksel merkezi veri deposu olan veri ambarı ve veri gölünün güçlü yönleri birleştirilerek ortaya çıkarılmıştır.

Veri ambarı

Veri ambarı, yapılandırılmış verilerin standart veri şemalarına dayalı olarak depolandığı bir veri depolama sistemidir. Şemalar, ilişkisel bir veri tabanındaki bilgilerin veri biçimini, ilişkisini ve yapısını belirleyen, önceden tanımlanmış ayrıntılı planlardır.

Kuruluşlar; veri işleme, iş zekası analizleri ve kurumsal raporlama süreçlerine hızlı erişim için veri ambarı sistemlerini kullanır. Veri ambarı oluşturma; gelişmiş analiz araçlarına erişim, sağlam veri yönetişimi ve teknik bilgisi olmayan kullanıcılar için kullanım kolaylığı sağlar. Örneğin veri ambarındaki bir panoyu kullanarak pazarlama performansı raporlarını alabilirsiniz.

Ancak veri ambarı oluşturma, veri yaşam döngüsüne ek adımlar getirir. Analize hazır öngörüler elde etmek için veriler, bir veri ambarında depolanmadan önce birkaç ayıklama, dönüştürme ve yükleme (ETL) işlem hattından geçer. Ayrıca bir veri ambarı, yapay zeka ve makine öğrenimi iş yüklerinin ihtiyaç duyduğu yapılandırılmamış ve yarı yapılandırılmış verileri işleyemez. Bir veri ambarı kurulumunda depolama ve işlem gücü sıkı bir şekilde birbirine bağlıdır ve bu da altyapıyı ölçeklendirme maliyetlerini artırır.

Veri gölü

Veri gölü, verileri orijinal biçimlerinde saklayan bir depolama sistemidir. Veri bilimcileri; yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış verileri depolamak için bir veri gölü kullanır. Bilgiler bir ETL işlem hattından geçmediği için bir veri gölünde veri depolamak hızlı bir işlemdir. Bunun yerine ham veriler olduğu gibi saklanır. Bu nedenle bir veri gölü, gerçek zamanlı veri akışları da dahil olmak üzere çok büyük hacimli bilgileri yüksek bir hızda depolayabilir.

Bulut veri gölleri, barındırdıkları veri hacmi sayesinde veri keşfi, makine öğrenimi ve diğer veri bilimi uygulamaları için idealdir. Düşük maliyetli depolama alanı barındırma olanağı sunduğundan bir veri gölünü ölçeklendirmek de daha ekonomiktir.

Veri ambarından farklı olarak bir veri gölünde depolanan verilere erişmek teknik uzmanlık gerektirir ve bu da veri erişimini daha küçük bir kullanıcı grubuyla sınırlar. Bu nedenle iş öngörüleri için yalnızca veri bilimi konusunda yetkin kullanıcılar veri ayıklayabilir, işleyebilir ve analiz edebilir. Ayrıca yönetilmeyen bir veri gölü, veri bataklıklarına yol açabilir. Veri bataklıkları, anlamlı öngörüler elde etmeyi zorlaştıran, düzensiz bir veri durumunu ifade eder.

Veri gölü evi

Veri gölü evi, bir veri ambarı ile bir veri gölünün avantajlarını birleştiren, birleşik bir veri mimarisidir. Çeşitli veri türleri için yüksek performanslı, uygun maliyetli ve yönetişim dostu depolama alanı sağlar.

Bir veri ambarının aksine veri gölü evi, makine öğrenimi amaçları için yarı yapılandırılmış ve yapılandırılmamış verileri depolayabilir. Ayrıca veri gölü evi mimarisi, iş yöneticilerinin raporlama yapmak ve eyleme dönüştürülebilir öngörüler elde etmek amacıyla kullandığı SQL analiz araçlarını içerir.

Bir veri gölü evinin temel özellikleri nelerdir?

Veri gölü evleri, kuruluşların ölçeklenebilir, karmaşık ve düşük gecikmeli veri işleme merkezleri oluşturması için veri yönetimi özellikleri sağlar. Aşağıda bir veri gölü evinin bazı temel özellikleri paylaşılmıştır.

Çeşitli veri türlerini ve iş yüklerini destekleme

Veri gölü evleri; metin, görsel, video ve ses dosyaları da dahil olmak üzere çeşitli veri türlerini, ek dönüştürme adımları veya katı bir şema gerektirmeden depolayabilir. Bu, hızlı veri alımını mümkün kılarak bağlı uygulamalar için verilerin güncel kalmasını sağlar.

Veri çeşitliliğini desteklemek için bir veri gölü evi, ham verileri nesne tabanlı bir depolama alanında saklar. Nesne tabanlı depolama, yüksek hacimli yapılandırılmamış verileri yönetmek üzere optimize edilmiş bir veri depolama mimarisi türüdür.

İşlem desteği

Bir veri gölü evi, geleneksel veri tabanlarında bulunanlara benzer şekilde ACID uyumlu işlemleri depolamak için veri yönetimi özellikleri sunar. ACID; bölünmezlik, tutarlılık, yalıtım ve dayanıklılık anlamına gelir.

  • Bölünmezlik, tüm veri işlemlerini tek bir birim olarak ele alır; bu da işlemlerin ya başarıyla uygulandığı ya da uygulanmadığı anlamına gelir.
  • Tutarlılık, veri tabanının belirli bir veri tablosu güncellenirken meydana gelen öngörülebilir davranışını ifade eder. Her güncelleme, veri tutarlılığını sağlayan önceden tanımlanmış kurallara uyar.
  • Yalıtım, birden çok işlemin birbirini engellemeden gerçekleşmesine olanak tanır. Veri tabanı, birden fazla kullanıcı tarafından aynı anda güncelleniyor olsa bile her işlem bağımsız olarak çalışır; yani bir işlem, bir sonraki işlem başlamadan önce sona ermiş olur.
  • Dayanıklılık, bir veri tabanının sistem arızalansa bile değişiklikleri saklama ve kaydetme yeteneğidir.

ACID, bir bütün olarak veri bütünlüğünü sağlayarak yazılım ekiplerinin güvenilir işlemsel veri depolamasına dayanan uygulamalar oluşturmasına olanak tanır.

Akış alımı

Veri akışları; Nesnelerin İnterneti (IoT) cihazları, finansal işlemler ve uygulama hizmetleri gibi veri kaynaklarından gelen sürekli bilgi akışıdır.

Bazı uygulamalar, veri değişikliklerini neredeyse gerçek zamanlı olarak yansıtmak ve görselleştirmek için veri akışı gerektirir. Veri gölü evi mimarisi, veri akışlarını alabilir ve bunları son kullanıcıya yönelik uygulamalar için kullanılabilir hale getirebilir. Ayrıca veri bilimcileri, veri akışları üzerinde analiz araçları oluşturabilir; bunları çizelgeler, tablolar ve grafiklerle görselleştirebilir.

Sıfır ETL entegrasyonu

Sıfır ETL, verileri taşırken karmaşık veri dönüştürme işlem hatlarını atlayan bir veri sürecidir. Bir veri gölü evi altyapısı, sıfır ETL entegrasyonunu mümkün kılar.

Geleneksel olarak kuruluşlar, iş yüklerini bir veri ambarı ve bir veri gölü üzerine kurar. Bu tür veri kurulumları, verileri sorgulamak ve dönüştürmek için ek ETL işlem hatları gerektirir. Sıfır ETL entegrasyonu sayesinde veri bilimcileri, ek veri işlem hatları oluşturmadan farklı veri silolarını sorgulayabilir.

Bir veri gölü evi, verileri aldığında bunları otomatik olarak iş analizi gereksinimleriyle uyumlu biçimlere dönüştürür. Örneğin Amazon Redshift, Amazon Aurora ile sıfır ETL entegrasyonunu destekler. Redshift bir veri ambarı iken Aurora, ilişkisel bir veri tabanı yönetim sistemidir. Entegre edildiklerinde Aurora'nın aldığı veriler saniyeler içinde Redshift'te otomatik olarak çoğaltılır. Bu şekilde kuruluşlar, basit ve uygun maliyetli bir veri altyapısını sürdürürken öngörü elde etme süresini kısaltabilir.

Birleşik analiz

Bir veri gölü evi, depolanan tüm verilere erişmek için birleşik bir veri platformu sağlar. Veri mimarlarının birden çok sistem genelindeki veri tekrarının, tutarsızlığın ve parçalanmanın üstesinden gelmesine yardımcı olur.

Merkezi analizin bir diğer önemli avantajı, bulut depolama alanları arasında gereksiz veri hareketleri gerçekleşmesinden kaçınmaktır. Veri ekipleri, silolanmış verileri sorgulamak yerine verileri, veri gölü evine bağlanan tek bir arabirimde depolar, analiz eder ve oradan paylaşır. Örneğin yapılandırılmamış verileri bir makine öğrenimi iş yükü için alabilir ve tek bir veri kopyasından pazarlama performansı raporları oluşturabilirsiniz.

Sorgu düzenleyicisi

Veri analistleri, makine öğrenimi mühendisleri ve veri kullanıcıları, bir SQL sorgu düzenleyicisi kullanarak veri gölü evindeki verilere kolayca erişebilir. Veri analizi, görselleştirme, geçmiş verilere göz atma, veri tabanı şemaları oluşturma ve daha fazlası için SQL komutları yazabilirler. Bir sorgu düzenleyicisi, oluşturdukları sorguların veri mühendisleri tarafından kolayca paylaşılmasına olanak tanıyarak iş birliğini de geliştirir.

Makine öğrenimi/yapay zeka desteği

Veri gölü evleri, yapay zeka ve makine öğrenimi (AI/ML) iş yüklerini oluşturmak, test etmek ve ölçeklendirmek için tasarlanmıştır. Yapılandırılmamış verilere doğrudan erişim sağlamanın yanı sıra birçok veri gölü evi sağlayıcısı, yapay zeka geliştirmeyi basitleştiren makine öğrenimi kitaplıkları, araçları ve analiz özellikleri sunar.

Örneğin Amazon SageMaker Göl Evi, Amazon SageMaker Birleşik Stüdyosu ile sorunsuzca entegre olarak yapay zeka/makine öğrenimi iş akışlarını hızlandırmak için çeşitli araçlara ve analiz özelliklerine erişim sağlar.

Veri gölü evi nasıl çalışır?

Bir veri gölü evi, veri ambarlarının gelişmiş analiz yeteneklerini veri göllerinin esnekliğiyle birleştirerek ölçeklenebilir, uygun maliyetli ve güçlü bir veri platformu sağlar. Kuruluşlar, ayrı veri gölleri ve veri ambarı altyapıları sürdürmek yerine iş öngörülerini daha hızlı elde etmek için bir veri gölü evi kullanmayı tercih eder.

Veri gölü evi, çeşitli kaynaklardan aldığı verileri dahili olarak düzenler ve farklı formatlarda çeşitli veri kullanıcılarına sunar. Ayrıca bir veri gölü evinin işlem katmanı depolama katmanından ayrıdır. Ayrı depolama ve işlem katmanları sayesinde maliyet tasarrufunu en üst düzeye çıkarmak için bu işlevleri birbirinden bağımsız olarak ölçeklendirebilirsiniz.

Aşağıda, bir veri gölü evini oluşturan veri katmanları paylaşılmıştır.

Alım katmanı

Alım katmanı, veri gölü evini; uygulama günlükleri, veri tabanları ve sosyal medya akışları da dahil olmak üzere çeşitli veri kaynağı türlerine bağlar. Bu katmanda veriler, orijinal biçimlerinde korunur.

Depolama katmanı

Depolama katmanı, gelen ham verileri alır ve bunları düşük maliyetli, ölçeklenebilir bir depolama alanında saklar. Bir veri gölü evi kurulumunda bu katman genellikle bir bulut nesne deposuna bağlanır. Nesne depolama; yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriler gibi çeşitli veri türlerini destekler.

Kullanım örneklerine bağlı olarak bazı veriler, nesne depolama alanında saklandıktan sonra dönüşüme uğrar. Örneğin alınan verileri kullanarak bir makine öğrenimi modeli eğitmek isterseniz veri gölü evi, bu verileri Parquet biçimine dönüştürür ve bu biçimde depolar. Parquet, yapılandırılmış verileri sütunlara ayırarak verimli şekilde depolayıp işlemek üzere tasarlanmış açık kaynaklı bir dosya biçimidir.

Hazırlama katmanı

Hazırlama katmanı veya meta veri katmanı, veri gölü evinde depolanan verileri yönetmek, düzenlemek ve optimize etmek için şema desteği sağlar. Bu katman, veri kalitesini güvence altına almaya yönelik politikalar tanımlamanıza ve uygunluk amacına yönelik denetim izleri oluşturmanıza olanak tanır. Ayrıca veri ekipleri, geleneksel bir veri ambarında bulunanlara benzer şekilde ACID işlemleri, dosya dizinleme, veri sürümü oluşturma ve önbelleğe alma gibi yöntemleri kullanarak güvenilir veri iş akışları oluşturabilir.

API katmanı

Uygulama programlama arabirimi (API) katmanı, yazılım geliştiricilerin ve uygulamaların veri gölü evinde depolanan verileri sorgulamasını sağlar. Verilerden programlı olarak daha gelişmiş analizler oluşturulmasını sağlayan ayrıntılı veri erişimi sunar. Örneğin yazılım ekipleri, bir yatırım uygulamasının gösterge panelini beslemek amacıyla veri akışlarını gerçek zamanlı olarak almak için API çağrıları yapabilir.

Anlamsal katman

Anlamsal katman, veri gölü evinin en üst katmanıdır. Veri tüketim katmanı olarak da bilinen bu katman, depolanan verilere ve şemaya erişim sağlayan veri analizi araçları ile uygulamalarından oluşur. İş kullanıcıları, bu katmanda buldukları araçlarla raporlar oluşturabilir, grafikler çizebilir, öngörüler için sorgulama yapabilir ve diğer veri analizlerini gerçekleştirebilir.

Veri gölü evi gereksinimleriniz, AWS tarafından nasıl desteklenebilir?

Amazon SageMaker Göl Evi, kuruluşların iş öngörüleri için eksabaytlarca veriyi işlemek ve yapay zeka iş yüklerini güçlendirmek amacıyla kullandıkları bir veri gölü evi çözümüdür. Amazon SageMaker Göl Evi, AWS'nin veri depolama, analiz ve makine öğrenimi hizmetleriyle derinlemesine entegre olarak size şu konularda yardımcı olur:

  • Neredeyse gerçek zamanlı analizler için verilere yerinde erişme
  • Tek bir veri merkezi üzerinde yapay zeka ve makine öğrenimi modelleri oluşturma
  • Minimum düzeyde taşıma veya kopyalamayla verilere güvenli şekilde erişme, bunları birleştirme ve paylaşma

Verimli ölçeklendirme için işlem ve depolamayı birbirinden ayıran bir mimariye sahip olan Amazon SageMaker Göl Evi, diğer bulut veri gölü evi çözümlerine göre daha iyi bir fiyat performansı sunar.

Amazon SageMaker Göl Evi, AWS veri ambarları ve veri gölleriyle entegre olur:

  • SQL ile birlikte veri gölü eviniz için büyük ölçekte benzersiz bir fiyat performansı sunan bir veri ambarı çözümü olan Amazon Redshift
  • Her yerden istenilen miktarda veri almak için oluşturulmuş bir veri gölü nesne depolama hizmeti olan Amazon S3

Hemen ücretsiz bir hesap oluşturarak AWS'de veri gölü evini kullanmaya başlayın.