AWS Türkçe Blog
Veri ambarını Amazon Redshift’e taşırken nelere dikkat edilmelidir?
Orijinal makale: Link (Lewis Tang, Senior Solutions Architect)
Müşteriler hızlı, ölçeklenebilir ve uygun maliyetli olduğu için veri ambarlarını Amazon Redshift‘e geçiriyor. Ancak, veri ambarı geçiş projeleri karmaşık ve zorlu olabilir. Bu gönderide, veri ambarı geçişinin ortak harekete geçiş sebeplerini, geçiş stratejilerini ve geçiş projenize yardımcı olmak için hangi araç ve hizmetlerin mevcut olduğunu anlamanıza yardımcı olacağım.
Önce büyük veri ortamını, modern bir veri mimarisinin anlamını ve modern bir veri mimarisi oluştururken veri ambarı geçiş projeniz için nelere dikkat etmeniz gerektiğini tartışalım.
İş fırsatları
Veriler çalışma, yaşama ve oynama şeklimizi değiştiriyor. Tüm bu davranış değişiklikleri ve buluta geçiş, son 20 yılda bir veri patlamasına neden oldu. Nesnelerin İnterneti ve akıllı telefonların yaygınlaşması, her gün üretilen veri miktarını hızlandırdı. İş modelleri değişti ve bu işletmeleri yöneten insanların ihtiyaçları da değişti. Sadece birkaç yıl önce terabaytlarca veri hakkında konuşmaktan şimdi petabaytlarca ve eksabaytlarca veriye geçtik. Verileri verimli bir şekilde çalışmaya koyarak ve toplanan verilerden derin iş içgörüleri oluşturarak, farklı sektörlerdeki ve çeşitli büyüklükteki işletmeler çok çeşitli iş sonuçları elde edebilir. Bunlar genel olarak aşağıdaki temel iş sonuçlarına göre sınıflandırılabilir:
- Operasyonel verimliliği artırma – İşletmeler, çeşitli operasyonel süreçlerden toplanan verileri anlamlandırarak müşteri deneyimini iyileştirebilir, üretim verimliliğini artırabilir ve satış ve pazarlama çevikliğini artırabilir.
- Daha bilinçli kararlar verme – İşletmeler, bir kuruluştaki verilerin tam resmini bir araya getirerek daha anlamlı içgörüler geliştirerek daha bilinçli kararlar alabilirler.
- İnovasyonu hızlandırma – Dahili ve harici veri kaynaklarını birleştirmek, işletmelerin süreçleri otomatikleştirmesine ve daha önce yapılması imkansız veya yapılması çok zor olan iş fırsatlarının kilidini açmasına yardımcı olan çeşitli AI ve makine öğrenimi (ML) kullanım senaryolarına olanak tanır.
İş zorlukları
Üstel veri büyümesi aynı zamanda iş zorluklarını da beraberinde getirdi.
Her şeyden önce, işletmelerin kuruluş genelindeki tüm verilere erişmesi gerekir ve veriler silolarda dağıtılabilir. Çok çeşitli kaynaklardan, çok çeşitli veri türlerinden ve büyük hacim ve hızda gelir. Bazı veriler, ilişkisel veritabanlarında yapılandırılmış veriler olarak saklanabilir. Diğer veriler, ortam dosyaları ve mobil cihazlardan sürekli olarak akan tıklama akışı verileri gibi nesne depolarında yarı yapılandırılmış veriler olarak saklanabilir.
İkinci olarak, verilerden içgörüler oluşturmak için işletmelerin analitik yaparak verilere derinlemesine dalmaları gerekir. Bu analitik faaliyetler genellikle sisteme aynı anda erişmesi gereken düzinelerce ve yüzlerce veri analistini içerir. Sorgu talebini karşılamak için ölçeklenebilir performanslı bir sisteme sahip olmak genellikle zorlu bir iştir. İşletmelerin analiz edilen verileri müşterileriyle paylaşması gerektiğinde daha karmaşık hale gelir.
Son olarak, işletmelerin veri siloları, performans, ölçeklenebilirlik, güvenlik ve uyumluluk zorluklarını ele almak için uygun maliyetli bir çözüme ihtiyacı vardır. Maliyeti görselleştirebilmek ve tahmin edebilmek, bir işletmenin çözümünün maliyet etkinliğini ölçmesi için gereklidir.
Bu zorlukları çözmek için işletmelerin geleceğe hazır modern bir veri mimarisine ve sağlam, verimli bir analitik sistemine ihtiyacı vardır.
Modern veri mimarisi
A modern data architecture enables organizations to store any amount of data in open formats, break down disconnected data silos, empower users to run analytics or ML using their preferred tool or technique, and manage who has access to specific pieces of data with the proper security and data governance controls.
Modern bir veri mimarisi, kuruluşların herhangi bir miktarda veriyi açık formatlarda depolamasına, bağlantısız veri silolarını parçalamasına, kullanıcıların tercih ettikleri araç veya tekniği kullanarak analitik veya ML çalıştırmalarına olanak tanır ve uygun güvenlik ve veri yönetişimi kontrolleriyle belirli veri parçalarına kimlerin erişimi olduğunu yönetmesini sağlar.
AWS veri gölü mimarisi, aşağıdaki şekilde gösterildiği gibi verileri bir veri gölünde depolamanıza ve göl çevresinde amaca yönelik olarak oluşturulmuş veri hizmetleri halkasını kullanmanıza olanak tanıyan modern bir veri mimarisidir. Bu, hızlı ve çevik, geniş ölçekte ve uygun maliyetli kararlar vermenizi sağlar. Daha fazla ayrıntı için AWS’te Modern Veri Mimarisi‘ne bakın.
Modern veri ambarı
Amazon Redshift, geniş ölçekte hızlı, kolay ve güvenli analizlerle içgörülere ulaşma süresini hızlandıran, tümüyle yönetilen, ölçeklenebilir, modern bir veri ambarıdır. Amazon Redshift ile tüm verilerinizi analiz edebilir, düşük ve öngörülebilir maliyetlerle her ölçekte performans elde edebilirsiniz.
Amazon Redshift aşağıdaki avantajları sunar:
- Tüm verilerinizi analiz etme – Amazon Redshift ile, tutarlı güvenlik ve yönetim politikalarıyla veri ambarınız ve veri gölünüz genelindeki tüm verilerinizi kolayca analiz edebilirsiniz. Buna modern veri mimarisi diyoruz. Amazon Redshift Spectrum ile veri gölünüzdeki verileri yüklemeye veya başka bir veri hazırlığına gerek duymadan sorgulayabilirsiniz. Veri gölü dışa aktarma özelliğiyle, bir Amazon Redshift sorgusunun sonuçlarını tekrar göle kaydedebilirsiniz. Bu, Amazon Redshift veri gölünüzle tamamen entegre olduğundan, yeniden mimariye gerek kalmadan gerçek zamanlı analitik ve ML/AI kullanım senaryolarından yararlanabileceğiniz anlamına gelir. Veri paylaşımı (data sharing) gibi yeni yeteneklerle, verileri Amazon Redshift kümeleri arasında hem dahili hem de harici olarak kolayca paylaşabilir, böylece herkesin verileri canlı ve tutarlı bir şekilde görebilmesini sağlayabilirsiniz. Amazon Redshift ML, verilerinizle daha fazlasını yapmayı kolaylaştırır; doğrudan Amazon Redshift veri ambarlarında tanıdık SQL komutlarını kullanarak makine öğrenimi modelleri oluşturabilir, eğitebilir ve dağıtabilirsiniz.
- Her ölçekte hızlı performans – Amazon Redshift, sıralama anahtarları ve dağıtım anahtarları tanımlama, gerçekleştirilmiş görünümler (materialized views), otomatik yenileme (auto-refresh) ve otomatik sorgu yeniden yazma (auto-query rewrite) gibi görevlerle, veri ambarınızı ayarlamanın ağır yükü olmadan iş yükleriniz için en iyi performansı elde etmenize olanak tanıyan kendi kendini ayarlayan ve kendi kendine öğrenen bir sistemdir. Amazon Redshift, gigabaytlardan petabaytlarca veriye ve birkaç kullanıcıdan binlerce veriye kadar tutarlı bir şekilde hızlı sonuçlar sunmak için ölçeklenir. Kullanıcı tabanınız binlerce eşzamanlı kullanıcıya ölçeklenirken, eşzamanlılık ölçeklendirme özelliği, ek yükü yönetmek için gerekli işlem kaynaklarını otomatik olarak dağıtır. Yönetilen ayrı işlem ve depolamaya sahip Amazon Redshift RA3 bulut sunucuları, böylece her birini bağımsız olarak ölçeklendirebilir ve yalnızca ihtiyacınız olan depolama için ödeme yapabilirsiniz. Amazon Redshift için AQUA (Gelişmiş Sorgu Hızlandırıcı – Advanced Query Accelerator), belirli sorgu türlerini otomatik olarak destekleyen, dağıtılmış ve donanım hızlandırmalı yeni bir önbellektir.
- Herkes için kolay analitik – Amazon Redshift, ayrıntılı altyapı yönetimi veya performans optimizasyonunun yükünü ortadan kaldıran, tümüyle yönetilen bir veri ambarıdır. Altyapı sağlama, yedekleme oluşturma, veri düzenini ayarlama ve diğer görevler gibi bakım görevlerini gerçekleştirmek yerine içgörülere ulaşmaya odaklanabilirsiniz. Verileri açık biçimlerde çalıştırabilir, tanıdık SQL komutlarını kullanabilir ve yeni Query Editor v2 aracılığıyla sunulan sorgu görselleştirmelerinden yararlanabilirsiniz. Ayrıca, yazılım sürücülerini yapılandırmadan, veritabanı bağlantılarını yönetmeden güvenli bir veri API’si aracılığıyla herhangi bir uygulamadan verilere erişebilirsiniz. Amazon Redshift, iş zekası (Business Intelligence – BI) araçlarıyla uyumludur ve Amazon Redshift’in gücünü ve entegrasyonunu BI aracından çalışan iş kullanıcılarına açar.
Veri gölü mimarisine sahip modern bir veri mimarisi ve Amazon Redshift ile modern veri ambarı, farklı boyutlardaki işletmelerin büyük veri zorluklarını ele almasına, büyük miktarda veriyi anlamlandırmasına ve iş sonuçlarını yönlendirmesine yardımcı olur. Veri ambarınızı Amazon Redshift’e geçirerek modern bir veri mimarisi oluşturma yolculuğuna başlayabilirsiniz.
Geçiş ile ilgili hususlar
Veri ambarı geçişi, proje karmaşıklığı açısından bir zorluk teşkil eder ve kaynaklar, zaman ve maliyet açısından bir risk oluşturur. Veri ambarı geçişinin karmaşıklığını azaltmak için mevcut veri ambarı ortamınıza ve Amazon Redshift’e geçiş için gereken dönüşüm miktarına göre doğru bir geçiş stratejisi seçmeniz önemlidir. Geçiş stratejisi kararınızı etkileyebilecek temel faktörler şunlardır:
- Boyut – Geçirilecek kaynak veri ambarının toplam boyutu, geçişe dahil edilen nesneler, tablolar ve veritabanları tarafından belirlenir. Amazon Redshift’e geçmek için gereken veri kaynaklarının ve veri alanlarının iyi anlaşılması, geçiş projesinin en uygun şekilde boyutlandırılmasını sağlar.
- Veri transferi – Veri ambarı geçişi, kaynak veri ambarı sunucuları ile AWS arasında veri aktarımını içerir. Verileri kaynak konum ile AWS arasında AWS Direct Connect gibi bir ağ ara bağlantısı üzerinden aktarabilir veya AWS Snow Family gibi araçlar veya hizmetler aracılığıyla çevrimdışı olarak aktarabilirsiniz.
- Veri değişim oranı – Veri ambarınızda veri güncellemeleri veya değişiklikleri ne sıklıkla gerçekleşir? Mevcut veri ambarı veri değişim oranınız, kaynak veri ambarını ve hedef Amazon Redshift’i senkronize tutmak için gereken güncelleme aralıklarını belirler. Yüksek veri değişim hızına sahip bir kaynak veri ambarı, hizmetin kaynaktan Amazon Redshift’e geçişinin bir güncelleme aralığı içinde tamamlanmasını gerektirir ve bu da daha kısa bir sistem geçişi aralığına yol açar.
- Veri dönüşümü – Mevcut veri ambarınızı Amazon Redshift’e taşımak, veri eşleme ve şema değişikliği gibi veri dönüşümlerini içeren heterojen bir geçiştir. Veri dönüşümünün karmaşıklığı, bir geçiş yinelemesi için gereken işlem süresini belirler.
- Geçiş ve ETL araçları – Geçiş ve çıkarma, dönüştürme ve yükleme (ETL) araçlarının seçimi, geçiş projesini etkileyebilir. Örneğin, bu araçların dağıtımı ve kurulumu için gereken çabalar değişebilir. AWS araçlarına ve hizmetlerine kısa süre içinde daha yakından bakacağız.
Tüm bu hususları hesaba kattıktan sonra, Amazon Redshift geçiş projeniz için bir geçiş stratejisi seçeneği belirleyebilirsiniz.
Geçiş stratejileri
Üç geçiş stratejisi arasından seçim yapabilirsiniz: Tek adımlı geçiş, iki adımlı geçiş veya dalga tabanlı (wave-based) geçiş.
Tek adımlı geçiş, devam eden veri değişikliklerini kaynak ve hedef arasında eşitlemede tutmak için sürekli çoğaltma gibi sürekli işlem gerektirmeyen veritabanları için iyi bir seçenektir. Varolan veritabanlarını virgülle ayrılmış değer (Comma Separated Value – CSV) dosyaları veya Parquet gibi sütun biçimi olarak ayıklayabilir, ardından veri kümelerini Amazon Redshift’e yüklemek üzere Amazon Simple Storage Service‘e (Amazon S3) teslim etmek için AWS Snowball gibi AWS Snow Family hizmetlerini kullanabilirsiniz. Ardından, kaynakla veri tutarlılığı için hedef Amazon Redshift veritabanını test edersiniz. Tüm doğrulamalar geçtikten sonra veritabanı AWS’e geçer.
İki adımlı geçiş, sürekli çoğaltma gibi sürekli işlem gerektiren her boyuttaki veritabanları için yaygın olarak kullanılır. Geçiş sırasında kaynak veritabanlarında devam eden veri değişiklikleri olur ve sürekli çoğaltma, veri değişikliklerini kaynak ile Amazon Redshift arasında eşitlenmiş halde tutar. İki adımlı geçiş stratejisinin kırılımı aşağıdaki gibidir:
- İlk veri geçişi – Veriler, etkiyi en aza indirmek için tercihen yoğun olmayan kullanım sırasında kaynak veritabanından çıkarılır. Daha sonra veriler, daha önce açıklanan tek adımlı geçiş yaklaşımı izlenerek Amazon Redshift’e geçirilir.
- Değişen veri taşıma – İlk veri geçişinden sonra kaynak veritabanında değişen veriler, geçişten önce hedefe yayılır. Bu adım, kaynak ve hedef veritabanlarını senkronize eder. Değiştirilen tüm veriler taşındıktan sonra, hedef veritabanındaki verileri doğrulayabilir ve gerekli testleri gerçekleştirebilirsiniz. Tüm testler başarılı olursa Amazon Redshift veri ambarına geçersiniz.
Dalga tabanlı geçiş, büyük ölçekli veri ambarı geçiş projeleri için uygundur. Dalga tabanlı geçiş ilkesi, karmaşık bir geçiş projesini çoklu mantıksal ve sistematik dalgalara bölmek için önlemler almaktır. Bu strateji, karmaşıklığı ve riski önemli ölçüde azaltabilir. Çok sayıda veri kaynağını ve orta düzeyde karmaşıklığa sahip konu alanlarını kapsayan bir iş yükünden başlarsınız, ardından sonraki her dalgada daha fazla veri kaynağı ve konu alanı eklersiniz. Bu stratejiyle, kaynak veri ambarını tamamen kullanımdan kaldırmadan önce hem kaynak veri ambarını hem de Amazon Redshift üretim ortamlarını belirli bir süre paralel olarak çalıştırırsınız. Dalga tabanlı geçiş yaklaşımını kullanarak kaynak veri ambarından Amazon Redshift’e geçiş yapmak için veri kaynaklarını ve analiz uygulamalarını belirleme ve gruplama hakkında ayrıntılı bilgi için Amazon Redshift ile veri ambarınızı modernize etmek için bir uygulama geçiş metodolojisi geliştirme bölümüne bakın.
Geçiş stratejisi kararınızı yönlendirmek için, tercih edilen bir geçiş stratejisiyle göz önünde bulundurulan faktörleri eşleştirmek için aşağıdaki tabloya bakın.
. | Tek Adımlı Geçiş | İki Adımlı Geçiş | Dalga Tabanlı Geçiş |
Geçiş kapsamındaki konu alanlarının sayısı | Küçük | Ortadan Büyüğe | Ortadan Büyüğe |
Veri aktarım hacmi | Küçükten Büyüğe | Küçükten Büyüğe | Küçükten Büyüğe |
Geçiş sırasında veri değişim hızı | Hiçbiri | Minimalden Sıka | Minimalden Sıka |
Veri dönüştürme karmaşıklığı | Herhangi | Herhangi | Herhangi |
Kaynaktan hedefe geçiş için geçiş değişikliği penceresi | Saatler | Saniyeler | Saniyeler |
Taşıma projesi süresi | Haftalar | Haftalar ila Aylar | Aylar |
Geçiş işlemi
Bu bölümde, geçiş sürecinin üç üst düzey adımını gözden geçiriyoruz. İki adımlı geçiş stratejisi ve dalga tabanlı geçiş stratejisi, üç geçiş adımının tümünü içerir. Ancak, dalga tabanlı geçiş stratejisi bir dizi yineleme içerir. Yalnızca sürekli işlemler gerektirmeyen veritabanları tek adımlı geçiş için uygun olduğundan, geçiş sürecinde yalnızca Adım 1 ve 2 gereklidir.
Adım 1: Şemayı ve konu alanını dönüştür
Bu adımda, AWS Schema Conversion Tool (AWS SCT) gibi şema dönüştürme araçlarını ve AWS iş ortaklarının diğer araçlarını kullanarak kaynak veri ambarı şemasını dönüştürerek kaynak veri ambarı şemasını Amazon Redshift şemasıyla uyumlu hale getirirsiniz. Bazı durumlarda, karmaşık şema dönüşümlerini gerçekleştirmek için özel kod kullanmanız da gerekebilir. Daha sonraki bir bölümde AWS SCT ve geçişle ilgili en iyi uygulamaları daha derinlemesine inceleyeceğiz.
Adım 2: İlk veri çıkarma ve yükleme
Bu adımda, ilk veri çıkarma işlemini tamamlar ve kaynak verileri Amazon Redshift’e ilk kez yüklersiniz. Veri boyutunuz ve veri aktarım gereksinimleriniz birbirine bağlı ağ üzerinden veri aktarmanıza izin veriyorsa, kaynak veri ambarından veri çıkarmak ve verileri Amazon S3’ye yüklemek için AWS SCT veri çıkarıcıları (AWS SCT data extractors) kullanabilirsiniz. Alternatif olarak, ağ kapasite sınırı gibi sınırlamalar varsa, Snowball’a veri yükleyebilirsiniz ve oradan veriler Amazon S3’ye yüklenir. Kaynak veri ambarındaki veriler Amazon S3’de kullanılabilir olduğunda Amazon Redshift’e yüklenir. Kaynak veri ambarı yerel araçlarının AWS SCT veri çıkarıcılarından daha iyi bir veri boşaltma ve yükleme işi yaptığı durumlarda, bu adımı tamamlamak için yerel araçları kullanmayı seçebilirsiniz.
Adım 3: Delta ve artımlı yük
Bu adımda, delta veya artımlı değişiklikleri yakalamak ve kaynaklardan Amazon Redshift’e yüklemek için AWS SCT’yi ve bazen kaynak veri ambarı yerel araçlarını kullanırsınız. Buna genellikle Change Data Capture (CDC) denir. CDC, bir veritabanında yapılan değişiklikleri yakalayan ve bu değişikliklerin veri ambarı gibi bir hedefe çoğaltılmasını sağlayan bir süreçtir.
Artık veri ambarınız için bir geçiş planı geliştirmeye başlamak için yeterli bilgiye sahip olmalısınız. Aşağıdaki bölümde, veri ambarınızı Amazon Redshift’e taşımanıza yardımcı olabilecek AWS hizmetlerine ve veri ambarı geçiş projenizin başarılı bir şekilde teslim edilmesini hızlandırmak için bu hizmetleri kullanmanın en iyi uygulamalarına daha derinlemesine dalacağım.
Veri ambarı geçiş hizmetleri
Veri ambarı geçişi, geçiş sürecini desteklemek için bir dizi hizmet ve araç içerir. Bir veritabanı geçişi değerlendirme raporu oluşturmaya ve ardından AWS SCT kullanarak kaynak veri şemasını Amazon Redshift ile uyumlu olacak şekilde dönüştürmeye başlarsınız. Verileri taşımak için AWS Data Migration Service (AWS DMS) görevleri oluşturmak ve yönetmek ve veri geçişini düzenlemek için AWS DMS ile entegrasyona sahip AWS SCT veri çıkarma aracını kullanabilirsiniz.
Kaynak ve AWS arasında birbirine bağlı ağ üzerinden kaynak verilerini aktarmak için AWS Storage Gateway, Amazon Kinesis Data Firehose, Direct Connect, AWS Transfer Family hizmetleri, Amazon S3 Transfer Acceleration ve AWS DataSync kullanabilirsiniz. Büyük miktarda veri içeren veri ambarı geçişi için veya birbirine bağlı ağ kapasitesiyle ilgili kısıtlamalar varsa, AWS Snow Family hizmetlerinden yararlanarak veri aktarabilirsiniz. Bu yaklaşımla verileri cihaza kopyalayabilir, AWS’e geri gönderebilir ve verilerin Amazon S3 aracılığıyla Amazon Redshift’e kopyalanmasını sağlayabilirsiniz.
AWS SCT, Amazon Redshift’e veri ambarı geçişinizi hızlandırmak için önemli bir hizmettir. Hadi bu konuda daha derine inelim.
AWS SCT kullanarak geçiş
AWS SCT, veri ambarı şemanızı Amazon Redshift veritabanı şemasına dönüştürme sürecinin çoğunu otomatikleştirir. Kaynak ve hedef veritabanı motorları birçok farklı özellik ve yeteneğe sahip olabileceğinden, AWS SCT, mümkün olan her yerde hedef veritabanınızda eşdeğer bir şema oluşturmaya çalışır. Doğrudan dönüştürme mümkün değilse AWS SCT, şemanızı dönüştürmenize yardımcı olmak için bir veritabanı geçişi değerlendirme raporu oluşturur. Veritabanı geçişi değerlendirme raporu, şemanın kaynak veritabanınızdan hedef veritabanınıza dönüştürülmesi hakkında önemli bilgiler sağlar. Rapor, tüm şema dönüştürme görevlerini özetler ve hedef veritabanınızın DB motoruna dönüştürülemeyen şema nesneleri için eylem öğelerinin ayrıntılarını verir. Rapor ayrıca, otomatik olarak dönüştürülemeyen eşdeğer kodu hedef veritabanınıza yazmak için gereken çaba miktarına ilişkin tahminleri de içerir.
Depolama optimizasyonu, bir veri ambarı dönüşümünün kalbidir. Amazon Redshift veritabanınızı kaynak olarak ve bir test Amazon Redshift veritabanını hedef olarak kullanırken AWS SCT, veritabanınızı optimize etmek için sıralama anahtarları ve dağıtım anahtarları önerir.
AWS SCT ile aşağıdaki veri ambarı şemalarını Amazon Redshift’e dönüştürebilirsiniz:
- Amazon Redshift
- Azure Synapse Analytics (versiyon 10)
- Greenplum Database (versiyon 4.3 ve sonrası)
- Microsoft SQL Server (versiyon 2008 ve sonrası)
- Netezza (versiyon 7.0.3 ve sonrası)
- Oracle (versiyon 10.2 ve sonrası)
- Snowflake (versiyon 3)
- Teradata (versiyon 13 ve sonrası)
- Vertica (versiyon 7.2 ve sonrası)
AWS’te, ürünümüzü geliştirmek için yeni özellikler ve geliştirmeler yayınlamaya devam ediyoruz. Desteklenen en son dönüştürmeler için AWS SCT Kullanıcı Kılavuzu‘nu ziyaret edin.
AWS SCT veri çıkarma aracını kullanarak verileri taşıma
Şirket içi veri ambarınızdan verileri çıkarmak ve bunları Amazon Redshift’e geçirmek için bir AWS SCT veri çıkarma aracı kullanabilirsiniz. Aracı, verilerinizi çıkarır ve verileri Amazon S3’ye veya büyük ölçekli geçişler için bir AWS Snowball Family hizmetine yükler. Ardından verileri Amazon Redshift’e kopyalamak için AWS SCT’yi kullanabilirsiniz. Amazon S3 bir depolama ve alma hizmetidir. Amazon S3’de bir nesneyi depolamak için saklamak istediğiniz dosyayı bir S3 klasörüne yüklersiniz. Bir dosya yüklediğinizde, nesneye ve ayrıca herhangi bir meta veriye ilişkin izinleri ayarlayabilirsiniz.
Bir AWS Snowball Family hizmetine veri yüklemeyi içeren büyük ölçekli geçişlerde, gerçek geçişi gerçekleştirmek için veri çıkarma aracının AWS DMS’i düzenlediği süreci otomatikleştirmek için AWS SCT’de sihirbaz tabanlı iş akışlarını kullanabilirsiniz.
Amazon Redshift geçiş araçlarına ilişkin hususlar
Amazon Redshift’e veri ambarı geçişini iyileştirmek ve hızlandırmak için aşağıdaki ipuçlarını ve en iyi uygulamaları göz önünde bulundurun. Bu liste ayrıntılı değildir. Veri ambarı profilinizi iyi anladığınızdan emin olun ve geçiş projeniz için hangi en iyi uygulamaları kullanabileceğinizi belirleyin.
- Bir geçiş değerlendirme raporu oluşturmak ve geçiş çabasını kapsamak için AWS SCT’yi kullanın.
- Mümkün olduğunda AWS SCT ile geçişi otomatikleştirin. Müşterilerimizin deneyimi, AWS SCT’nin DDL ve SQL komut dizilerinin çoğunu otomatik olarak oluşturabildiğini gösteriyor.
- Otomatik şema dönüştürme mümkün olmadığında, kod dönüştürme için özel komut dizisi kullanın.
- Veri taşıma performansını ve güvenilirliğini iyileştirmek için AWS SCT veri çıkarma aracılarını veri kaynağına mümkün olduğunca yakın kurun.
- Veri taşıma performansını iyileştirmek için Amazon Elastic Compute Cloud (Amazon EC2) bulut sunucunuzu ve veri çıkarma aracılarının yüklendiği eşdeğer sanal makinelerini uygun şekilde boyutlandırın.
- Ayrılan ağ bant genişliğinin kullanımını en üst düzeye çıkararak veri geçiş performansını iyileştirmek için birden çok görevi paralel olarak çalıştırmak için birden çok veri çıkarıcı aracıyı yapılandırın.
- Şema dönüştürme performansını iyileştirmek için AWS SCT bellek yapılandırmasını ayarlayın.
- Görüntüler, PDF’ler gibi büyük nesneleri ve mevcut veri ambarınızdaki diğer ikili verileri depolamak için Amazon S3’yi kullanın.
- Büyük tabloları geçirmek için sanal bölümlemeyi kullanın ve veri geçiş performansını iyileştirmek için alt görevler oluşturun.
- Direct Connect, AWS Transfer Family ve AWS Snow Family gibi AWS hizmetlerinin kullanım örneklerini anlayın. Veri taşıma gereksinimlerinizi karşılamak için doğru hizmeti veya aracı seçin.
- AWS hizmet kotalarını anlayın ve bilinçli geçiş tasarımı kararları alın.
Özet
Veriler hacim ve karmaşıklık açısından her zamankinden daha hızlı büyüyor. Ancak, bu paha biçilmez varlığın yalnızca bir kısmı analiz için kullanılabilir. Geleneksel şirket içi veri ambarları, modern büyük veri analitiği kullanım senaryoları için ölçeklenmeyen katı mimarilere sahiptir. Bu geleneksel veri ambarlarının kurulması ve işletilmesi pahalıdır ve hem yazılım hem de donanım için büyük ön yatırımlar gerektirir.
Bu gönderide, tüm verilerinizi analiz etmenize ve düşük ve tahmin edilebilir maliyetle her ölçekte performans elde etmenize yardımcı olabilecek, tümüyle yönetilen, ölçeklenebilir, modern bir veri ambarı olarak Amazon Redshift’i ele aldık.
Veri ambarınızı Amazon Redshift’e geçirmek için, veri ambarı geçiş projenizin karmaşıklığını ve maliyetini azaltmak için uygun bir geçiş stratejisi ve süreci seçmeden önce, veri ambarının toplam boyutu, veri değişim hızı ve veri dönüştürme karmaşıklığı gibi bir dizi faktörü göz önünde bulundurmanız gerekir. AWS SCT ve AWS DMS gibi AWS hizmetleriyle ve bu hizmetlerin ipuçlarını ve en iyi uygulamalarını benimseyerek geçiş görevlerini otomatikleştirebilir, geçişi ölçeklendirebilir, veri ambarı geçiş projenizin teslimini hızlandırabilir ve müşterilerinizi memnun edebilirsiniz.