Veri Tabanı Analizi nedir?
Veri Tabanı Analizi nedir?
Veriler, işletmelerdeki karar alma süreçlerinin temelini oluşturduğundan dikkatli bir şekilde yönetilmeyi, işlenmeyi ve analiz edilmeyi gerektirir. Verilerin hatalı işlenmesi, en yetenekli veri analistlerinin bile hatalı varsayımlarda bulunup yanlış kararlar almasına yol açabilir.
Gelişmiş bir veri analizi işlem hattı, kuruluşların eğilimleri doğru bir şekilde belirlemesine; açıklayıcı analiz, kuralcı analiz ve istatistiksel analiz gerçekleştirmesine; ayrıca makine öğrenimi ve yapay zeka yeteneklerini entegre etmesine olanak tanır.
Bir veri tabanı analiz sisteminin seçimi; mevcut verilerinize, güncel veri tabanı biçimlerine ve ihtiyaç duyulan diğer analiz türlerine bağlı olarak yapılır. Veriler; ilişkisel veri tabanları, ilişkisel olmayan veri tabanları ve diğer dosya biçimleri de dahil olmak üzere işletmelerde farklı biçimlerde saklanır. İlişkisel ve ilişkisel olmayan veri tabanları, temel analizler için yerleşik desteğe sahip olsa da bu destek, farklı iş birimleri ve kaynaklar genelinde daha derin öngörüler elde etmek için tek başına yeterli olmaz.
Veri analistleri, farklı kaynaklardan gelen verileri entegre etmek ve bunları biçimler arası ve işlevler arası veri madenciliğiyle analize hazır hale getirmek için veri ambarlarına, veri göllerine ve veri gölü evlerine ihtiyaç duyar.
Kılavuzun geri kalanında, veri tabanı analizi alanındaki tüm bu farklı teknolojileri inceleyeceğiz.
Analizde kullanılan başlıca veri sistemi türleri nelerdir?
Aşağıda, analizde kullanılabilecek farklı sistem türlerine ilişkin kısa bir genel bakış sunulmuştur.
İlişkisel veri tabanları
İlişkisel veri tabanları, satırlar ve sütunlar halinde düzenlenmiş olan yapılandırılmış veri koleksiyonlarıdır. Her tablo, gerçek dünyadaki nesneleri veya kavramları temsil eden, birbiriyle ilişkili bir veri koleksiyonu içerir.
Bir tablodaki her satır; ad, telefon numarası ve adres gibi müşteri ayrıntılarını içeren tek bir kaydı temsil eder. Her tablo, bir veya daha fazla başka tabloyla ilişkili olabilir. Örneğin bir müşteri tablosu, bir satın alma tablosuyla ilişkilendirilebilir ve bu da her satın alma işleminin belirli bir müşteriye bağlanmasına olanak tanır.
Tüm ilişkisel veri tabanı yönetim sistemleri, yukarıda açıklandığı gibi sabit bir şemaya sahiptir ve hem tablolar arasında hem de tablolar içinde veri sorgulamak için Yapılandırılmış Sorgu Dili'ni (SQL) destekler.
AWS'deki ilişkisel veri tabanı hizmetlerine örnek olarak Amazon İlişkisel Veri Tabanı Hizmeti'nin yanı sıra PostgreSQL, MySQL ve DSQL için yüksek performanslı, küresel olarak ölçeklenebilir bir ilişkisel veri tabanı çözümü olan Amazon Aurora verilebilir.
İlişkisel olmayan veri tabanları
İlişkisel olmayan veri tabanları esnek bir şemaya sahiptir ve SQL üzerinden yapılan sorguları desteklemedikleri için NoSQL veri tabanları olarak da bilinirler. Farklı ilişkisel olmayan veri tabanı türleri arasında şunlar bulunur: anahtar-değer veri tabanları, belge veri tabanları, geniş sütunlu veri tabanları, grafik veri tabanları, bellek içi veri tabanları ve arama veri tabanları.
Her NoSQL veri tabanı türü, belirli bir kullanım örneği için uygundur. Örneğin bir belge veri tabanı, şirket içi bir İçerik Yönetim Sistemi için uygunken geniş sütunlu bir depolama çözümü, bir IoT filosundan gelen zaman serisi verileri için son derece uygundur.
Aşağıda, AWS'deki ilişkisel olmayan veri tabanı hizmetlerine bazı örnekler verilmiştir.
- Amazon DynamoDB; anahtar-değer veri tabanları ve belge depoları için uygun, tek haneli milisaniyelik performansa sahip, sunucusuz, NoSQL ve tam olarak yönetilen bir veri tabanıdır.
- Amazon DocumentDB (MongoDB uyumlu), tam olarak yönetilen, yerel bir JSON belge veri tabanı hizmetidir.
- Amazon Keyspaces (Apache Cassandra İçin); ölçeklenebilir, yüksek oranda erişilebilir ve Apache Cassandra uyumlu geniş sütunlu veri tabanları için yönetilen bir hizmettir.
- Amazon Neptune; üstün analiz, ölçeklenebilirlik ve erişilebilirlik sunan, yüksek performanslı ve sunucusuz bir grafik veri tabanı hizmetidir.
- Amazon ElastiCache; Valkey, Redis ve Memcached bellek içi veri tabanlarıyla uyumlu, tam olarak yönetilen, bellek içi bir önbelleğe alma hizmetidir.
- Amazon MemoryDB; ultra yüksek hızlı performans için Valkey ve Redis OSS uyumlu, dayanıklı bir bellek içi veri tabanı hizmetidir.
Veri ambarı
Veri ambarı, ilişkisel veri tabanlarının yeteneklerini çok büyük ölçekte genişleten ve SQL sorgulamayı destekleyen bir analiz çözümüdür. Veri ambarları, çok sayıda veri tabanındaki ilişkisel verileri depolamak ve analiz etmek için kullanılır. Bir veri ambarı çözümü; Ayıklama, Dönüştürme ve Yükleme (ETL) süreci esnasında ilişkisel olmayan verileri dönüştürebilir ve analize hazır hale gelmesi için normalleştirebilir.
Amazon Redshift, verileri depolamanıza ve veri analizi iş yüklerini zahmetsizce ölçeklendirmenize yardımcı olan, yönetilen bir veri ambarı çözümüdür.
Veri gölü
Veri gölü, tüm yapılandırılmış ve yapılandırılmamış verilerinizi her ölçekte depolamanıza olanak tanıyan merkezi bir depodur. Veri dönüşümü, verilerin veri gölüne aktarılmasından önce veya sonra gerçekleştirilebilir. Bir veri gölü, ETL ve analiz için ek hizmetler gerektirir; ham verileri analiz etmek genellikle bir seçenek değildir.
Amazon S3, istenen miktarda veriyi herhangi bir yerden almak için tasarlanmış ve veri gölü olarak hizmet verebilen bir nesne verisi depolama çözümüdür. S3, veri erişimi izni ve depolanan verilerin paylaşımı için AWS Lake Formation ile birlikte kullanılabilir.
Veri gölü evi
Veri gölü evi, bir veri ambarı ile bir veri gölünün birleşimidir. Bir veri gölü evi, yapılandırılmış ve yapılandırılmamış verileri depolayabilir, şema ve yapı eklemek için bir biçim katmanı sağlar ve bir sorgulama altyapısı içerir. Tüm veriler üzerinde eş zamanlı olarak sorgu yürütebilme yeteneği sayesinde veri gölü evi, modern kurumsal veri analizinde gerekli bir katmandır.
Amazon SageMaker Göl Evi, Amazon S3 veri gölleri ile Amazon Redshift analize yönelik veri tabanı ambarlarındaki verileri birleştirir. Amazon SageMaker Göl Evi, Apache Iceberg uyumlu tüm araçları ve altyapıları kullanarak verilerinize yerinde erişme ve onları sorgulama esnekliği sunar.
Diğer türler
Kuruluş genelindeki analizlerde, çeşitli veri türleri (ham dosyalar ve tablolar gibi) ilişkisel veya ilişkisel olmayan veri tabanı modeline tam olarak uymayabilir. Bu, onların farklı biçimlerde saklandığı anlamına gelir. Örneğin yarı yapılandırılmış akış verileri Apache Avro dosyalarında saklanabilir ve her tür veriyi depolamak için Amazon S3 kullanılabilir.
Bir veri analizi sistemi seçerken muhtemelen bu dosya türlerini veri tabanlarınızla birlikte analiz etme yeteneğine de ihtiyaç duyacaksınız.
Veri tabanı analizini AWS üzerinde nasıl uygularsınız?
Farklı veri tabanları, veri türleri ve veri tabanı depolama ile yönetim sistemlerinin her biri, veri analizini kendine özgü şekillerde ele alır. Veri ambarları, veri gölleri ve veri gölü evleri üzerinde analiz yapmak, farklı stratejiler ve teknolojiler gerektirir.
AWS kaynaklarında, şirket içi kaynaklarda ve üçüncü taraf kaynaklarında depolanan verileri kataloglamak, keşfetmek, paylaşmak ve yönetmek için Amazon DataZone'u kullanarak en baştan itibaren temel bir veri yönetişimi sağlayın.
Apache Airflow İçin Amazon Tarafından Yönetilen İş Akışları (MWAA), bir işlem hattı otomasyon aracı olarak veri aktarımı ve dönüşümü yoluyla veri analizi sürecini düzenlemenize yardımcı olabilir; ayrıca veri ambarınız, veri gölünüz veya veri gölü evinizdeki analiz iş akışlarını tetikleyebilir.
1. Adım - Çeşitli kaynaklardan gelen verileri daha büyük bir sistemde merkezileştirme
Verilerinizi mevcut kaynaklardan veri ambarlarına, veri göllerine ve veri gölü evlerine aktarmanın çeşitli yolları vardır. Depolamadan önce verileri dönüştürmeniz ve temizlemeniz gerekebilir. Hassas müşteri veri türleri, erişim izinleri ve bazı veriler için yerinde erişim gibi başka hususlar da söz konusu olabilir.
Bir AWS veri ambarı, veri gölü veya veri gölü evi yapılandırmasına hazırlık olarak veri aktarmanın en kolay yolu, verileri önce S3'e taşımaktır.
- AWS Veri Tabanı Taşıma Hizmeti, veri tabanı iş yüklerini AWS altyapısına taşır. AWS Şema Dönüştürme Aracı, mevcut veri tabanı şemalarını AWS tarafından desteklenen şemalara dönüştürebilir.
- AWS Snowball, büyük miktardaki veriler için cihaz tabanlı gönder-getir aktarımı sunar.
- AWS Aktarım Çözümleri Ailesi ve AWS DataSync, veri aktarımı için ağ tabanlı alternatif yöntemler sağlar.
Akış verileri, gerçek zamanlı akış verisi teslimi için Amazon Data Firehose veya veri alımı ve toplama için Amazon Kinesis Veri Akışları gibi yeni hizmetler gerektirebilir.
2. Adım - Verileri dönüştürme ve normalleştirme
Verilerin analiz edilebilmesi için bazı verilerin dönüştürülmesi ve normalleştirilmesi gerekir.
AWS Glue, 100'den fazla farklı veri kaynağını keşfedip bunlara bağlanır, verilerinizi merkezi bir veri kataloğunda yönetir ve verileri veri göllerinize, veri ambarlarınıza ve veri gölü evlerinize yüklemek için veri işlem hatlarını görsel olarak oluşturur, yürütür ve izler. AWS Glue DataBrew, veri analistlerinin ve veri bilimcilerin verileri temizleyip normalleştirmesini kolaylaştıran görsel bir veri hazırlama aracıdır.
Amazon EMR; Apache Spark, Trino, Apache Flink ve Hive büyük veri analizleri için performansı optimize edilmiş çalışma zamanları sunarak veri gölü iş akışlarını ve işlem sürelerini basitleştirir.
Amazon SageMaker Data Wrangler, verileri makine öğrenimi için hazırlamanın en hızlı ve en kolay yolunu sunar.
3. Adım - Birleşik veri analizi
Verileriniz depolandıktan, bağlandıktan ve dönüştürüldükten sonra veri analistleri, analiz yapmak için veri ambarınızdan, veri gölünüzden veya veri gölü evinizden yararlanır. Kullanım örneğinize bağlı olarak birden fazla veri analizi tekniği mevcuttur.
Sorgulama
Amazon Redshift, veri ambarınız için yerleşik sorgulama özelliklerine sahiptir. Amazon Athena, Amazon S3 veri göllerinde depolanan yapılandırılmamış, yarı yapılandırılmış ve yapılandırılmış verileri analiz edip sorgulamanıza yardımcı olur. Kullanıcıların verileri etkileşimli olarak sorgulamasına ve görselleştirmesine olanak tanıyan gerçek zamanlı veri analizi ve keşfi için optimize edilmiştir. Ayrıca Amazon SageMaker Göl Evi de yerleşik sorgulama özellikleri sunar.
İş zekası
Amazon QuickSight; veri ambarlarını, veri göllerini ve veri gölü evlerini kapsayan, büyük ölçekte birleşik iş zekası (BI) veri analizi sağlar. Veri görselleştirme, Amazon QuickSight'ın önemli hizmetlerinden biridir.
Makine öğrenimi
Amazon Redshift ML, Redshift veri ambarlarında makine öğrenimi analizi için kullanılabilir. Amazon SageMaker, veri gölleri ve veri gölü evleri üzerinde makine öğrenimini ve diğer analiz özelliklerini sunar.
Amazon SageMaker Göl Evi hakkında
SageMaker Göl Evi'nde, tek bir veri kopyası üzerinde Apache Iceberg uyumlu tüm araçlarla verilerinize yerinde erişir ve onları sorgularsınız. SQL, Apache Spark, iş zekası (BI) ve yapay zeka/makine öğrenimi araçları gibi seçtiğiniz analiz araçlarından ve altyapılarından yararlanabilir, Amazon S3 veri gölleri ile Amazon Redshift ambarlarında depolanan verilerle iş birliği yapabilirsiniz.
Akış verileri
Amazon Kinesis, gerçek zamanlı video ve veri akışlarını hem güvenli hem de ölçeklenebilir şekilde toplayabilir, işleyebilir ve analiz edebilir.
Veri tabanı analizi gereksinimleriniz, AWS tarafından nasıl desteklenebilir?
Modern kurumsal ortamlarda veri tabanlarını analiz etmek, yalnızca SQL sorguları yapmaktan çok daha fazlasını gerektirir. Veri analistleri; veri ambarlarından, veri göllerinden ve veri gölü evlerinden yararlanarak verinin değerini ortaya çıkarabilir; çeşitli kaynaklar, türler ve işlevler genelinde veri analizi yapabilir.
Doğru veri tabanı analizi mimarisi, çözümünüzün ölçeklenebilir, çalışmaya hazır ve artık ikisi de temel bir gereklilik haline gelmiş olan makine öğrenimi hizmetleri ve tahmine dayalı analizlerle entegre edilebilir olmasını sağlamaya yardımcı olur. AWS'de hemen ücretsiz bir hesap oluşturarak kullanmaya başlayın.