Veri madenciliği nedir?

Veri madenciliği, büyük veri kümelerini işlemek ve keşfetmek üzere analiz alanında kullanılan bilgisayar destekli bir tekniktir. Kuruluşlar, veri madenciliği araçları ve yöntemleriyle, verilerindeki gizli düzenleri ve ilişkileri keşfedebilir. Veri madenciliği, ham verileri pratik bilgilere dönüştürür. Şirketler bu bilgileri problem çözmek, iş kararlarının gelecekteki etkisini analiz etmek ve kâr marjlarını artırmak için kullanır.

Veri madenciliği terimi ne anlama gelir?

”Veri madenciliği” yanlış bir tabirdir çünkü veri madenciliğinin amacı verinin kendisini çıkarmak veya madencilik yapmak değildir. Büyük miktarda veri zaten mevcuttur ve veri madenciliği bu verilerden anlam veya değerli bilgi çıkarır. Tipik veri toplama, depolama, analiz etme ve madencilik süreci aşağıda özetlenmiştir.

  • Veri toplama; müşteri geri bildirimleri, ödemeler ve satın alma siparişleri gibi farklı kaynaklardan veri toplamaktır.
  • Veri depolama, bu verilerin büyük bir veri tabanında veya veri ambarında depolanması sürecidir.
  • Veri analiz etme, karmaşık yazılım ve algoritmalar kullanarak verilerin daha fazla işlenmesi, depolanması ve analiz edilmesidir.
  • Veri madenciliği, veri analitiğinin bir dalı veya verilerdeki gizli veya önceden bilinmeyen kalıpları bulmak üzere kullanılan bir analitik stratejisidir.

Veri madenciliği neden önemlidir?

Veri madenciliği, başarılı bir analitik girişiminin çok önemli bir parçasıdır. İşletmeler; müşteri güvenini artırmak, yeni gelir kaynakları bulmak ve müşterilerin geri gelmesini sağlamak için bilgi keşif sürecini kullanabilir. Etkili veri madenciliği, iş planlaması ve operasyon yönetiminin çeşitli yönlerine destek olurlar. Aşağıda farklı sektörlerin veri madenciliğini nasıl kullandığına dair bazı örnekler verilmiştir.

Telekomünikasyon, medya ve teknoloji

Rekabetin yüksek olduğu, telekomünikasyon, medya ve teknoloji gibi sektörler, müşteri davranışlarındaki kalıpları bularak müşteri hizmetlerini iyileştirmek için veri madenciliğini kullanır. Örneğin bir şirket bant genişliği kullanım modellerini analiz edebilir ve özelleştirilmiş hizmet yükseltmeleri veya önerileri sağlayabilir.

Bankacılık ve sigorta

Finansal hizmetler, sahtecilik, uyumluluk, risk yönetimi ve müşteri kaybı sorunlarını çözmek için veri madenciliği uygulamalarını kullanabilir. Örneğin sigorta şirketleri geçmiş ürün performansını rakip fiyatlandırmasıyla karşılaştırarak en uygun ürün fiyatlandırmasını keşfedebilir.

Eğitim

Eğitim sağlayıcıları; öğrencileri test etmek, dersleri özelleştirmek ve öğrenmeyi oyunlaştırmak için veri madenciliği algoritmalarını kullanabilir. Öğrenci ilerlemesinin birleştirilmiş halde ve veriye dayalı olarak izlenmesi, eğitimcilerin öğrencilerin neye ihtiyacı olduğunu görmesini ve onları daha iyi desteklemesini sağlayabilir.

Üretim

Üretim hizmetleri; genel ekipman etkinliği, hizmet seviyeleri, ürün kalitesi ve tedarik zinciri verimliliğinde gerçek zamanlı ve tahmine dayalı analitik sağlamak üzere veri madenciliği tekniklerini kullanabilir. Örneğin üreticiler üretim makinelerinin aşınmasını tahmin etmek ve olası bakım aralıklarını öngörmek adına geçmiş verileri kullanabilir. Sonuç olarak, üretim programlarını optimize edebilir ve arıza sürelerini azaltabilirler.

Perakende

Perakende şirketleri, müşterilerin satın alma davranışları hakkında ham veriler içeren büyük müşteri veri tabanlarına sahiptir. Veri madenciliği, pazarlama kampanyaları ve satış tahminleriyle ilgili öngörüler elde etmek üzere bu verileri işleyebilirler. Daha doğru veri modelleri sayesinde perakende şirketleri, müşteri memnuniyetini artırmak için satış ve lojistiği optimize edebilir. Örneğin veri madenciliği, son dakika ürün eksikliklerini önlemek adına önceden depolanabilecek popüler sezon ürünlerini ortaya çıkarabilir.

Veri madenciliği nasıl çalışır?

Cross-Industry Standard Process for Data Mining (CRISP-DM) veri madenciliği sürecini başlatmada mükemmel bir kılavuzdur. CRISP-DM hem bir metodoloji hem de sektör, araç ve uygulamadan bağımsız bir süreç modelidir.

  • Bir metodoloji olarak, bir veri madenciliği projesindeki tipik aşamaları tanımlar, her aşamada yer alan görevleri ana hatlarıyla belirler ve bu görevler arasındaki ilişkileri açıklar.
  • Bir süreç modeli olarak CRISP-DM, veri madenciliği yaşam döngüsüne genel bir bakış sağlar.

Veri madenciliği sürecinin altı aşaması nedir?

Veri ekipleri, esnek CRISP-DM aşamalarını kullanarak gerektiğinde aşamalar arasında ileri geri hareket edebilir. Ayrıca yazılım teknolojileri bu görevlerden bazılarını yerine getirebilir veya bunları destekleyebilir.

1. İş anlayışı

Veri bilimci veya madencisi, proje hedeflerini ve kapsamını belirleyerek işe başlar. Belirli bilgileri tanımlamak için iş paydaşlarıyla işbirliği yaparlar.

  • Ele alınması gereken sorunlar
  • Proje kısıtlamaları veya sınırlamaları
  • Potansiyel çözümlerin iş üzerindeki etkisi

Daha sonra bu bilgileri veri madenciliği hedeflerini tanımlamak ve bilgi keşfi için gerekli kaynakları belirlemek amacıyla kullanırlar.

2. Veri anlama

Veri bilimciler, iş sorununu anladıktan sonra verilerin ön analizine başlarlar. Çeşitli kaynaklardan veri setleri toplar, erişim haklarını elde eder ve bir veri tanımlama raporu hazırlarlar. Raporda veri türleri, miktarı ve veri işleme için donanım ve yazılım gereksinimleri bulunur. İşletme planlarını onayladıktan sonra, verileri keşfetmeye ve doğrulamaya başlarlar. Temel istatistiksel teknikleri kullanarak verileri yönlendirir, veri kalitesini değerlendirir ve bir sonraki aşama için nihai bir veri seti seçerler.

3. Veri hazırlama

Veri madencileri en fazla zamanı bu aşamada harcarlar çünkü veri madenciliği yazılımı yüksek kaliteli veri gerektirir. İş süreçleri, madencilik dışındaki nedenlerle veri toplayıp depolar ve veri madencileri bu verileri modelleme için kullanmadan önce rafine etmelidir. Veri hazırlama aşağıdaki süreçleri içerir.

Verileri temizleme

Örneğin, eksik verileri, veri hatalarını, varsayılan değerleri ve veri düzeltmelerini ele alma.

Verileri entegre etme

Örneğin, nihai hedef veri setini elde etmeye yönelik iki farklı veri setini birleştirme.

Verileri biçimlendirme

Örneğin, veri türlerini dönüştürme veya kullanılan belirli madencilik teknolojisine yönelik veri yapılandırma.

4. Veri modelleme

Veri madencileri, hazırlanan verileri veri madenciliği yazılımına girer ve sonuçları inceler. Bunu yaparken birden fazla veri madenciliği tekniği ve aracı arasından seçim yapabilirler. Ayrıca veri madenciliği sonuçlarının kalitesini değerlendirmek için testler hazırlamaları gerekir. Veri modellemek için veri bilimciler şunları yapabilir:

  • Makine öğrenimi (ML) modellerini bilinen sonuçlara sahip daha küçük veri setleri üzerinde eğitmek
  • Bilinmeyen veri setlerini daha fazla analiz etme modelini kullanmak
  • Sonuçlar tatmin edici olana kadar veri madenciliği yazılımını ayarlamak ve yeniden yapılandırmak

5. Değerlendirme

Veri madencileri, modelleri oluşturduktan sonra verileri orijinal iş hedeflerine göre ölçmeye başlar. Sonuçları iş analistleriyle paylaşıp geri bildirim toplarlar. Model, orijinal soruya iyi yanıt verebilir veya yeni ve daha önce bilinmeyen modeller gösterebilir. Veri madencileri, iş dünyasından gelen geri bildirimlere bağlı olarak modeli değiştirebilir, iş hedefini ayarlayabilir veya verileri tekrar inceleyebilir. Sürekli değerlendirme, geri bildirim ve değişiklik bilgi keşfi sürecinin bir parçasıdır.

6. Dağıtım

Diğer paydaşlar, dağıtım sırasında iş zekası üretmek için çalışma modelini kullanır. Veri bilimcisi, diğerlerine model işlevlerini öğretmeyi, veri madenciliği uygulamasını sürekli olarak izlemeyi ve çalışmasını sağlamayı içeren dağıtım sürecini planlar. İş analistleri bu uygulamayı; yönetim raporları oluşturmak, sonuçları müşterilerle paylaşmak ve iş süreçlerini iyileştirmek için kullanır.

Veri madenciliği teknikleri nelerdir?

Veri madenciliği teknikleri, istatistiksel analiz, makine öğrenimi (ML) ve matematik dahil olmak üzere birbiriyle örtüşen çeşitli öğrenme alanlarından yararlanır. Aşağıda bazı örnekler verilmiştir.

Birliktelik kuralı madenciliği

Birliktelik kuralı madenciliği, görünüşte ilgisiz iki farklı veri kümesi arasındaki ilişkileri bulma sürecidir. Şart kipli ifadeler, iki veri noktası arasındaki ilişkinin olasılığını gösterir. Veri bilimciler sonuç doğruluğunu destek ve güven kriterlerini kullanarak ölçer. Destek, ilgili ögelerin veri setinde ne sıklıkta göründüğünü ölçerken güven, şart kipli bir ifadenin doğru kullanım sayısını gösterir.

Örneğin, müşteriler bir ürünü satın aldıklarında genellikle ilgili ikinci bir ürünü de satın alır. Perakendeciler, yeni bir müşterinin ilgisini belirlemek için geçmiş satın alma verileri üzerinde ilişkilendirme madenciliğini kullanabilir. Çevrimiçi mağazaların önerilen bölümlerini doldurmak için veri madenciliği sonuçlarını kullanırlar.

Sınıflandırma

Sınıflandırma, verileri farklı kategorilere ayırmada makine öğrenimi algoritmasını eğiten karmaşık bir veri madenciliği tekniğidir. Kategoriyi belirlemeye yönelik karar ağaçları ve en yakın komşu gibi istatistiksel yöntemler kullanır. Tüm bu yöntemlerde algoritma, yeni bir veri ögesinin türünü tahmin etmek üzere bilinen veri sınıflandırmalarıyla önceden programlanır.

Örneğin, analistler elma ve mangoların etiketli görüntülerini kullanarak veri madenciliği yazılımını eğitebilir. Yazılım daha sonra yeni bir resmin elma mı, mango mu yoksa başka bir meyve mi olduğunu belli bir doğrulukla tahmin edebilir.

Kümeleme

Kümeleme, birden fazla veri noktasını benzerliklerine göre birlikte gruplandırmaktır. Sınıflandırmadan farklıdır çünkü verileri belirli bir kategoriye göre ayıramaz ancak benzerliklerindeki örüntüleri bulabilir. Veri madenciliği sonucu, her koleksiyonun diğer gruplardan farklı olduğu, ancak her kümedeki nesnelerin bir şekilde benzer olduğu bir küme setidir.

Örneğin, anketlerden elde edilen çok değişkenli verilerle çalışırken küme analizi pazar araştırmasına yardımcı olabilir. Pazar araştırmacıları, tüketicileri pazar bölmelerine ayırmak ve farklı gruplar arasındaki ilişkileri daha iyi anlamak adına küme analizini kullanır.

Sıra ve yol analizi

Veri madenciliği yazılımı, belirli bir olay veya değer kümesinin kendisinden sonra gelecek olay veya değer kümelerine yol açtığı kalıpları da arayabilir. Düzenli aralıklarla gerçekleşen verilerdeki bazı değişimleri veya zaman içinde veri noktalarının gelgitlerini tanıyabilir.

Örneğin bir işletme, belirli ürün satışlarının tatillerden hemen önce arttığını görmek veya daha sıcak havalar nedeniyle web sitesini daha fazla kişinin ziyaret ettiğini görmek istediğinde yol analizini kullanabilir.

Veri madenciliği türleri nelerdir?

Verilere ve madenciliğin amacına bağlı olarak, veri madenciliğinin çeşitli dalları veya uzmanlıkları olabilir. Bunlardan bazıları aşağıda verilmiştir.

Süreç Madenciliği

Süreç madenciliği, iş süreçlerini keşfetmeyi, izlemeyi ve iyileştirmeyi amaçlayan bir veri madenciliği dalıdır. Bilgi sistemlerinde bulunan olay günlüklerinden bilgi çıkarır. Kuruluşların bu süreçlerde günden güne neler olduğunu görmesini ve anlamasını sağlar.

Örneğin, e-ticaret işletmelerinin satın alma, satış, ödeme, tahsilat ve sevkiyat gibi birçok süreci vardır. Satın alma veri günlüklerini inceleyerek tedarikçi teslimat güvenilirliğinin %54 olduğunu veya tedarikçilerin %12'sinin sürekli olarak erken teslimat yaptığını görebilirler. Bu bilgileri tedarikçi ilişkilerini optimize etmek için kullanabilirler.

Metin madenciliği

Metin madenciliği veya metin veri madenciliği, metni okuma ve anlamada veri madenciliği yazılımının kullanılmasıdır. Veri bilimciler metin madenciliğini web siteleri, kitaplar, e-postalar, inceleme yazıları ve makaleler gibi yazılı kaynaklarda bilgi keşfini otomatikleştirmeye yönelik kullanır.

Örneğin, bir dijital medya şirketi, çevrimiçi videolarına yapılan yorumları otomatik olarak okumak ve izleyici yorumlarını olumlu veya olumsuz olarak sınıflandırmak istediğinde metin madenciliğini kullanabilir.

Tahmine Dayalı Madencilik

Tahmine dayalı veri madenciliği, eğilimleri tahmin etmek adına iş zekasını kullanır. İş liderlerinin kararlarının, şirketin geleceği üzerindeki etkisini incelemelerini ve etkili seçimler yapmalarını sağlar.

Örneğin bir şirket kayıplara yol açmayan bir garanti planı tasarlamak için geçmiş ürün iade verilerine bakabilir. Tahmine dayalı madenciliği kullanarak gelecek yıldaki potansiyel iade sayısını tahmin edecek ve ürün fiyatını belirlerken kaybı dikkate alan bir yıllık bir garanti planı oluşturacaklardır.

AWS, veri madenciliğinde nasıl yardımcı olabilir?

Amazon SageMaker önde gelen bir veri madenciliği yazılımı platformudur. Veri madencilerinin ve geliştiricilerinin yüksek kaliteli makine öğrenimi (ML) modellerini hazırlamalarına, oluşturmalarına, eğitmelerine ve dağıtmalarına yardımcı olur. Veri madenciliği sürecine yönelik çeşitli araçlar içerir.

  • Amazon SageMaker Data Wrangler, veri toplama ve hazırlamada gereken süreyi haftalardan dakikalara indirir.
  • Amazon SageMaker Stüdyo, veri bilimcilerin makine öğrenimi geliştirme adımlarını gerçekleştirebilecekleri tek bir web tabanlı görsel arayüz sağlayarak veri bilimi ekibinin üretkenliğini artırır. SageMaker Stüdyo, veri bilimcileri modellerini oluştururken, eğitirken ve dağıtırken her adıma tam erişim, kontrol ve öngörü sağlar.
  • Dağıtılmış eğitim kütüphaneleri, modelleme esnasında büyük modelleri ve eğitim veri setlerini otomatik olarak bölmeye yönelik bölümleme algoritmalarını kullanır.
  • Amazon SageMaker Hata Ayıklayıcı, anomali tespit edildiğinde uyarı vermek gibi gerçek zamanlı eğitim ölçümlerini özümseyerek makine öğrenimi modellerini optimize eder. Böylece yanlış model tahminlerinin hemen düzeltilmesini sağlar.

Hemen ücretsiz bir AWS hesabı oluşturarak veri madenciliğine başlayın.

AWS ile veri madenciliği için sonraki adımlar

Ürünle ilgili diğer kaynaklara göz atın
Analiz hizmetleri hakkında daha fazla bilgi edinin 
Ücretsiz bir hesap için kaydolun

AWS ücretsiz kullanım için anında erişim elde edin. 

Kaydolun 
Konsolda oluşturmaya başlayın

AWS Management Console'da AWS ile oluşturmaya başlayın.

Oturum açın