Ana İçeriğe Atla

Veri madenciliği teknikleri nelerdir?

Veri madenciliği teknikleri sayesinde kuruluşlar, kendi verileri içindeki güç algılanan örüntüleri ve ilişkileri ortaya çıkarabilir. Bu teknikler, ham verileri; sorunları çözmek, iş kararlarının gelecekteki etkisini analiz etmek ve kâr marjlarını artırmak için kullanılabilecek pratik bilgilere dönüştürür. Bu kılavuz, çeşitli veri madenciliği tekniklerini ve bunların AWS'de nasıl uygulanacağını ele almaktadır.

Kuruluşlar, çeşitli iş süreçlerinden gelen büyük hacimli bilgileri depolar ve işler. Veri madenciliği, veri modelleme ve tahmine dayalı analizlerle geçmiş verilerden değerli öngörüler edinilmesine yardımcı olur. Modern veri madenciliği, iş öngörülerini hızlandırmak ve daha iyi sonuçlar elde etmek için genellikle yapay zeka ve makine öğrenimi teknolojilerinden yararlanır.

Ancak işletmeler, şirket içi altyapıyla bilgi keşfi yaparken zorluklarla karşılaşır. Özellikle veri madenciliği araçlarını çeşitli veri kaynaklarıyla entegre etmeleri, üçüncü taraf uygulamalarla bağlantı kurmaları ve sonuçlar hakkında çeşitli paydaşları bilgilendirmeleri gerekir ki bu işlemler, geleneksel altyapıyla gerçekleştirildiğinde yüksek maliyetli olur.

AWS, kuruluşların veri madenciliği süreçlerini bulutta ölçeklendirmesine yardımcı olan yönetilen hizmetler sunar. Güçlü veri madenciliği yeteneklerini, üretken yapay zeka uzmanlığını ve en iyi veri yönetişimi uygulamalarını Amazon SageMaker'da bir araya getiririz. Böylece veri bilimciler, çeşitli kaynaklardan gelen verileri birleştirebilir, karmaşık veri analizi sorguları çalıştırabilir ve verileri güvenlik politikalarına göre daha etkili şekilde izleyebilir.

Kuruluşlar, veri akışını iyileştirmenin yanı sıra kendi altyapılarını tedarik etmek zorunda kalmadan gelişmiş analizleri daha uygun maliyetle sunabilir. Örneğin Lennar, iş öngörülerinin veri ekibi tarafından daha etkili şekilde elde edilmesini sağlamak amacıyla Amazon SageMaker Birleşik Stüdyosu ve Amazon SageMaker Göl Evi'ni kullanarak veri temelini dönüştürmüştür.

Bir sonraki bölümde çeşitli veri madenciliği teknikleri ve AWS araçlarının bu tekniklere nasıl yardımcı olabileceği açıklanmaktadır.

Veri ön işleme, veri madenciliğinde nasıl kullanılır?

Veri ön işleme, ham verileri veri madenciliği sinir ağları tarafından anlaşılabilecek bir biçime dönüştürür. Veri modelinin performansını önemli ölçüde etkilediğinden veri madenciliğinin kritik bir parçasıdır. Ham veriler genellikle modelin sonucunu olumsuz yönde etkileyebilecek hatalar, yinelenen kayıtlar ve eksik bilgiler içerebilir. Veri ön işleme sayesinde verileri temizleyebilir ve bu tür anomalileri ortadan kaldırabilirsiniz. Ayrıca veri bilimciler, iş öngörülerine katkıda bulunan belirli özellikleri seçebilir ve gereksiz bilgileri eleyebilir. Örneğin müşteri kaybını tahmin ederken ortalama aylık kullanım, son oturum açma tarihi ve destek taleplerinin sıklığı gibi özellikleri seçersiniz. Bu özellik seçimi süreci, veri madenciliği için gereken işlem kaynaklarını azaltmanıza olanak tanıyan bir özellik mühendisliği adımıdır.

Amazon SageMaker Data Wrangler, veri kalitesini ve dolayısıyla analiz sonuçlarını iyileştirmenize yardımcı olan bir veri hazırlama aracıdır. Amazon SageMaker Data Wrangler'ı veri işlem hattınıza bağlı çeşitli veri kaynaklarında kullanabilirsiniz. Amazon SageMaker Data Wrangler, kod gerektirmeyen yaklaşımı sayesinde verileri temizlemek için saatler harcamak yerine bu işlemi dakikalar içinde tamamlar. SageMaker Data Wrangler ile makine öğrenimi modeliniz için verileri nasıl hazırlayacağınız aşağıda açıklanmıştır.

1. Adım - Seçme ve sorgulama

AWS ve üçüncü taraf depolama alanlarındaki metin, görüntü ve tablosal verilere erişip bunları almak için görsel sorgu oluşturucuyu kullanın. Ardından aykırı değerler, sınıf dengesizliği ve veri sızıntısı gibi anormallikleri tespit etmek için veri kalitesi raporlarındaki bulguları uygulayın.

2. Adım - Temizleme ve zenginleştirme

Önceden oluşturulmuş PySpark dönüşümleri ve bir doğal dil arabirimiyle verilerinizi dönüştürün. Amazon SageMaker Data Wrangler; metin vektörleştirme, tarih/saat verilerinden özellik çıkarma, kodlama ve veri dengeleme gibi yaygın veri dönüşümlerini destekler. Ayrıca kendi kullanım örneğinizi desteklemeye yönelik özelleştirilmiş dönüşümleri de kolayca oluşturabilirsiniz.

3. Adım - Görselleştirme ve anlama

Hazırlanan verileri; çizelgeler, diyagramlar ve diğer görsel araçlarla doğrulayın. Ardından bir modeli fiilen eğitmeden önce sonucunu tahmin etmek için hızlı bir analiz çalıştırın.

Keşif amaçlı veri analizi nedir?

Keşif amaçlı veri analizi (EDA), veri bilimcilerin gizli örüntüleri ortaya çıkarmasına, anlamlı ilişkileri belirlemesine ve verilerdeki anormallikleri saptamasına olanak tanıyan bir veri bilimi tekniğidir. EDA sürecinde genellikle histogramlar, çizelgeler ve grafikler gibi görsel araçlardan faydalanılır. EDA'nın amacı, sonraki veri analizi adımları için rehberlik sağlamaktır. Ayrıca veri bilimcilerin değerlendirmelerini varsayımlardan ve ön yargılardan arındırmasına yardımcı olur.

Basitçe ifade etmek gerekirse EDA; zaman serisi analizi, mekansal analiz ve dağılım grafikleri gibi istatistiksel modelleme ve teknikler aracılığıyla gözlemlenebilen kanıtlar sunar. Ancak EDA gerçekleştirmek, entegre bir şekilde birlikte çalışması gereken bir dizi veri madenciliği aracı gerektirir. Kurulum maliyetli olabilir. 

Amazon SageMaker Birleşik Stüdyosu, ekibinizin veri analizi iş yükleri oluşturmasına, dağıtmasına ve paylaşmasına olanak tanıyan tek bir yapay zeka ve veri platformudur. Bu platformu; Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Amazon Bedrock ve Amazon SageMaker AI gibi AWS'nin alışkın olduğunuz yapay zeka/makine öğrenimi araçları, depolama alanları ve analiz çözümleriyle çalışmak için kullanabilirsiniz.

Aşağıda Amazon SageMaker Birleşik Stüdyosu ile keşif amaçlı veri analizini (EDA) hızlandırmanın yolları açıklanmıştır.

  • Veri analizi modellerini eğitirken kullanmak istediğiniz veri varlıklarına abone olun, bunları yönetin ve bunlara yönelik kurallar belirleyin.
  • Veri göllerinde, veri ambarlarında ve diğer kaynaklarda depolanan verileri sorgulayın.
  • Veri kaynakları ile hedef arasına dönüştürme modülleri eklemek için yerleşik bir görsel arabirimle iş akışı oluşturun.

Veri madenciliğinde tahmine dayalı analiz nedir?

Veri madenciliğinde tahmine dayalı analiz, keşfedilen veri örüntülerinden yararlanarak gelecekteki sonuçları öngörmekte kullanılır. Bu amaçla veriler, öğrendikleri bilgilere dayanarak işletmelerin kararlarını desteklemeye yönelik tahminlerde bulunan makine öğrenimi modellerine beslenir. Örneğin finans şirketleri; piyasa eğilimlerini tahmin etmek, dolandırıcılığı tespit etmek ve kredi risklerini değerlendirmek için tahmine dayalı analizleri kullanır.

Amazon SageMaker Canvas, tahmine dayalı modelleri büyük ölçekte eğitmenize, test etmenize ve dağıtmanıza olanak tanıyan görsel bir geliştirme aracıdır. Temel modellere ve özel makine öğrenimi (ML) algoritmalarına erişim sağlayarak çeşitli kullanım örnekleri için doğru tahminler üretilmesini mümkün kılar.

Ayrıca Amazon Q Geliştirici kullanarak tüm veri iş akışını konuşma dilinden faydalanarak oluşturabilirsiniz. Bu, makine öğrenimi ve veri analizi görevlerini günlük dilde açıklamanıza olanak tanıyan bir üretken yapay zeka asistanıdır. Ardından yapay zeka ve verilerle daha verimli çalışmanıza yardımcı olmak amacıyla açıklamalarınızı sorgulara, SQL komut dizilerine, eyleme dönüştürülebilir adımlara, kod önerilerine ve daha fazlasına dönüştürür.

Aşağıda, tahmine dayalı analizleri etkinleştirmek için Amazon SageMaker Canvas ile oluşturup dağıtabileceğiniz modeller yer almaktadır.

Sınıflandırma

Sınıflandırma modelleri, öğrendikleri özelliklere dayanarak daha önce görülmemiş verilere etiketler atayabilir. Örneğin yapay zeka destekli bir müşteri destek sistemi, sohbetteki kelimeleri analiz ederek geri bildirimleri olumlu, olumsuz veya nötr olarak sınıflandırabilir. Amazon SageMaker Canvas; metin sınıflandırma, görüntü sınıflandırma, anormallik tespiti ve nesne tespiti gibi çeşitli sorun türleri için sınıflandırma modellerini destekler.

İlişkilendirme kuralı madenciliği

İlişkilendirme kuralı madenciliği (ARM), veri noktaları arasındaki ilişkiyi keşfeder ve tahmine dayalı analiz, işlem hattını zenginleştirmek için kullanılabilir. Örneğin alışveriş sepeti analizi yapmak ve bir süpermarkette hangi ürünlerin sıklıkla birlikte satın alındığını bulmak için ARM'yi kullanabilirsiniz. Amazon SageMaker, Python gibi çerçeveleri kullanarak kendi özel ARM algoritmalarınızı oluşturmanıza ve bunları AWS'deki yapay zeka/makine öğrenimi iş akışınız kapsamında dağıtmanıza olanak tanır.

Kümeleme

Kümeleme, verileri benzer niteliklere göre gruplandırarak tahmine dayalı analizleri dolaylı olarak destekler. Örneğin müşterileri ortalama harcama değerine göre kümeleyebilirsiniz. Ardından kümelenmiş müşteriler tahmine dayalı bir modeldeki özelliklerden biri olarak kullanılır. Veri bilimcileri, verileri kümelemek için genellikle K-means algoritmasını kullanır. Amazon SageMaker, K-means algoritmasının daha doğru sonuçlar ve daha yüksek ölçeklenebilirlik sağlayan değiştirilmiş bir sürümünü kullanır.

Anormallik algılama

Makine öğrenimi modelleri, veri örüntülerindeki aykırı değerleri algılamak üzere eğitilebilir. Örneğin fabrikalar, makinelerdeki potansiyel arızaları belirlemek için tahmine dayalı modellerden yararlanır. Anormallik algılama, operasyonel kesintileri önleme amaçlı önleyici bakım yapma gibi proaktif risk azaltma eylemlerini destekler.

Amazon SageMaker'da verilere düşük (normal) ve yüksek (anormal) puanlar atayan Random Cut Forest algoritmasını kullanarak anormal örüntüleri tespit edebilirsiniz.

Belge madenciliği nedir?

Belge madenciliği; belgelerde bulunan metin, görüntü veya tablo verilerini keşfeden, ayıklayan ve analiz eden bir makine öğrenimi tekniğidir. Kuruluşlar, depoladıkları belgelere veri madenciliği teknolojilerini uygulayarak maliyetleri azaltabilir, müşteri deneyimini geliştirebilir ve operasyonel verimliliği artırabilir. Örneğin hukuk firmaları, belge madenciliğini kullanarak sözleşmelerden belirli maddeleri otomatik olarak ayıklayabilir.

Amazon SageMaker Canvas ile kullanıma hazır belge madenciliği modellerini uygulayabilirsiniz. Bu modeller önceden eğitilmiştir; bu da onları ek ince ayar yapmadan veri madenciliği iş akışınıza entegre edebileceğiniz anlamına gelir. Model, kurulum tamamlandıktan sonra anlamlı örüntüler bulmak için belgelerdeki ham verileri analiz eder. Ardından verileri buna göre ayıklar, sınıflandırır veya etiketler.

Örneğin kişisel bilgi algılama modeli; adresler, banka hesap numaraları ve telefon numaraları gibi bilgilerin metinsel veriler içinde algılanmasını sağlar. Gider analizi modeli ise makbuzlardan ve faturalardan tutar, tarih ve ögeler gibi bilgileri alır.

Amazon SageMaker Canvas ile belge madenciliği tekniklerini nasıl uygulayacağınız aşağıda açıklanmıştır.

  1. SageMaker yapay zeka etki alanınızı oluşturun ve Canvas Kullanıma Hazır Modellerini etkinleştirin.
  2. Analiz etmek istediğiniz belge veri kümelerini içe aktarın. Böylece bir veri akışı oluşturabilirsiniz.
  3. Tahminler üretmek için bir veri madenciliği modeli seçin. Ayarlardan tekli veya toplu tahminleri seçebilirsiniz.

AWS, veri madenciliği teknikleri konusunda nasıl yardımcı olabilir?

Veri madenciliği teknikleri, işletmelerin ürettikleri verilerden değerli öngörüler ortaya çıkarmasına ve bu sayede bilinçli kararlar almasına olanak tanır. Başarılı bir veri madenciliği süreci, çeşitli kaynaklardan gelen ham verileri güçlü yapay zeka/makine öğrenimi modellerine bağlayan, optimize edilmiş bir veri işlem hattı gerektirir.

Veri işlem hattı; veri ayıklama, depolama, temizleme ve dönüştürme süreçlerini otomatikleştirerek sonraki modellerin yüksek kaliteli ve doğru veriler almasını sağlar. Ardından anlamlı öngörüler elde etmek için çeşitli veri madenciliği teknikleri uygularsınız.

Daha iyi iş sonuçları sağlayan tahmine dayalı öngörüler elde etmek ve karmaşık veri iş akışlarını basitleştirmek için Amazon SageMaker hizmetini keşfedin.