Apache Spark genellikle büyük veri iş yükleri için kullanılan açık kaynak, dağıtılmış işleme sistemidir. Apache Spark hızlı performans için bellek içi önbellek ve optimize edilmiş yürütme özelliklerinden faydalanır ve genel toplu işleme, akış analizi, machine learning, grafik veritabanları ve anlık sorgular için destek sunar. Apache Spark hakkında daha fazla bilgi için buraya bakın.

Apache Spark, Amazon EMR’de yerel olarak desteklenir ve AWS Management Console, AWS CLI veya Amazon EMR API ile hızla ve kolayca yönetilen Apache Spark kümeleri oluşturabilirsiniz. Ayrıca Amazon EMR Dosya Sistemi (EMRFS) ile hızlı Amazon S3 bağlantısı, Amazon EC2 Spot market ve AWS Glue Data Catalog entegrasyonu ile kümenizde bulut sunucusu ekleme veya kaldırma işlemleri için Auto Scaling gibi ek Amazon EMR özelliklerinden faydalanabilirsiniz. Ayrıca Apache Zeppelin ile Apache Spark ile veri keşfi gerçekleştirmek üzere etkileşimli ve ortak çalışmaya uygun not defterleri oluşturabilir ve Apache MXNet gibi deep learning çerçevelerini Spark uygulamalarınızla birlikte kullanabilirsiniz.

Özellikler ve avantajlar

Hızlı performans

Apache Spark, döngüsel olmayan yönlü graf (DAG) yürütme altyapısı kullanarak veri dönüştürme için verimli sorgu planları oluşturabilir. Apache Spark aynı zamanda giriş, çıkış ve ara verileri bellek içinde dayanıklı dağıtılmış veri kümeleri (RDD) olarak depolar ve bu sayede G/Ç maliyeti olmadan hızlı işlem gerçekleştirilmesini sağlayarak yinelemeli veya etkileşimli iş yüklerinin performansını artırır.

Uygulamaları hızla geliştirin

Apache Spark tarafından sunulan yerel Java, Scala ve Python desteği sayesinde uygulamalarınızı oluşturmak için farklı programlama dili seçeneklerinden faydalanabilirsiniz. Ayrıca Spark SQL modülünü kullanarak Apache Spark’a SQL veya HiveQL sorgusu da gönderebilirsiniz. Uygulama çalıştırmaya ek olarak Apache Spark API’sini doğrudan kümenizdeki Apache Spark kabuğunda Python veya Scala ile etkileşimli bir şekilde kullanabilirsiniz. Dilerseniz Zeppelin’i de kullanarak veri keşfi ve görselleştirme için etkileşimli ve ortak çalışmaya uygun not defterleri oluşturabilirsiniz. Tüm bunlara ek olarak Amazon EMR konsolundaki Spark uygulama geçmişini veya yerel Spark kullanıcı arabirimini ve kümenizdeki geçmiş sunucusunu kullanarak iş yüklerinizi ayarlayabilir ve hata ayıklama gerçekleştirebilirsiniz.

Farklı işe akışları oluşturun

Apache Spark machine learning (MLlib), akış işleme (Spark Streaming) ve graf işleme (GraphX) uygulamaları oluşturmanıza yardımcı olacak birçok kitaplık içerir. Bu kitaplıklar Apache Spark ekosistemine sıkı bir şekilde entegre edilmiştir ve ilk andan itibaren çok farklı kullanım örneklerini desteklemek için kullanılmaya hazırdır. Dilerseniz Spark uygulamalarınızda Apache MXNet gibi deep learning çerçevelerini kullanabilirsiniz.

Amazon EMR özellik kümesiyle entegrasyon

Apache Spark işlerini Amazon EMR Step API ile gönderebilir, Apache Spark’ı EMRFS ile birlikte kullanarak Amazon S3 içindeki verilere doğrudan erişebilir, Amazon EC2 Spot kapasitesini kullanarak maliyet tasarrufu yapabilir, Auto Scaling ile dinamik olarak kapasite ekleyip kaldırabilir ve iş yükünüze uygun uzun vadeli veya kısa ömürlü kümeler oluşturabilirsiniz. Ayrıca bir Amazon EMR güvenlik yapılandırması kullanarak Spark şifrelemesi ve Kerberos ile kimlik doğrulama yapılandırmasını kolayca gerçekleştirebilirsiniz. Buna ek olarak AWS Glue Data Catalog ile Spark SQL tablo meta verilerini depolayabilir veya Spark machine learning işlem hatlarında Amazon SageMaker hizmetini kullanabilirsiniz. Amazon EMR, Apache Spark’ı Hadoop YARN üzerine yükleyip yönetir. Dilerseniz kümenize başka Hadoop ekosistemi uygulamaları da ekleyebilirsiniz. Amazon EMR özellikleri hakkında daha fazla bilgi için buraya tıklayın.

Kullanım örnekleri

Akış işlemesi

Amazon EMR'de Spark Streaming ile Amazon Kinesis, Apache Kafka veya diğer veri akışlarından gerçek zamanlı verileri kullanın ve işleyin. Hata toleranslı bir yöntemle akış analizi gerçekleştirin ve sonuçları Amazon S3 veya küme üzerindeki HDFS'ye yazın.

Machine learning

Amazon EMR'de Apache Spark, çeşitli ölçeklenebilir makine öğrenimi algoritmaları sunan MLlib'i içerir. Dilerseniz kendi kitaplıklarınızı da kullanabilirsiniz. Spark, iş sırasında veri kümelerini bellek içinde depolayarak machine learning iş yüklerinde sık kullanılan yinelemeli sorgular için yüksek performans sunar.

Etkileşimli SQL

SQL veya HiveQL ile düşük gecikme süresine sahip etkileşimli sorgular için Spark SQL hizmetini kullanabilirsiniz. Amazon EMR’de Apache Spark, EMRFS hizmetinden faydalanabildiği için Amazon S3 üzerindeki veri kümelerinize anlık erişim sağlayabilirsiniz. Ayrıca ODBC ve JDBC bağlantıları sayesinde Zeppelin not defterlerini veya BI araçlarını kullanabilirsiniz.

Müşteri başarı öyküleri

Yelp

Yelp’in reklam hedefleme ekibi, kullanıcının bir reklamla etkileşim kurma ihtimalini belirlemek için tahmine dayalı modeller tasarlamaktadır. Yelp, machine learning modellerini eğitmek için çok miktarda veriyi işlemek üzere Amazon EMR’de Apache Spark hizmetinden faydalanarak geliri ve reklam tıklama oranını artırmayı başarmıştır.

The Washington Post

The Washington Post, Amazon EMR’de Apache Spark’ı kullanarak okuyucu etkileşimini ve memnuniyetini artırma amacıyla web sitesinin öneri altyapısını geliştirmek için modeller oluşturuyor. Şirket, modelleri neredeyse gerçek zamanlı olarak güncellemek için Amazon EMR’nin yüksek performanslı Amazon S3 bağlantısından faydalanıyor.

Intent Media

Intent Media, ticari amaçlı seyahat sitelerinde reklam verilmesini sağlayan bir platform işletmektedir. Veri ekibi Amazon EMR’de Apache Spark ve MLlib özelliklerini kullanarak her gün terabaytlarca e-ticaret verisini işlemekte ve bu bilgileri müşteri gelirini optimize etme amacıyla karar alma hizmetlerinin bir parçası olarak kullanmaktadır. Daha fazla bilgi edinmek için buraya tıklayın.

200x100_Krux-Digital_Logo

Krux

Krux, müşteri öngörüleri için Veri Yönetim Platformunun bir parçası olarak Apache Spark ile birçok machine learning ve genel işleme iş yükü çalıştırmaktadır. Krux Amazon EC2 Spot kapasitesi ile Amazon EMR kümelerini kullanarak maliyet tasarrufu gerçekleştirmekte ve Apache Spark veri katmanı olarak EMRFS ile Amazon S3 hizmetinden faydalanmaktadır.

Devamını okuyun »

200x100_GumGum_Logo

GumGum

Görüntü ve ekran içi reklam platformu olan GumGum, Amazon EMR’de Apache Spark hizmetini kullanarak envanter tahmini, tıklama oranı günlüklerinin işlenmesi ve Amazon S3 hizmetindeki yapılandırılmış verilerin anlık analiz edilmesi işlemlerini gerçekleştirmektedir. Spark’ın performans geliştirmeleri sayesinde GumGum, bu iş akışlarında zamandan ve paradan tasarruf etmeyi başarmıştır.

Devamını okuyun »

200x100-hearst

Hearst Corporation

Geniş ölçekli bir medya ve bilgi şirketi olan Hearst Corporation, 200’den fazla web mülkündeki içeriği görüntüleyen müşterilere sahiptir. Amazon EMR’de Apache Spark hizmetinin akış özelliklerinden faydalanan Hearst şirketinin editör ekibi, yüksek performansa sahip olan makaleleri ve yükselişte olan konuları gerçek zamanlı olarak takip edebilmektedir.

Devamını okuyun »

200x100_CrowdStrike_Logo

CrowdStrike

CrowdStrike, ihlalleri durdurmak için uç nokta koruma hizmeti sunmaktadır. Şirket, Amazon EMR’de Apache Spark hizmetini kullanarak yüzlerce terabayt boyutundaki olay verilerini işlemekte ve konaklarla ilgili daha yüksek düzeyde davranış açıklamaları haline dönüştürmektedir. CrowdStrike bu verilerden olay verilerini toplayabilmekte ve kötü niyetli etkinlikleri tespit edebilmektedir.

Devamını okuyun »

Amazon EMR fiyatlandırması hakkında daha fazla bilgi edinin

Fiyatlandırma sayfasını ziyaret edin
Oluşturmaya hazır mısınız?
Amazon EMR'yi kullanmaya başlayın
Başka sorunuz mu var?
Bize ulaşın