Olay Yönetimi nedir?

Olay yönetimi (IM), BT ekiplerinin planlanmamış hizmet kesintilerine yanıt vermek için kullandıkları süreçtir. Ağ bağlantısının kaybı veya bozulması, zamanlanmış bir görevin (yedekleme görevi gibi) gerçekleştirilmemesi veya yanıt vermeyen bir API gibi olaylar nedeniyle beklenmeyen kesintiler meydana gelir. Olay yönetimi süreci, BT hizmetinin hızla yeniden düzenli çalışmasını sağlamaya ve işe etkisini en aza indirmeye çalışır. Bu süreçte ekip, olayları tespit eder ve araştırır, sorunları çözer ve hizmeti eski durumuna getirmek için gerçekleştirilen adımları belgeler.

Olay yönetimi gerektiren olaylar nelerdir?

Olay yönetimi terimi yalnızca BT alanında kullanılmaz. BT dışında, acil servisler, büyük ölçekli etkinlik yönetimi ve tesis operasyonları gibi alanlarda da bu terimi duyarsınız.

Bu makalenin amacı doğrultusunda, BT hizmet yönetimi (ITSM) bağlamında olay yönetimine (IM) atıfta bulunuyoruz. Bu bağlamda olay yönetimi, hizmet kalitesine ve müşteri hizmetlerine ilişkin yönetim faaliyetlerine odaklanmaktadır.

Daha sonra ITSM'de IM kapsamındaki farklı BT olaylarını tartışacağız.

Olay

Olay yönetimi kapsamında olaylar, BT hizmetinin beklenen veya üzerinde anlaşmaya varılan kalitesinde düşüşe neden olan beklenmedik olaylar olarak tanımlanabilir. Olayın ölçeği küçük veya büyük olabilir ve önem derecesini belirtebilirsiniz. Örneğin, hizmet kalitesindeki düşüş minimum düzeyde olabilir ve belirli bir coğrafi konumla sınırlı olabilir. Veya hizmet çok sayıda bölgede tam bir kesinti yaşayabilir.

Sorun

Sorun, olayın altında yatan, daha fazla araştırma sonrasında keşfedilen ve olayın tam çözümü için gerekli olan nedeni ifade eder. Örneğin, bir web sunucusu yavaş çalışıyorsa sorun, veri merkezindeki yönlendiricinin yanlış yapılandırılmasından veya çevredeki kopmuş bir ağ kablosundan kaynaklanıyor olabilir.

Değiştirme

IM'de değişim, örneğin kaliteyi artırmak veya yeni özellikler eklemek için bir hizmetin kendisinin değişmesi anlamına gelir. Değişim dönemi sırasında, normal iş operasyonlarındaki kesintiyi önlemek veya en aza indirmek için devretme işleminin dikkatli bir şekilde ele alınması gerekir. Bu, müşterilere beklenen veya potansiyel hizmet kesintileri konusunda tavsiyelerde bulunulmasını içerir.

Servis talebi

Servis talebi, sağlayıcı-istemci sözleşmesi şartları dâhilinde müşteri tarafından başlatılan bir taleptir. Talep normal operasyonlarda aksama olmadan gerçekleştirilmelidir.

Olay yönetimi nasıl çalışır?

Olay yönetimi, BT kesintisinin olumsuz etkisini ve süresini en aza indirmek için yapılması gerekenleri açıkça belirten bir dizi belgelenmiş süreç kullanır. Sorunun teknik yönetiminin yanı sıra, bir olay sırasında müşteri, kullanıcı ve paydaş beklentilerinin yönetimini de içerir.

Müşteriler için hizmet düzeyi sözleşmeleri (SLA'lar), olaylar için beklenen çalışma süresi garantilerini, çözüm sürelerini ve iletişim kanallarını açıkça tanımlar. Hizmet sağlayıcının SLA hüküm ve koşullarını karşılaması için kapsamlı olay yönetimi gerekir.

SLA'lar hakkında bilgi edinin »

BT olay yönetimi çerçeveleri

Kuruluşların olay yönetimini modellemek için kullandıkları çeşitli çerçeveler vardır. BT Altyapı Kitaplığı (ITIL) 4'ten Olay Yönetimi ve Ulusal Standartlar ve Teknoloji Enstitüsü'nden (NIST) Siber Güvenlik Çerçevesi bunlara örnek olarak verilebilir. Bu çerçeveler, benzersiz iş ortamlarına, hizmetlere ve müşteri ve paydaş iletişim standartlarına uyum sağlamak için olduğu gibi kullanılabilir veya genişletilebilir.

Olay yönetimi yazılımı genellikle kuruluş içinde çerçeve dağıtmak için kullanılır. Kullanılan tam çerçeve sunulan hizmetlere bağlıdır.

 

Olay yönetimi sürecindeki adımlar nelerdir?

Olay yönetimi süreçlerinde yer alan adımlar, kuruluş içinde kullanılan çerçeveye bağlıdır. Daha sonra, birçok yaygın olay yönetimi yaşam döngüsü çerçevesindeki ana adımları tartışıyoruz.

Riski tanımlayın

Kritik varlıkların, sistemlerin, verilerin ve diğer kaynakların belirlenmesi, işletme için en büyük risklerin nerede bulunduğunu belirler. Müşterilere hizmet sağlama bağlamında, onların en değerli sistemlerini ve varlıklarını tanımlamayı içerir.

Varlıkları koruyun

Varlıklar belirlendikten sonra, kuruluşlar güvenlik ve performans kontrollerini güçlendirir. Örneğin, bölgesel kesintiler olması durumunda sürekli kullanılabilirlik için bir uygulama çeşitli bölgelere dağıtılabilir. 

Olayları tespit edin

Herhangi bir olayın gerçek zamanlı olarak tespit edilebilmesi için kritik varlıkların durumunu izleyecek sistemler mevcut olmalıdır. Kuruluşlar anormallikleri izleme konusunda proaktif olmalıdır, bir kesintiyi ilk olarak bunu bizzat bildiren bir müşteriden öğrenmek genellikle tercih edilmez. Odak noktası proaktif iyileştirmedir.

Olaylara yanıt verin

Bir olay algılandığında herhangi bir kesintiyi hemen durdurmalısınız. Bu mümkün değilse etkiyi kontrol altına almak veya sınırlamak için bir süreç takip edebilirsiniz. Hızlı bir çözüm olmasa bile operasyonların devam edebilmesi için ikincil sistemleri de etkinleştirmeniz gerekebilir.  Olayın niteliğine ve mevcut olay yönetimi araçlarına bağlı olarak bunların çoğu otomatikleştirilebilir.

Olaylarda kurtarma sağlayın

Kurtarma aşamasında olayın analizi başlar. Öğrenilen dersleri yakalar, iyileştirilmiş yanıt planları oluşturur, sorunları ve süreçleri iyileştirirsiniz. Büyük olaylar ciddi kurtarma çabaları gerektirebilir. Aşağıdaki resimde Amazon Web Services'ın (AWS) kullandığı olay yönetimi süreçlerinden biri gösterilmektedir.

Olay yönetimi en iyi uygulamaları nelerdir?

En iyi uygulamalar, kuruluşların belirli bir iş birimi veya stratejik alanda en olgun düzeyde faaliyet göstermesine yardımcı olur. Olay yönetimi sistemlerinde en iyi uygulamaları takip ederek müşterilerinize mümkün olan en iyi hizmeti sağlayabilirsiniz.

Tırmandırma politikaları geliştirin

Zaman çizelgelerine, iyileştirmelere ve araştırmalara rehberlik etmek için olayları önceliklerine ve önem derecelerine göre sınıflandırabilmeniz gerekir. Olay yanıtı beklendiği gibi gitmediğinde ya da yüksek önceliğe veya önem derecesine sahip büyük bir olay meydana geldiğinde tırmandırma politikalarını yürürlüğe koymalısınız. Bu politikalar olmadan, ekibiniz kiminle iletişime geçeceğine ve ne yapacağına karar vermek için zaman kaybedebilir.

İletişimi ayrıntılı olarak planlayın

BT ekibinden son kullanıcılarınıza kadar tüm paydaşlar, olayların durumu hakkında bilgilendirilmelidir. Açık iletişim kanallarına sahip olmak da önemlidir, böylece etkilenenler güncellemeler için nereye gideceklerini veya yeni olayları nereye bildirmeleri gerektiğini bilirler. Açık iletişim planlarına sahip olarak güven oluşturabilir ve yersiz suçlamalardan kaçınabilirsiniz. Kritik olaylar her zaman diplomasi ile ele alınır. 

Kök neden analizi gerçekleştirin

Bir olayı çözdükten sonra, olayın ilk etapta neden meydana geldiğini anlamak için kök neden analizi yapmalısınız. Bu, gelecekte benzer olayları önlemek için sistemdeki boşlukları veya güvenlik açıklarını belirlemenize yardımcı olur. Her olaydan çıkarılan dersler, BT altyapısının ve süreçlerinin sürekli iyileştirilmesine yardımcı olur.

Kaos mühendisliği uygulamalarını benimseyin

Kaos mühendisliği, sistemlerin kasıtlı olarak sunucu arızaları, ağ gecikmeleri veya kaynak sınırlamaları gibi yıkıcı koşullara maruz bırakıldığı bir yazılım mühendisliği disiplinidir. Sistemlere kaos inşa etmek, dayanıklılıklarını test eder ve ayrıca bir kuruluşun olay yanıtı ve yönetim süreçlerini güçlendirir. Bu, siber güvenlik olay yönetiminde etik bilgisayar korsanlığı uygulamansına benzer bir tekniktir.

AWS, olay yönetim gereksinimlerinizi nasıl destekleyebilir?

AWS, kuruluşların AWS'de ve hibrit ortamlarda etkili olay yönetimi sağlamasına yardımcı olan bir dizi hizmete sahiptir.

AWS Olay Algılama ve Yanıtlama, belirli iş yükleri için AWS Kurumsal Destek müşterilerine proaktif izleme ve olay yönetimi sunar. Uzmanlarla çalışarak, bir olay durumunda kurtarmayı hızlandırmak amacıyla bir BT olay yönetim sistemi için kritik ölçümleri, alarmları ve önceliklendirme programlarını tanımlarsınız.

AWS Yönetilen Hizmetler (AMS), AWS olay yanıtı ve çözüm özellikleriyle kuruluşunuzun bilgilerinin yanı sıra altyapısının korunmasına yardımcı olur. AMS, AWS BT olay yönetiminizi dış kaynaktan temin etmenin bir yolu olarak kullanılabilir; böylece kuruluşunuz ana işletmeye odaklanabilir. AMS ile şunları gerçekleştirebilirsiniz:

  • AWS konsolundaki AWS Destek Merkezi aracılığıyla dilediğiniz zaman operasyonel sorunlar ve isteklerle ilgili yardım isteme
  • Seçtiğiniz hesap hizmet katmanına (Plus, Premium) bağlı olarak yanıt süresi ile 7/24 desteğe erişme
  • Aynı mekanizmaları kullanarak önemli uyarıların ve soruların proaktif bildirimlerini alma

AWS Well-Architected Çerçevesi'nin bir parçası olarak, bulut olay yönetimi için de net rehberlik sağlıyoruz. AWS bulut hizmetlerini kullanan, kendi BT hizmetlerini sunan kuruluşlar için olay yönetimini planlamaya yardımcı olacak iyi bir kaynaktır. AWS Güvenliği Olay Yanıtı Kılavuzu, güvenlikle ilgili olaylar için başka bir yararlı materyaldir.

Hemen bir hesap oluşturarak AWS'de olay yönetimini kullanmaya başlayın.

AWS ile Sonraki Adımlar

Ürünle ilgili diğer kaynaklara göz atın
Yönetim ve yönetişim hizmetleri hakkında bilgi edinin  
Ücretsiz bir hesap için kaydolun

AWS Ücretsiz Kullanım için anında erişim elde edin.

Kaydolun 
Konsolda oluşturmaya başlayın

AWS Yönetim Konsolu'nda oluşturmaya başlayın.

Oturum açın