Ana İçeriğe Atla

Olay Yönetimi nedir?

Olay yönetimi (IM), BT ekiplerinin planlanmamış hizmet kesintilerine yanıt vermek için kullandıkları süreçtir. Ağ bağlantısının kaybı veya bozulması, zamanlanmış bir görevin (yedekleme görevi gibi) gerçekleştirilmemesi veya yanıt vermeyen bir API gibi olaylar nedeniyle beklenmeyen kesintiler meydana gelir. Olay yönetimi süreci, BT hizmetinin hızla yeniden düzenli çalışmasını sağlamaya ve işe etkisini en aza indirmeye çalışır. Bu süreçte ekip, olayları tespit eder ve araştırır, sorunları çözer ve hizmeti eski durumuna getirmek için gerçekleştirilen adımları belgeler.

Olay yönetimi neden önemlidir?

Olay yönetimi, BT ekiplerine herhangi bir olaya en uygun yanıtı verme konusunda rehberlik eder. BT ekiplerinin daha fazla bilgi edinmek üzere ilgili tüm ayrıntıları alması için bir sistem oluşturur. Olay yönetimini, iç ve dış istemcilerde minimum kesintiyle normal operasyonları olabildiğince hızlı bir şekilde geri döndürmek için bir kılavuz olarak düşünebilirsiniz.

Sistemler mevcut olmadığında, olay kurtarma kaçınılmaz olarak tekrarlanan hatalara, kaynakların yanlış kullanılmasına ve kuruluş üzerinde daha büyük olumsuz etkilere yol açar. Daha sonra, olay yönetiminden yararlanabileceğiniz bazı yolları açıklayacağız.

Olay oluşumunu azaltın

Bir olay durumunda gözden geçirilecek bir kılavuzu sahip olan ekipler, olayları olabildiğince hızlı çözebilir. Aynı zamanda olay yönetimi, zaman içinde meydana gelen olayları da azaltır. IM sürecinde riskleri erken algıladığınızda gelecekte olay yaşanma olasılığı azalır. Adli soruşturmanın tamamını yakalamak, proaktif iyileştirmeye ve benzer olayların daha sonra meydana gelmesini önlemeye yardımcı olur.

Geliştirilmiş performans

BT olay yönetiminde etkili ve hassas izleme kullandığınızda kalitedeki küçük düşüşleri belirleyebilir ve araştırabilirsiniz. Performansı artırmanın yeni yollarını da keşfedebilirsiniz. Zamanla, BT ekibiniz hizmet olayı tanımlama örüntülerinin kalitesini değerlendirebilir, bu da tahmine dayalı iyileştirme ve sürekli hizmete yol açabilir.

Etkili iş birliği

Genellikle olay kurtarma için farklı ekiplerin birlikte çalışması gerekir. Olay yanıtı çerçevesinde tüm taraflar için iletişim yönergelerini özetleyerek iş birliğini önemli ölçüde artırabilirsiniz. Ayrıca paydaşların duygularını daha etkili bir şekilde yönetebilirsiniz.

Olay yönetimi gerektiren olaylar nelerdir?

Olay yönetimi terimi yalnızca BT alanında kullanılmaz. BT dışında, acil servisler, büyük ölçekli etkinlik yönetimi ve tesis operasyonları gibi alanlarda da bu terimi duyarsınız.

Bu makalenin amacı doğrultusunda, BT hizmet yönetimi (ITSM) bağlamında olay yönetimine (IM) atıfta bulunuyoruz. Bu bağlamda olay yönetimi, hizmet kalitesine ve müşteri hizmetlerine ilişkin yönetim faaliyetlerine odaklanmaktadır.

Daha sonra ITSM'de IM kapsamındaki farklı BT olaylarını tartışacağız.

Olay

Olay yönetimi kapsamında olaylar, BT hizmetinin beklenen veya üzerinde anlaşmaya varılan kalitesinde düşüşe neden olan beklenmedik olaylar olarak tanımlanabilir. Olayın ölçeği küçük veya büyük olabilir ve önem derecesini belirtebilirsiniz. Örneğin, hizmet kalitesindeki düşüş minimum düzeyde olabilir ve belirli bir coğrafi konumla sınırlı olabilir. Veya hizmet çok sayıda bölgede tam bir kesinti yaşayabilir.

Sorun

Sorun, olayın altında yatan, daha fazla araştırma sonrasında keşfedilen ve olayın tam çözümü için gerekli olan nedeni ifade eder. Örneğin, bir web sunucusu yavaş çalışıyorsa sorun, veri merkezindeki yönlendiricinin yanlış yapılandırılmasından veya çevredeki kopmuş bir ağ kablosundan kaynaklanıyor olabilir.

Değiştirme

IM'de değişim, örneğin kaliteyi artırmak veya yeni özellikler eklemek için bir hizmetin kendisinin değişmesi anlamına gelir. Değişim dönemi sırasında, normal iş operasyonlarındaki kesintiyi önlemek veya en aza indirmek için devretme işleminin dikkatli bir şekilde ele alınması gerekir. Bu, müşterilere beklenen veya potansiyel hizmet kesintileri konusunda tavsiyelerde bulunulmasını içerir.

Servis talebi

Servis talebi, sağlayıcı-istemci sözleşmesi şartları dâhilinde müşteri tarafından başlatılan bir taleptir. Talep normal operasyonlarda aksama olmadan gerçekleştirilmelidir.

Olay yönetimi nasıl çalışır?

Olay yönetimi, BT kesintisinin olumsuz etkisini ve süresini en aza indirmek için yapılması gerekenleri açıkça belirten bir dizi belgelenmiş süreç kullanır. Sorunun teknik yönetiminin yanı sıra, bir olay sırasında müşteri, kullanıcı ve paydaş beklentilerinin yönetimini de içerir.

Müşteriler için hizmet düzeyi sözleşmeleri (SLA'lar), olaylar için beklenen çalışma süresi garantilerini, çözüm sürelerini ve iletişim kanallarını açıkça tanımlar. Hizmet sağlayıcının SLA hüküm ve koşullarını karşılaması için kapsamlı olay yönetimi gerekir.

SLA'lar hakkında bilgi edinin”

BT olay yönetimi çerçeveleri

Kuruluşların olay yönetimini modellemek için kullandıkları çeşitli çerçeveler vardır. BT Altyapı Kitaplığı (ITIL) 4'ten Olay Yönetimi ve Ulusal Standartlar ve Teknoloji Enstitüsü'nden (NIST) Siber Güvenlik Çerçevesi bunlara örnek olarak verilebilir. Bu çerçeveler, benzersiz iş ortamlarına, hizmetlere ve müşteri ve paydaş iletişim standartlarına uyum sağlamak için olduğu gibi kullanılabilir veya genişletilebilir.

Olay yönetimi yazılımı genellikle kuruluş içinde çerçeve dağıtmak için kullanılır. Kullanılan tam çerçeve sunulan hizmetlere bağlıdır.

Olay yönetimi sürecindeki adımlar nelerdir?

Olay yönetimi süreçlerinde yer alan adımlar, kuruluş içinde kullanılan çerçeveye bağlıdır. Daha sonra, birçok yaygın olay yönetimi yaşam döngüsü çerçevesindeki ana adımları tartışıyoruz.

Riski tanımlayın

Kritik varlıkların, sistemlerin, verilerin ve diğer kaynakların belirlenmesi, işletme için en büyük risklerin nerede bulunduğunu belirler. Müşterilere hizmet sağlama bağlamında, onların en değerli sistemlerini ve varlıklarını tanımlamayı içerir.

Varlıkları koruyun

Varlıklar belirlendikten sonra, kuruluşlar güvenlik ve performans kontrollerini güçlendirir. Örneğin, bölgesel kesintiler olması durumunda sürekli kullanılabilirlik için bir uygulama çeşitli bölgelere dağıtılabilir. 

Olayları tespit edin

Herhangi bir olayın gerçek zamanlı olarak tespit edilebilmesi için kritik varlıkların durumunu izleyecek sistemler mevcut olmalıdır. Kuruluşlar anormallikleri izleme konusunda proaktif olmalıdır, bir kesintiyi ilk olarak bunu bizzat bildiren bir müşteriden öğrenmek genellikle tercih edilmez. Odak noktası proaktif iyileştirmedir.

Olaylara yanıt verin

Bir olay algılandığında herhangi bir kesintiyi hemen durdurmalısınız. Bu mümkün değilse etkiyi kontrol altına almak veya sınırlamak için bir süreç takip edebilirsiniz. Hızlı bir çözüm olmasa bile operasyonların devam edebilmesi için ikincil sistemleri de etkinleştirmeniz gerekebilir.  Olayın niteliğine ve mevcut olay yönetimi araçlarına bağlı olarak bunların çoğu otomatikleştirilebilir.

Olaylarda kurtarma sağlayın

Kurtarma aşamasında olayın analizi başlar. Öğrenilen dersleri yakalar, iyileştirilmiş yanıt planları oluşturur, sorunları ve süreçleri iyileştirirsiniz. Büyük olaylar ciddi kurtarma çabaları gerektirebilir. Aşağıdaki resimde Amazon Web Services'ın (AWS) kullandığı olay yönetimi süreçlerinden biri gösterilmektedir.

Olay yönetimi en iyi uygulamaları nelerdir?

En iyi uygulamalar, kuruluşların belirli bir iş birimi veya stratejik alanda en olgun düzeyde faaliyet göstermesine yardımcı olur. Olay yönetimi sistemlerinde en iyi uygulamaları takip ederek müşterilerinize mümkün olan en iyi hizmeti sağlayabilirsiniz.

Tırmandırma politikaları geliştirin

Zaman çizelgelerine, iyileştirmelere ve araştırmalara rehberlik etmek için olayları önceliklerine ve önem derecelerine göre sınıflandırabilmeniz gerekir. Olay yanıtı beklendiği gibi gitmediğinde ya da yüksek önceliğe veya önem derecesine sahip büyük bir olay meydana geldiğinde tırmandırma politikalarını yürürlüğe koymalısınız. Bu politikalar olmadan, ekibiniz kiminle iletişime geçeceğine ve ne yapacağına karar vermek için zaman kaybedebilir.

İletişimi ayrıntılı olarak planlayın

BT ekibinden son kullanıcılarınıza kadar tüm paydaşlar, olayların durumu hakkında bilgilendirilmelidir. Açık iletişim kanallarına sahip olmak da önemlidir, böylece etkilenenler güncellemeler için nereye gideceklerini veya yeni olayları nereye bildirmeleri gerektiğini bilirler. Açık iletişim planlarına sahip olarak güven oluşturabilir ve yersiz suçlamalardan kaçınabilirsiniz. Kritik olaylar her zaman diplomasi ile ele alınır. 

Kök neden analizi gerçekleştirin

Bir olayı çözdükten sonra, olayın ilk etapta neden meydana geldiğini anlamak için kök neden analizi yapmalısınız. Bu, gelecekte benzer olayları önlemek için sistemdeki boşlukları veya güvenlik açıklarını belirlemenize yardımcı olur. Her olaydan çıkarılan dersler, BT altyapısının ve süreçlerinin sürekli iyileştirilmesine yardımcı olur.

Kaos mühendisliği uygulamalarını benimseyin

Kaos mühendisliği, sistemlerin kasıtlı olarak sunucu arızaları, ağ gecikmeleri veya kaynak sınırlamaları gibi yıkıcı koşullara maruz bırakıldığı bir yazılım mühendisliği disiplinidir. Sistemlere kaos inşa etmek, dayanıklılıklarını test eder ve ayrıca bir kuruluşun olay yanıtı ve yönetim süreçlerini güçlendirir. Bu, siber güvenlik olay yönetiminde etik bilgisayar korsanlığı uygulamansına benzer bir tekniktir.

AWS, olay yönetim gereksinimlerinizi nasıl destekleyebilir?

AWS, kuruluşların AWS'de ve hibrit ortamlarda etkili olay yönetimi sağlamasına yardımcı olan bir dizi hizmete sahiptir.

AWS Olay Detection and Respon se, AWS Enterprise Support müşterilerine seçtikleri iş yükleri için proaktif izleme ve olay yönetimi sunar. Uzmanlarla çalışarak, bir olay durumunda kurtarmayı hızlandırmak amacıyla bir BT olay yönetim sistemi için kritik ölçümleri, alarmları ve önceliklendirme programlarını tanımlarsınız.

AWS Managed Services (AMS) , AWS olay yanıtı ve çözüm yetenekleriyle kuruluşunuzun bilgilerini ve altyapısını korumaya yardımcı olur. AMS, AWS BT olay yönetiminizi dış kaynaktan temin etmenin bir yolu olarak kullanılabilir; böylece kuruluşunuz ana işletmeye odaklanabilir. AMS ile şunları gerçekleştirebilirsiniz:

  • AWS konsolundaki AWS Destek Merkezi aracılığıyla dilediğiniz zaman operasyonel sorunlar ve isteklerle ilgili yardım isteme

  • Seçtiğiniz hesap hizmet katmanına (Plus, Premium) bağlı olarak yanıt süresi ile 7/24 desteğe erişme

  • Aynı mekanizmaları kullanarak önemli uyarıların ve soruların proaktif bildirimlerini alma

AWS Well-Architected Framework'ün bir parçası olarak, bulut olay yönetimi için de net rehberlik sağlıyoruz. AWS bulut hizmetlerini kullanan, kendi BT hizmetlerini sunan kuruluşlar için olay yönetimini planlamaya yardımcı olacak iyi bir kaynaktır. AWS Güvenlik Olayı Müdahale Kılavuzu , güvenlikle ilgili olaylar için yararlı bir başka materyaldir.

Hemen bir hesap oluşturarak AWS'de olay yönetimine başlayın.