Bilgisayarlı görü nedir?
Bilgisayarlı görü, makinelerin görüntüleri otomatik olarak tanımak, doğru ve verimli bir şekilde tanımlamak için kullandığı bir teknolojidir. Günümüzde bilgisayar sistemleri; kaynağı akıllı telefonlar, trafik kameraları, güvenlik sistemleri ve diğer cihazlar olan veya bunlar tarafından oluşturulan büyük hacimli görüntülere ve video verilerine erişebiliyor. Bilgisayarlı görü uygulamaları, bu verileri nesne tanımlama ve yüz tanımanın yanı sıra sınıflandırma, öneri, izleme ve algılama için doğru bir şekilde işlemek üzere yapay zeka ve makine öğrenimini (AI/ML) kullanır.
Bilgisayarlı görü neden önemlidir?
Görsel bilgi işleme teknolojisinin bir süredir mevcut olmasına karşın, sürecin büyük bir kısmı insan müdahalesi gerektiriyordu; zaman alıcı ve hataya açıktı. Örneğin, geçmişte bir yüz tanıma sistemini uygulamak, geliştiricilerin binlerce görüntüyü, burun köprüsünün genişliği ve gözler arasındaki mesafe gibi anahtar veri noktalarıyla manuel olarak etiketlemesini gerektiriyordu. Görüntü verileri yapılandırılmamış ve bilgisayarlar tarafından düzenlenmesi karmaşık olduğundan, bu görevlerin otomatikleştirilmesi yoğun bilgi işlem gücü gerektiriyordu. Bu nedenle, görü uygulamaları pahalı ve çoğu kuruluş için erişilmezdi.
Günümüzde, bu alanda yapılan ilerleme, bilgi işlem gücündeki önemli artışla birleşerek görüntü verisi işlemenin hem ölçeğini hem de doğruluğunu artırdı. Bulut bilgi işlem kaynaklarıyla desteklenen bilgisayarlı görü sistemlerine artık herkes erişilebiliyor. Kuruluşlar bu teknolojiyi kimlik doğrulama, içerik denetleme, video akışı analizi, hata algılama ve daha fazlası için kullanabiliyor.
Bilgisayarlı görünün kullanım örnekleri nelerdir?
Eğlence, iş, sağlık hizmetleri, ulaşım ve günlük yaşamda çok sayıda bilgisayarlı görü uygulaması kullanılıyor. Aşağıda bazı kullanım örneklerini inceliyoruz:
Güvenlik ve emniyet
Resmi kurumlar ve işletmeler varlıkların, mekanların ve tesislerin güvenliğini artırmak için bilgisayarlı görüyü kullanıyor. Örneğin, kameralar ve sensörler kamusal alanları, sanayi bölgelerini ve yüksek güvenlikli ortamları izliyor. Yasak bir bölgeye giren yetkisiz bir kişi gibi olağan dışı bir durumda bu cihazlar otomatik uyarılar gönderir.
Benzer şekilde, bilgisayarlı görü evde ve iş yerinde kişisel güvenliği artırabilir. Örneğin, tanıma teknolojisi güvenlikle ilgili sayısız sorunu izleyebilir. Bunların arasında evde evcil hayvanları algılayan gerçek zamanlı akışlar veya ziyaretçileri ya da teslim edilen paketleri algılayan canlı ön kapı kameraları sayılabilir. İş yerinde ise bu tür izleme, işçiler tarafından uygun kişisel koruyucu ekipmanların giyilmesini, bilgilendirici uyarı sistemlerini veya rapor oluşturmayı içerir.
Operasyonel verimlilik
Bilgisayarlı görü, görüntüleri analiz edebilir ve iş zekası için meta verileri ayıklayabilir. Bu sayede yeni gelir fırsatları ve operasyonel verimlilik sağlar. Örneğin, şunları yapabilir:
- Ürünler fabrikadan çıkmadan kalite kusurlarını otomatik olarak belirleme
- Makine bakım ve güvenlik sorunlarını algılama
- Müşteri davranışındaki eğilimleri ve kalıpları keşfetmek için sosyal medya görüntülerini analiz etme
- Otomatik yüz tanıma ile çalışanların kimliğini doğrulama
Sağlık hizmetleri
Sağlık hizmetleri, bilgisayarlı görü teknolojisini uygulayan önde gelen sektörlerden biridir. Özellikle tıbbi görüntü analizi, tıp uzmanlarının hızlı ve doğru teşhis koymasına yardımcı olacak şekilde organ ve dokuların görselleştirilmesine olanak tanıyarak daha iyi tedavi sonuçları ve yaşam beklentisi sağlar. Örneğin:
- Cilt benlerini ve deri lezyonlarını analiz ederek tümör algılama
- Otomatik röntgen analizi
- MRI taramalarından belirti keşfi
Otonom araçlar
Otonom araç teknolojisi, gerçek zamanlı görüntüleri tanımak ve otonom taşıma aracına takılan birden fazla kameradan 3B haritalar oluşturmak için bilgisayarlı görüyü kullanır. Görüntüleri analiz edebilir ve diğer yol kullanıcılarını, yol işaretlerini, yayaları veya engelleri tanımlayabilir.
Yarı otonom araçlarda bilgisayarlı görü, sürücü davranışını izlemek için makine öğrenimini (ML) kullanır. Örneğin, sürücünün baş pozisyonuna, göz izlemesine ve üst gövde hareketine bağlı olarak dikkat dağınıklığı, yorgunluk ve uyuşukluk belirtileri arar. Bu teknoloji belirli uyarı işaretleri alırsa sürücüyü uyarır ve sürüş kazası olasılığını azaltır.
Tarım
Bilgisayarlı görü uygulamaları, akıllı otomasyon ile üretkenliği artırmaktan maliyetleri düşürmeye kadar, tarım sektörünün genel işleyişini geliştirir. Uydu ve İHA görüntüleri, geniş arazi alanlarını analiz etmeye ve çiftçilik uygulamalarını iyileştirmeye yardımcı olur. Bilgisayarlı görü uygulamaları; arazi koşullarını izleme, mahsul hastalığı belirleme, toprak nemini kontrol etme, hava durumu ve mahsul verimlerini tahmin etme gibi görevleri otomatikleştirir. Bilgisayarlı görü ile hayvan izleme, önem taşıyan diğer bir akıllı çiftçilik stratejisidir.
Bilgisayarlı görü nasıl çalışır?
Bilgisayarlı görü sistemleri, insan beyninin nesneleri tanımak ve sınıflandırmaktan sorumlu yeteneklerini taklit etmek için yapay zeka (AI) teknolojisini kullanır. Bilgisayar uzmanları, büyük miktarda bilgi girerek bilgisayarları görsel verileri tanıyacak şekilde eğitir. Makine öğrenimi (ML) algoritmaları, bu görüntü veya videolardaki ortak kalıpları belirleyerek bu bilgileri bilinmeyen görüntüleri doğru bir şekilde tanımlamak için uygular. Örneğin, milyonlarca araç görüntüsünü işleyen bilgisayarlar bir görüntüdeki aracı doğru bir şekilde algılayabilen kimlik kalıpları oluşturmaya başlayacaktır. Bilgisayarlı görü, aşağıda belirtilenler gibi teknolojileri kullanır.
Derin öğrenme
Derin öğrenme, sinir ağlarını kullanan bir ML türüdür. Derin öğrenme sinir ağları, yapay nöron adı verilen ve bilgisayarın içinde birlikte çalışan birçok yazılım modülü katmanından oluşur. Görüntü verilerinin farklı özelliklerini otomatik olarak işlemek ve görüntüye ilişkin kademeli olarak birleşik bir anlayış geliştirmek için matematiksel hesaplamaları kullanır.
Evrişimli sinir ağları
Evrişimli sinir ağları (CNN'ler), görsel verileri kategorilere ayırmak ve görüntünün tamamını anlamak için bir etiketleme sistemini kullanır. Görüntüleri piksel olarak analiz eder ve her piksele bir etiket değeri verir. Bu değer, evrişim adı verilen bir matematik işlemi gerçekleştirmek ve resim hakkında tahminlerde bulunmak için girilir. Uzaktan bir nesneyi tanımaya çalışan bir insan gibi CNN de renk, iç formlar ve doku gibi ek ayrıntıları doldurmadan önce ana hatları ve basit şekilleri tanımlar. Son olarak, doğruluğu artırmak için tahmin sürecini birkaç yineleme üzerinde tekrarlar.
Yinelemeli sinir ağları
Yinelemeli sinir ağları (RNN'ler) CNN'lere benzer, ancak aralarındaki bağlantıları bulmak için bir dizi görüntüyü işleyebilir. CNN'ler tek görüntü analizi için kullanılırken, RNN'ler videoları analiz edebilir ve görüntüler arasındaki ilişkileri anlayabilir.
Bilgisayarlı görü ve görüntü işleme arasındaki fark nedir?
Görüntü işleme; keskinleştirme, yumuşatma, filtreleme veya geliştirme dahil, görüntüleri değiştirmek için algoritmalar kullanır. Bilgisayarlı görü, bir görüntüyü değiştirmediği için farklıdır. Bunun yerine, gördüğü şeyi anlamlandırır ve etiketleme gibi bir görevi yerine getirir. Bazı durumlarda, görüntüyü bilgisayarlı görü sisteminin daha iyi anlayabileceği şekilde değiştirmek için görüntü işlemeyi kullanabilirsiniz. Diğer durumlarda ise görüntüleri veya bir görüntünün bölümlerini tanımlamak için bilgisayarlı görüyü ve görüntüyü daha fazla değiştirmek için görüntü işlemeyi kullanırsınız.
Bilgisayarlı görünün gerçekleştirebileceği sık kullanılan görevler nelerdir?
Aşağıda kuruluşların uygulayabileceği bazı bilgisayarlı görü görevi örneklerine bakalım.
Görüntü sınıflandırması
Görüntü sınıflandırması, bilgisayarların bir görüntüyü görmesini ve hangi sınıfa girdiğini doğru bir şekilde belirlemesini sağlar. Bilgisayarlı görü; sınıfları anlar ve etiketler (örneğin ağaçlar, uçaklar veya binalar). Buna verilebilecek bir örnek, kameranın fotoğraftaki yüzleri tanıyabilmesi ve onlara odaklanabilmesidir.
Nesne algılama
Nesne algılama, görüntüleri algılamaya ve yerelleştirmeye dayanan bir bilgisayarlı görü görevidir. Görüntüleri tanımlamak, tasnif etmek ve düzenlemek için sınıflandırmadan yararlanır. Nesne algılama, endüstriyel süreçlerde ve üretim süreçlerinde otonom uygulamaları kontrol etmek ve üretim hatlarını izlemek için kullanılır. Bağlı ev kamerası üreticileri ve servis sağlayıcıları da insanları ve nesneleri gerçek zamanlı olarak algılamak ve son kullanıcılarına eyleme geçirilebilir uyarılar sağlamak amacıyla kameralardan gelen canlı video akışlarını işlemek için nesne algılamayı kullanır.
Nesne izleme
Nesne izleme, kategorilere ait öğeleri tanımlamak ve izlemek için derin öğrenme modellerini kullanır. Birçok sektörde çeşitli gerçek dünya uygulamaları bulunur. Nesne izlemenin ilk öğesi nesne algılamasıdır; nesnenin çevresinde oluşturulan sınırlayıcı bir kutu vardır, nesneye bir nesne kimliği verilir ve nesne çerçeveler aracılığıyla izlenebilir. Örneğin nesne izleme, kentsel ortamlarda trafik izleme, insan gözetimi ve tıbbi görüntüleme için kullanılabilir.
Segmentasyon
Segmentasyon, bir nesneyi görüntülerini görülen piksellere göre farklı bölgelere bölerek tanımlayan bir bilgisayarlı görü algoritmasıdır. Segmentasyon ayrıca bir öğenin ne olduğunu belirlemek için şeklini veya ana hatlarını yerleştirme gibi bir görüntüyü basitleştirir. Böylece segmentasyon, bir görüntü veya çerçevede birden fazla nesne olup olmadığını da algılar.
Örneğin, bir görüntüde bir kedi ve bir köpek varsa iki hayvanı da tanımak için segmentasyon kullanılabilir. Nesnenin çevresinde bir kutu oluşturan nesne algılamanın aksine, segmentasyon nesnenin şeklini belirlemek için pikselleri izleyerek analiz etmeyi ve etiketlemeyi kolaylaştırır.
İçerik tabanlı görüntü alma
İçerik tabanlı görüntü alma, bilgisayarlı görü tekniklerinin büyük veritabanlarında belirli dijital görüntüleri arayabilen bir uygulamasıdır. Etiketler, açıklamalar ve anahtar kelimeler gibi meta verileri analiz eder. Anlamsal alma, uygun içeriği almak için "bina resimleri bul" gibi komutları kullanır.
AWS, bilgisayarlı görü görevlerinize nasıl yardımcı olur?
AWS, tüm uzmanlık düzeylerinden müşterilere yönelik olarak kapsamlı bir veri kaynağı kümesine bağlı en geniş ve en eksiksiz yapay zeka ve makine öğrenimi (AI/ML) hizmetleri kümesini sağlar.
Çerçeveleri geliştiren ve kendi altyapılarını yöneten müşteriler için PyTorch, MXNet ve TensorFlow dahil, en popüler derin öğrenme çerçevelerinin sürümlerini optimize ediyoruz. AWS, benzersiz performans ve bütçe gereksinimlerini karşılamak için çeşitli işlemciler ve hızlandırıcılarla işlem, ağ iletişimi ve depolama altyapısı ML hizmetlerine yönelik geniş ve kapsamlı bir portföy sunar.
Amazon SageMaker, işletmeleri genelinde standart bir bilgisayarlı görü çözümü oluşturmak isteyen müşteriler için veri hazırlamayı ve iş analistlerine yönelik kodsuz teklifler de dâhil tam olarak yönetilen altyapı, araçlar ve iş akışlarıyla her türlü kullanım örneği için ML modelleri oluşturmayı, bunları eğitmeyi ve dağıtmayı kolaylaştırır.
ML becerisine sahip olmayan, daha hızlı pazarlama süresine ihtiyaç duyan veya mevcut bir sürece ya da bir uygulamaya zeka eklemek isteyen müşteriler için AWS, çeşitli ML tabanlı bilgisayarlı görü hizmetleri sunar. Bu hizmetler, önceden eğitilmiş API'ler aracılığıyla yapay zeka uygulamalarınıza kolayca zeka eklemenizi sağlar. Amazon Rekognition, ML ile görüntü ve video analizini otomatikleştirir. Milyonlarca görüntüyü, canlı akışı ve depolanan videoyu saniyeler içinde analiz eder.
Hemen ücretsiz bir AWS hesabı oluşturarak bilgisayarlı görüyü kullanmaya başlayın.