Ana İçeriğe Atla

Ses dosyası deşifresi nedir?

Kuruluşlar, organize toplantı notlarından sağlık uygulamalarına kadar çeşitli kullanım örnekleri için geniş ölçekte ses deşifresine ihtiyaç duyar. Modern yapay zeka teknolojileri, sesi metne dönüştürebilir, birden fazla konuşmacı arasındaki çeşitli aksanları ve konuşmaları doğru, biçimlendirilmiş belgelere dönüştürebilir. Bu kılavuz, kurumsal ve küçük işletmelerin ihtiyaçları için sesi metne dönüştürme yöntemlerini araştırır.

Konuşma temelli iletişim, insanların birbirlerini tam olarak anlamaları için kritik öneme sahiptir. Ses; fikirleri, bilgileri, talimatları ve duyguları iletmek için hızlı ve zamanında bir yöntemdir. Sesi metne dönüştürme hizmetleri aracılığıyla sesli iletişimi kaydetmek ve kopyalamak; hatırlama, doğruluk ve daha fazla çalışma için gerekli hale geldi. Sesi metne dönüştürdüğünüzde, daha hızlı öngörüler ve iş süreçlerine anında entegrasyon için önemli bilgiler saklanabilir, aranabilir, analiz edilebilir ve yeniden karıştırılabilir.

Geçmişte, bir kişi tek bir ses kaydını dinler ve aynı anda içeriğini yazar, doğru bir deşifre oluşturmak için durarak ve yeniden başlayarak konuşulan kelimeleri metne dökerdi. Hukuk firmaları, doktorlar, araştırmacılar ve diğer profesyonel ofislerde sesin sesli notlardan metne dönüştürülmesinde bu manuel rolü yerine getirmek için katip havuzları bulunurdu.

Artık makineler sesi bir sesi metne dönüştürücü aracılığıyla anında deşifre edebiliyor. Deşifre çalışmalarında insan çabası yerine, konuşmayı metne dönüştürme (STT) teknolojisi ses dosyalarını yazılı metin dosyalarına dönüştürür. Bu yazılı metin dosyası olduğu gibi okunabilir, bir yapay zeka transkriptörü ile özetlenebilir, diğer yazılım sistemlerinde otomatik olarak eyleme geçirilebilir, tek başına veya daha geniş bir yapının parçası olarak analiz edilebilir ve çok daha fazlası yapılabilir. Sesi metne dönüştürücülerin uygulamaları sınırsızdır.

Ses dosyası deşifre teknolojileri nelerdir?

Ses dosyaları çeşitli konuşmacılar aksanlar ve alana özgü kelimeler içerebilir. Ses kayıtlarının ses kalitesi de farklılık gösterebilir. Konuşulan kelimeleri metne dönüştürmek, okunabilir çıktı üretmek için sözlü dili anlama ve dil sözdizimi bilgisi ve dilbilgisi gerektirir.

Eski sesi metne dönüştürme yazılımları hata yapıyordu ve uygun yapı ve hiyerarşi, kelime ve dilbilgisi hataları olmadan okunması zor deşifreler üretiyordu. Modern sesi metne dönüştürme yazılımları ise doğru yazılı yapı ve dilbilgisi içeren doğru deşifrelerle sesi konuşulan kelimeyle yakından eşleşen metne dönüştürerek çok daha iyi bir performans gösterir.

Amazon Transcribe, otomatik konuşma tanıma (ASR) teknolojisini kullanarak konuşmayı metne dönüştüren, tam olarak yönetilen bir hizmettir. Konuşma hızı, ses perdesi ve ses seviyesindeki farklılıklar dahil olmak üzere çeşitli konuşma özelliklerini işleyebilir. Kurumsal sesi metne dönüştürme gereksinimleri için geliştirici iş akışlarına ve AWS altyapısına bağlanarak 100'den fazla dilde deşifre yapabilir.

Ses deşifresine nasıl başlanır?

Ses veya video dosyası türü tarafından yönlendirilen sesi metne dönüştürmek için iki ana yöntem mevcuttur. Toplu deşifre, önceden kaydedilmiş ses dosyalarını deşifre etmek için kullanılır ve deşifre akışı, canlı medya akışlarını deşifre etmek için kullanılır.

Amazon Transcribe, hem toplu hem de akışlı ses ve video deşifre türleri için tek kanallı ve çift kanallı sesi destekler.

Hem toplu hem de akış halindeki sesi metne dönüştürme için JSON dosya biçiminde çıktı oluşturulur. Çıktıda sağlanan alanlar, sesi dönüştürürken deşifre isteğinize eklediğiniz özelliklere bağlıdır. Deşifreniz en azından verilen her kelimeyi, başlangıç saatini, bitiş zamanını, türünü, kelime filtresi eşleşmesini ve doğrulanabilirlik için güven puanını içerir. Diğer alanlar arasında konuşmacı etiketleri, alternatif kelimeler, kanallar ve daha fazlası bulunur.

Deşifre akışı

Deşifre akışı, ses akışlarını gerçek zamanlı olarak deşifre etmek için kullanılır. Amazon Transcribe deşifre akışı hizmeti, Ogg Opus ile birlikte tercih edilen formatlar olarak FLAC ve PCM imzalı 16-bit little-endian sesini (WAV değil) destekler. Sesi metne dönüştürme hatalarını önlemek için ses dosyasıyla eşleşen bir örnekleme hızı ayarlayın.

Deşifre aracını nasıl kullanmak istediğinize bağlı olarak, deşifre akışı için AWS Yönetim Konsolu'nu, HTTP/2, WebSockets ve çeşitli AWS SDK'lerini kullanabilirsiniz.

AWS Yönetim Konsolu ile ses akışı deşifresine ilişkin adımlar aşağıda açıklanmıştır.

  1. Sol gezinme bölmesinde Gerçek zamanlı deşifre öğesini seçin.
  2. Akışınızı başlatmadan önce dil, konuşmacı tanımlama, içerik kaldırma ve özelleştirmeler gibi seçenekleri belirleyin.
  3. Doğrudan gerçek zamanlı olarak kayıt yapmak ve aşağıdaki Deşifre çıktı kutusunda deşifre edilmeye başlayacak olan çıktıyı görüntülemek için Akışı başlat düğmesine tıklayın.

Ses kaydı dönüştürme tamamlandıktan sonra, JSON dosya deşifresini ücretsiz indirmek için Tam deşifreyi indir düğmesine tıklayabilirsiniz.

Toplu dosya deşifresi

Toplu deşifre, bir Amazon S3 bulut depolama bucket'Inda depolanan bir veya daha fazla mevcut medya dosyasını kopyalamak için kullanılır. Toplu hizmeti ile ilk giren, ilk çıkar sisteminde işlenmek üzere bir kuyruğa 10.000 adede kadar ses dosyası işi yükleyebilirsiniz. Ses kayıt işleri, aboneliğinize bağlı olarak ses dosyalarını bir kerede dönüştürerek eşzamanlı olarak işlenebilir.

Toplu deşifre, tercih edilen biçimler olarak FLAC ve WAV'ı (PCM 16-bit kodlamalı) destekler. Bununla birlikte AMR, M4A, MP3, MP4, Ogg ve WebM gibi diğer formatlar da desteklenir. Sesi metne dönüştürme hatalarını önlemek için ses dosyasıyla eşleşen bir örnekleme hızı ayarladığınızdan emin olun.

Toplu deşifre işlemini kullanarak sesi metne dönüştürmek için AWS CLI, AWS Yönetim Konsolu ve çeşitli AWS SDK'lerini kullanabilirsiniz.

AWS Yönetim Konsolu ile toplu ses deşifresine ilişkin adımlar aşağıda açıklanmıştır.

  1. Deşifre etmek istediğiniz medya dosyasını bir Amazon S3 bucket'ına yükleyin.
  2. Sol gezinme bölmesinde Deşifre işleri öğesini seçin. Bu sizi deşifre işlerinizin bir listesine yönlendirir
  3. İş oluştur'u seçin ve İş ayrıntılarını belirt sayfasındaki alanları doldurun.
  4. İşi yapılandırdıktan sonra, başlamak için İş oluştur düğmesine tıklayın.
  5. İşinizin durumunu görebileceğiniz Deşifre işleri sayfasına dönün.
  6. JSON dosya deşifrenizi görüntülemek için Çıktı verileri konumu altındaki sağ sütunda bağlantısı verilen dosya yolunu seçin.

Not: Çıktı için hizmet tarafından yönetilen bir bucket seçtiyseniz deşifre işinizin bilgi sayfasında bir Deşifre önizleme bölmesi ve JSON sesi metne dönüştürme dosyanıza ilişkin İndir düğmesini görebilirsiniz.

Yapılandırma sırasında aşağıdaki sayfaları tamamlayın..

Giriş verileri

Giriş verileri sayfasının altındaki Girdi dosyasının S3'teki konumu, mevcut S3 Bucket'ındaki ses dosyanızdır ve Çıktı verileri , S3 hizmeti tarafından yönetilen bir bucket veya kendi S3 bucket'ınızdır.

İşi yapılandırma

İşi yapılandırma sayfası; kanal tanımlama, içerik düzenleme ve filtreleme ve ayrıca özel kelime dağarcığı gibi özelleştirmeleri seçmenize olanak tanır.

Bazı ek deşifre özellikleri nelerdir?

Amazon Transcribe, ses veya video dosyalarını dönüştürdüğünüzde daha kullanışlı, güvenli ve doğru deşifreler oluşturmak için bir dizi ek özelliğe sahiptir.

Özel sözlükler ve dil modelleri

Kullanıcılar; alana özgü marka adları, kısaltmalar, teknik kelimeler ve jargonla sesi doğru bir şekilde yakalamak ve kopyalamak için özel kelime dağarcıkları ve dil modelleri oluşturabilir. Özel dil modelleri, gelişen iç dil ekosistemlerine veya son derece uzmanlaşmış, teknik sektörlere sahip büyük kuruluşlara fayda sağlar.

Özel sözlükler, belirli kelimelerin nasıl telaffuz edileceğini gösteren, kullanıcı tarafından oluşturulan dosyalardır. Örneğin, VX02Q adlı bir proje v.x.-Sıfır-İki-Q telaffuzuyla özel bir kelime dağarcığına eklenebilir.

Özel dil modelleri, sesi metne dönüştürme modelinin alana özgü dilin bağlamını anlamak için mevcut bir veri kümesi üzerinde ekstra bir eğitim tamamlamasına olanak tanır. Örneğin, modelinizi iklim bilimi araştırma makalelerinin bir metin yüklemesi ile eğitirseniz modeliniz "buz kütlesi"nin "buz kitlesi"nden daha olası bir kelime çifti olduğunu öğrenebilir. Benzer şekilde, "Bzntry" adlı bir ürüne atıfta bulunuyorsanız "bee-zen-tree" kelimesinden birden fazla bahsedilen bir ses dosyası veri kümesi, sesi otomatik olarak kelime çıkışıyla eşleştirecektir.

Toplu ve akış halinde sesi metne dönüştürme işlemi, hem özel kelime dağarcıklarını hem de özel dil modellerini destekler.

Otomatik denetleme

Özel bir kelime filtresi, JSON transkript çıktısında belirli bir kelimeyi veya kelime kombinasyonunu maskelemenize, değiştirmenize veya etiketlemenize ("VocabularyFilterMatch": true) olanak tanır.

Örnekler:

  • Küfürlü kelimeleri üç yıldız (***) ile maskeleyin
  • Lansman öncesi gizli ürün adını 'NewProduct' kelimesiyle değiştirin
  • Bir konuşmacının topluluk önünde konuşma becerilerini geliştirmesine yardımcı olmak için bir deşifredeki "ııı" veya "gibi" etiketlerinin sayısını hesaplayın

Toplu ve akış halinde sesi metne dönüştürme işlemlerinin her ikisi de kelime filtrelerini destekler.

PII düzenleme ve tanımlama

Kişisel olarak tanımlayıcı bilgiler (PII) otomatik olarak düzeltilebilir ve sesi metne dönüştürme işlerinde etiketlenebilir. PII katı gizlilik yasalarına tabi olabileceğinden bu, hassas bilgilerin işletmelerde depolanması için önemlidir.

Amazon Transcribe'da bulunan PII türleri arasında isimler, adresler, e-posta adresleri, telefon numaraları, banka numarası bilgileri, PIN'ler ve Sosyal Güvenlik Numaraları yer alır. JSON dosyasındaki kelime, sesi metne dönüştürme hizmeti tarafından deşifrenizin ana metin gövdesinde [PII] ile değiştirilir ve "redaksiyonlar" JSON alanındaki türe göre sayılır ve kategorize edilir.

Alt Yazılar

Amazon Transcribe, kullanıcıların normal çıktı JSON dosyasının yanı sıra videolarla eşleştirmek için WebVTT (*.vtt) ve SubRip (*.srt) altyazı dosyaları oluşturmasına da olanak tanır. Altyazılar, ses veya video dosyasında konuşmayla aynı anda görüntülenir ve seste doğal bir duraklama olana veya hoparlör konuşmayı bitirene kadar görünür kalır.

Toksiklik Algılama

Amazon Transcribe, toksik dili tanımlamak ve sınıflandırmak için kullanılabilir. Toksik içerik; cinsel taciz, nefret söylemi, tehdit, istismar, küfür, hakaret ve müstehcen dâhil olmak üzere yedi kategoride işaretlenir ve sınıflandırılır. Amazon Transcribe, konuşmalara ekstra bağlam sunmak için ton ve perde gibi gelişmiş tanımlama tekniklerini kullanır.

Çağrı analizleri

Amazon Transcribe, müşteri hizmetleri ve satış aramaları için özel bir API sunar. Müşteri ve temsilci duyarlılığı, arama sürücüleri, cümle ifadeleri, konuşma dışı süre, kesintiler, konuşma hızı, gerçek zamanlı sorun algılama ve konuşma özetleme hakkında fikir edinmek için bu hizmetten yararlanabilirsiniz. Amazon Transcribe ayrıca arama sonrası ses kaydı düzenlemesini gerçekleştirebilir ve depolanan aramalar için PII yerini sessiz bırakabilir.

Tıbbi deşifre

Amazon Transcribe, hasta veri gizliliğine ve güvenliğine öncelik verirken ses dosyalarından doğru tıbbi dilde sesi metne dönüştürme özellikleri sağlayan HIPAA uyumlu API'ler sunar. Bu, not almanın zaman alıcı, dikkat dağıtıcı olduğu ve kesintiye yol açtığı doktor-hasta etkileşimlerinde yararlıdır.

AWS, ses deşifresi ihtiyaçlarınızı nasıl destekleyebilir?

Sesi metne dönüştürme, sesi zaman içinde bir iletişim yönteminden depolanmış, aranabilir, analiz edilebilir ve son derece değerli bir veri kaynağına dönüştürür. Sesi deşifre etmek için konuşma tanıma özelliğini kullanan kuruluşlar üretkenlik, eğitim, müşteri hizmetleri, satış ve daha pek çok konuda önemli avantajlar elde ediyor.

Amazon Transcribe sesi metne dönüştürme hizmetini kuruluşunuza katıştırmak, ses kayıtlarının değerini korumasını ve kullanışlı uygulamalarını çoğaltmasını sağlar. Uygulamaları daha hızlı ve daha güçlü bir şekilde oluşturmanıza ve ölçeklendirmenize yardımcı olacak AWS'deki çeşitli yapay zeka çözümlerine göz atın.