Category: Amazon AI


Amazon Polly 서울 리전 출시 및 한국어 여성 ‘서연(Seoyeon)’ 음성 공개

 Amazon Polly는 고급 딥 러닝 기술을 사용하여 실제 사람 목소리처럼 음성을 합성하는 텍스트 음성 변환 서비스입니다. 텍스트를 다양한 언어로 수십 개의 생생한 음성이 제공되므로 여러 국가에서 적합한 음성을 선택하여 음성 지원 애플리케이션을 개발할 수 있습니다.

오늘부터 Amazon Polly를 서울 리전에서 사용 가능합니다. 또한, 한국어 여성 ‘서연(Seoyeon)’음성을 공개합니다.

Amazon Polly의 종량 요금제, 변환 문자당 저렴한 비용, 무제한 재생은 거의 모든 애플리케이션에서 음성 합성을 구현하는 비용 효과적인 방법을 제공합니다. 이전에 재생된 오디오를 재생할 때마다 로열티를 요구하거나 요금을 부과하는 다른 솔루션과 달리, Amazon Polly는 추가 요금 없이 무제한 재생을 허용합니다. 이러한 무료 재생은 오프라인 사용까지 확대됩니다. MP3 및 OGG와 같은 다양한 표준 형식으로 음성 파일을 생성하여 오프라인 재생 전용으로 휴대폰 또는 사물 인터넷(IoT) 디바이스와 같은 디바이스에 저장할 수 있습니다.

실제 같은 음성과 대화 사용자 경험을 제공하기 위해서는 일관되게 빠른 응답 시간이 요구됩니다. Amazon Polly API로 긴 텍스트를 전송하더라도 Amazon Polly API가 오디오를 스트림으로 애플리케이션으로 반환하므로 즉시 음성을 재생할 수 있습니다.

아래 샘플 코드에 대한 음성 파일을 확인해 보실 수 있습니다.


from boto3 import client
polly = client("polly", region_name="ap-northeast-2")
response = polly.synthesize_speech(
        Text="안녕하세요. 제 이름은 서연이에요! 저는 새내기 아마존 폴리 음성 비서입니다. 텍스트를 입력하시면 읽어드릴께요.",
        OutputFormat="mp3",
        VoiceId="Seoyeon")

특히, 음성 합성 애플리케이션을 위한 Speech Synthesis Markup Language(SSML), W3C 표준, XML 기반 마크업 언어를 지원하고 표현, 강조 및 억양을 위한 일반 SSML 태그를 지원합니다. 이러한 유연성은 청중의 관심을 끌 수 있는 생생한 음성을 생성하는 데 도움이 됩니다.

아래 샘플 코드에 대한 음성 파일을 확인해 보실 수 있습니다.


<speak>
   오늘의 <prosody rate="x-slow">날씨를 전해 드리겠습니다</prosody>. 
   현재, 전국이 구름이 많은 가운데 일부 중부 지역과 전북에는 <prosody volume="x-loud">눈이 날리거나</prosody><break time="1s"/> <prosody pitch="x-high">빗방울이 떨어지는 곳이 있습니다.
   </prosody>. 서울의 경우 북부 지역을 중심으로 <amazon:effect name="whispered"><prosody rate="-10%">눈이 날리고 있으나,</prosody></amazon:effect> 공식적인 첫눈으로 기록되지는 않습니다.
</speak>

자세한 내용은 SSML 태그에 대한 Amazon Polly 설명서를 참조하십시오.

Amazon Polly는 월 5백만자 까지 무료로 제공됩니다. 그 이상의 경우, 한 자당 $0.000004 per 또는 제작된 오디오 분당 $0.004로 과금 됩니다.  일반적인 한국어 뉴스 기사 (2,500자)의 경우, $0.01 (11원) 정도로 매우 저렴합니다. 예를 들어, 영어로 된 Adventures of Huckleberry Finn이라는 책 원문 전체는 약$2.4 정도 됩니다. 더 자세한 것은 Polly 요금 정보를 참고하세요.

이제 Amazon Polly를 통해 뉴스 및 전자책 리더, 게임, 전자 학습 플랫폼, 시각 장애가 있는 사람을 위한 접근성 애플리케이션, 빠르게 성장하는 사물 인터넷(IoT) 세그먼트 등과 같은 모바일 애플리케이션이 등 다양한 한국어 지원에 활용하실 수 있습니다. Amazon Polly에 대한 더 자세한 사항은 제품 페이지기술 문서를 참고하시기 바랍니다.

윤석찬(Channy);

Amazon Lex의 신규 음성 입력 기능을 통한 Amazon Connect 연동하기

Amazon Connect는 셀프 서비스 클라우드 기반 콜센터 서비스로 저렴한 비용으로 더 나은 고객 서비스를 쉽게 제공있고, Amazon Lex는 음성 및 텍스트를 사용하여 대화식 인터페이스를 구축하는 서비스입니다.

이 두 가지 서비스를 통합하여, Lex 자동 음성 인식(ASR) 및 자연어 처리 및 인식(NLU) 기능을 활용하여, 고객에게 훌륭한 서비스 경험을 제공 할 수 있습니다. 두 가지 통합을 위해 Lex팀은 8kHz 음성 입력을 받을 수 있는 기능을 추가했습니다. 이를 통해 챗봇이 고객 요청의 대부분을 처리할 수 있게 되고, 고객들이 기다리는 시간도 줄일 수 있습니다.

이 글에서는 사용자가 고객 센터에 전화를 하고, Connect를 통해 들어온 음성 입력에 대해 Lex가 처리한 후, 이를 AWS Lambda 함수를 구성하는 코드를 살펴 보겠습니다. 샘플 예제는 ‘개발자들이 좋아하는 코드 편집기’에 대한 질문으로 미국 전화 번호 614-569-4019로 전화하여, 원하는 코드 편집기를 선택할 수 있습니다. (미국 번호라서 전화 비용이 들어갈 수도 있음을 양해 바랍니다.) 투표 결과는 http://best-editor-ever.s3-website-us-east-1.amazonaws.com/ 에서 볼 수 있습니다.


이 샘플 예제에 대해 간단하게 설명해 보겠습니다.

Amazon Lex
우선 Amazon Lex에서 VoteEditor라는 봇을 만들고, 여기에 원하는 코드 편집기를 투표할 수 있는 Slot을 만듭니다.

AWS Lambda

Lambda 함수도 매우 간단합니다. 먼저 투표를 저장하기 위해 Amazon DynamoDB 테이블을 생성합니다. 그런 다음 Lex(build_response)에 응답하는 헬퍼 메소드를 만들 것입니다. 이를 통해 Lex 기반 응답 형식으로 메시지를 감싸게 됩니다.


def lambda_handler(event, context):
    if 'ConnectToAgent' == event['currentIntent']['name']:
        return build_response("Ok, connecting you to an agent.")
    elif 'VoteEditor' == event['currentIntent']['name']:
        editor = event['currentIntent']['slots']['editor']
        resp = ddb.update_item(
            Key={"name": editor.lower()},
            UpdateExpression="SET votes = :incr + if_not_exists(votes, :default)",
            ExpressionAttributeValues={":incr": 1, ":default": 0},
            ReturnValues="ALL_NEW"
        )
        msg = "Awesome, now {} has {} votes!".format(
            resp['Attributes']['name'],
            resp['Attributes']['votes'])
        return build_response(msg)

코드를 잠깐 살펴 보면, 선택한 편집기에 대해 표가 없으면 1로 만들고, 편집기가 있으면 +1을 하는 코드로서   계속 진행하기 전에 Lex 콘솔을 통해 작동하는지 테스트 할 수 있습니다.

Amazon Connect
Amazon Contact Flow에서 Lex 봇을 사용하려면 먼저 Amazon Connect 인스턴스에 접근 권한이 있어야합니다.  콘솔에서 “Contact Flows”로 이동하여,  Lex 섹션에서 봇을 추가 할 수 있습니다.

이제 Amazon Connect 인스턴스가 Lex 봇을 호출 할 수 있게 되었으므로 Lex 봇을 포함하는 새로운 Contact Flow를 만들 수 있습니다. “Interact”카테고리에서 “Get customer input”위젯을 통해 봇을 추가합니다.

위젯을 사용하면 전화기의 숫자 키 또는 “Amazon Lex”탭에서 voiceinput을 가져 와서 Lex 서비스로 전달하기위한 “DTMF”탭을 사용할 수 있습니다. Lex 탭을 사용하여 몇 가지 구성을 사용합니다.

많은 옵션이 있지만, 사용하고자하는 봇 (봇의 버전 포함),  사용하려는 멘토,  소개글 등을 추가합니다. 최종 고객 요청 처리 흐름은 아래와 같습니다.

실생활에서 이러한 서비스 조합은 많은 부분을 구현할 수 있습니다. 실제 고객 상담원과 대화를 하기 전에, 사용자의 정보를 수집하고 대화에 필요한 정보를 수집할 수도 있습니다. Amazon Lex의 8KHz 음성 입력 기능을 통해서 좀 더 유연한 고객의 정보를 입력 받을 수 있다는 점은 매우 중요합니다.

마지막으로, Amazon Connect는 외부 개발자로 사용할 수 있는 것과 동일한 PostContent 엔드 포인트를 사용하므로 Lex에서 8kHz 기능을 활용하려면 Amazon Connect 사용자 일 필요는 없습니다.

좀 더 세부 사항은 기술 문서API 참조 문서를 살펴 보시기 바랍니다.

Randall

이 글은 New – Amazon Connect and Amazon Lex Integration 의 한국어 번역 편집본입니다.

Deep Learning AMI, AWS 서울 리전 출시

오늘 부터 AWS Deep Learning AMI를 서울 리전에서 사용할 수 있게 되었습니다. 이전 북미 지역 리전에서 서울을 포함한 아시아 지역 리전으로 확대되어 제공합니다.

데이터 과학자, 기계 학습 종사자 및 연구자가 클라우드 기반 딥러닝 학습을 할 수 있도록, Amazon Linux 또는 Ubuntu에서 Amazon EC2 인스턴스를 위한 맞춤형 이미지로서, Deep Learning AMI를 사용하면, 단일 서버 뿐만 아니라 대용량 오토 스케일링 GPU 클러스터를 만들 수 있고, Apache MXNet, TensorFlow, Microsoft CNTK, Caffe, Caffe2, Theano, Torch, Keras을 사용하여 컴퓨팅 최적화 또는 범용 CPU 인스턴스로 숙련된 모델에 대한 추론을 실행할 수 있습니다.

아래는 서울 리전에 설치된 신규 버전은 AWS Marketplace를 통해 검색할 수 있으며, Amazon Liunx Deep Learning AMI, Ubuntu Deep Learnin AMI 등 두 가지 버전이 있습니다. 최신 버전에서는 아래 기능이 추가되었습니다.향후에 계속 업데이트 될 예정입니다.

  • MXNet  v0.10.0 버전 업그레이드
  • Tensorflow  v1.1.0 버전 업그레이드
  • Caffe2  v0.7.0 버전 업그레이드

본 AMI을 기반하여 딥러닝 클러스터 구성에 대한 자세한 내용을 보려면 AWS Labs – Deep Learning GitHub에 있는 튜토리얼을 참고하시기 바랍니다.아래에는 MXNet 및 TensorFlow 프레임 워크를 사용하여 AWS에서 분산 딥러닝 트레이닝을 손쉽게 실행하는 방법을 알려드립니다.

참고 자료

더 관심 있는 분들은 매월 모이는 AWS 한국 사용자모임의 데이터 과학 딥러닝 소모임에 참여하시면, 스터디에 함께 참여하실 수 있습니다.

Channy(윤석찬);

Amazon Rekognition – 유명인사 인식 기능 출시

지난 AWS re:Invent 행사에서 Amazon Rekognition정식 출시한 후, 이미지 관리 기능을 추가하였습니다. 오늘 유명인사 인식 기능을 출시하였습니다!

유명인사 인식 기능은 정치, 스포츠, 엔터테인먼트, 비즈니스 및 미디어 분야에서 유명하거나 주목할 만한 저명 인사가 있는 수십 만 명의 사람들을 확인하도록 훈련된 결과로서 자주 업데이트됩니다.

본 기능을 사용하려면 새로운 RecognizeCelebrities 함수를 호출하면 됩니다. 기존 DetectFaces 함수에서 얼굴 내 상자 및 랜드 마크 기능 외에도 유명 인사에 대한 정보를 반환합니다.

"Id": "3Ir0du6", 
"MatchConfidence": 97, 
"Name": "Jeff Bezos", 
"Urls": [ "www.imdb.com/name/nm1757263" ]

Urls은 유명인에 대한 추가 정보를 제공합니다. API는 현재 IMDB 콘텐츠에 대한 링크를 반환합니다. 앞으로 다른 출처를 추가 할 수 있습니다.  AWS 관리 콘솔에서 Celebrity Recognition Demo를 사용하여이 기능을 시험해 볼 수 있습니다.

이미지 아카이브가 있는 경우, 유명 인사 별로 색인을 생성 할 수 있습니다. 유명 인사 인식과 개체 검색을 결합하여 모든 종류의 검색 도구를 구축 할 수도 있습니다. 이미지가 이미 S3에 저장되어있는 경우, 해당 이미지를 내부에서 처리 할 수 ​​있습니다.

여러분도 새로운 기능에 대한 모든 흥미로운 사용 방법에 대한 아이디어를 생각해 보세요!

Jeff;

Amazon Lex – 정식 출시 및 AWS Chatbot Challege 안내

지난 AWS re:Invent에서 대화식 음성 및 텍스트 인터페이스를 구축하는 Amazon Lex 서비스를 출시했습니다. 당시 Amazon Lex를 미리보기 방식으로 시작했으며 특정 개발자에게 제공했습니다. Amazon Alexa를 구동하는 것과 동일한 딥러닝(Deep Learning) 학습 기술로 구동되는 Amazon Lex를 사용하면 매력적이고 생동감 있는 상호 작용을 지원하는 웹 및 모바일 애플리케이션을 개발할 수 있습니다.

오늘 부터 Amazon Lex 서비스를 정식 출시하면서 아래와 같은 기능도 신규로 추가하여 공개합니다.

Slack 연동– Slack 채널에 전송 된 메시지 및 이벤트에 응답하는 Amazon Lex 봇을 만들 수 있습니다. 봇의 Channel 탭을 클릭하고 슬랙을 선택한 다음 양식을 작성하여 슬랙에 사용할 콜백 URL을 가져옵니다.

더 자세한 사항은 Integrating an Amazon Lex Bot with Slack 문서를 참고하시기 바랍니다.

Twilio 연동 – 이제 Twilio SMS 번호로 전송 된 SMS 메시지에 응답하는 Amazon Lex 봇을 만들 수 있습니다. Channels을 클릭하고 Twilio를 선택한 다음 양식을 작성하십시오.

더 자세한 것은 Integrating an Amazon Lex Bot with Twilio SMS 문서를 참고하시기 바랍니다.

SDK 지원 – 이제 AWS SDK를 사용하여 모바일, 웹, 데스크톱 및 IoT 플랫폼에서 텍스트 및 음성 기능을 사용하여 상호 작용하는 iOS, Android, Java, JavaScript, Python, .NET, Ruby, PHP, Go 및 C ++ SDK 및 봇용 빌드 프로세스를 지원합니다. 프로그래밍에서 샘플 구문을 추가하고, 슬롯을 만들고, 슬롯 값을 추가하는 등의 작업을 수행 할 수 있습니다. 또한, 빌드, 테스트 및 배포 프로세스 전체를 관리 할 수도 있습니다.

음성 입력 테스트 기능 – Amazon Lex 테스트 콘솔은 이제 Chrome 브라우저에서 사용될 때 음성 입력을 지원합니다. 마이크를 클릭하면됩니다.

발음(Utterance) 모니터링 – Amazon Lex는 봇이 인식하지 못했던 발음을 녹음합니다. 그렇지 않은 경우 누락 된 음성 목록을 검토하고 관련 항목을 봇에 추가 할 수 있습니다.

Amazon CloudWatch 메트릭을보고 사용자가 봇과 어떻게 상호 작용하는지 더 잘 이해할 수 있습니다. 시간이 지남에 따라 다른 말투를 추가하고 다른 방법으로 봇을 향상 시키면 메트릭이 감소해야합니다.

  • 텍스트가 누락된 발음 (PostText)
  • 텍스트가 누락된 발음 (PostContent)
  • 음성이 누락된 발음

슬롯과 Slots with Utterances – 제 슬롯을 식별하고 슬롯 유형에 값을 추가하기 위해 샘플 발언의 텍스트를 강조 표시 할 수 있습니다.

향상된 IAM 지원 – Amazon Lex 권한은 이제 콘솔에서 자동으로 구성됩니다. 이제 자신 만의 정책을 만들 필요 없이 봇을 만들 수 있습니다.

Response Cards 미리보기 – 이제 콘솔에서 응답 카드 미리보기를 볼 수 있습니다.

 

더 자세한 사항은   Using a Response Card를 참고하시기 바랍니다.

정식 출시 및 챗봇 경진대회
서비스 요금은 응용 프로그램에서 처리하는 텍스트 및 음성 응답 수를 기반으로 합니다. 자세한 정보는 Amazon Lex 요금 페이지를 참조하십시오.

아울러 Amazon Lex 정식 출시에 맞추어 Slack과 함께 AWS Chatbot Challege 콘테스트를 개최합니다. 다양한 아이디어를 기반으로 여러분의 챗봇을 만들어 제출하시면, 심사를 거쳐 상금과 함께 AWS re:Invent 참가 티켓 등 다양한 시상을 진행합니다.

AWS Chatbot Challenge는 글로벌 사용자를 대상으로 잠재 고객의 문제를 해결하거나 가치를 부여하는 데 도움이 되는 대화방 서비스를 구축 할 수 있는 기회입니다.  더 자세한 것은 영문 블로그 기사를 참고하시기 바랍니다.



Jeff;

이 글은 Announcing the AWS Chatbot Challenge – Create Conversational, Intelligent Chatbots using Amazon Lex and AWS LambdaAmazon Lex – Now Generally Available의 한국어 편집본입니다.

Amazon Rekognition – 이미지 관리 및 Amazon Polly – 음성 표식 및 속삭임 생성 기능 업데이트

지난 re:Invent 2016 행사에서 개발자들이 손쉽게 스마트 애플리케이션을 개발할 수 있는 딥러닝 기반의 이미지 인식 서비스인 Amazon RekognitionAmazon PollyAmazon Lex 등을 출시하였습니다. 이들 인공 지능 서비스에 최근 새로운 기능을 추가하였습니다. 이 글에서는 최근 업데이트 기능에 대해 간단하게 알아보겠습니다.

Amazon Rekognition에 이미지 관리 기능
사용자가 프로필 사진에 대해 올린 경우, 사진이 적합하지 않은 콘텐츠인 경우 이미지를 식별할 수 있습니다. 상세한 레이블을 통해 허용 이미지 종류를 결정하는 미세 필터를 조정할 수 있습니다.

본 기능을 활용하려면 DetectModerationLabels 함수를 호출하면, 아래와 같은 응답을 통해 활용 가능합니다.

"ModerationLabels": [ 
  {
    "Confidence": 83.55088806152344, 
    "Name": "Suggestive",
    "ParentName": ""
   },
   {
    "Confidence": 83.55088806152344, 
    "Name": "Female Swimwear Or Underwear", 
    "ParentName": "Suggestive" 
   }
 ]

더 자세한 것은 Image Moderation 데모 기능을 통해 확인할 수 있습니다.

Amazon Polly 음성 표식 기능 및 속삭임 기능 출시

음성 표식(SppechMark) 기능은 개발자가 음성을 시각적 경험과 동기화 할 수 있습니다. 이 기능을 사용하면 음성을 얼굴 애니메이션과 동기화하거나 말한대로 단어의 강조 표시를 사용하여 립싱크와 같은 시나리오를 만들 수 있습니다. 음성 표식 메타 데이터는 합성된 음성을 설명하고 음성 오디오 스트림과 함께 사용함으로써 사운드, 단어, 문장 및 SSML 태그의 시작과 끝을 결정할 수 있습니다. 개발자는 립싱크 아바타를 만들고, 시각적으로 읽은 경험을 강조하고, Amazon Lumberyard와 같은 게임 엔진에 음성 기능을 통합하여 캐릭터에게 음성을 제공 할 수 있습니다.

네 가지 유형의 음성 표시가 있습니다.

  • 문장 : 입력 텍스트에서 문장 요소를 지정합니다.
  • 단어 : 입력 텍스트의 단어 요소를 나타냅니다.
  • Viseme : 말한 소리에 해당하는 얼굴과 입의 위치를 ​​보여줍니다.
  • SSML (Speech Synthesis Markup Language) : SSML 입력 텍스트에서 <mark> 요소를 설명합니다.

Amazon Polly에서 Change file format을 누른 후, File Format 옵션에서 Speech Marks를 선택합니다. Change 버튼을 눌러서 다운로드 포맷을 바꿀 수 있습니다.

다운로드를 하면, 다음과 같이 음성 표식이 있는 텍스트 파일을 다운로드 할 수 있습니다.


속삭임 기능은 개발자가 Text-to-Speech 출력을 수정할 수있는 표현형 음성 기능에서 피치, 템포 및 소리 크기에 대한 음성 효과입니다. 속삭이는 기능을 사용하면 개발자는 <amazon:effect name=”whispered”> SSML 요소를 사용하여 속삭이는 음성으로 말한 입력 텍스트의 단어를 가질 수 있습니다.

<speak>Hi!<amazon:effect name="whispered">My name is Tara.</amazon:effect>I am excited to talk about Polly's new features.</speak>

위의 마크업을 복사 한 후,  Listen to speech  버튼을 누르면 “My name is Tara” 는 속삭임 소리로 들리게 됩니다.

본 기능 업데이트에 대한 자세한 소개는 아래를 참고하세요.

Channy;

Amazon Connect – 클라우드 기반 고객 센터 운영 서비스

고객 응대 서비스는 모든 비즈니스 성공에 필수적입니다. 음성 기반 고객 응대 서비스를 제공하기 위해 많은 회사가 콜 센터를 운영합니다. 기본적으로 콜 센터가 걸려 오는 전화는 모든 상담원에게 전달합니다. 조금 더 정교한 시스템을 구성하면, 사용자 지정 콜 연결 및 기타 IVR (Integrated Voice Response) 시스템 등 보다 정교한 상담원 연결 및 상호 작용을 지원합니다. 전통적인 IVR 시스템은 볼륨 기반 가격 책정과 함께 설치가 어렵고 라이센스 비용이 큽니다.

Amazon 내 고객 서비스 조직은 고객에게 탁월한 수준의 서비스를 제공하는 것을 목표로 합니다. 이를 위해 50 개 이상의 그룹에서 일하는 수만 명의 상담 요원과 전 세계에 산재 해있는 자회사 응대 센터를 통해 다양한 언어를 사용하는 고객을 지원합니다.

Amazon Connect를 소개합니다!
오늘 새로 출시하는 Amazon Connect를 소개합니다. Amazon 고객 서비스팀이 사용하는 것과 동일한 기술을 기반으로하는 Amazon Connect를 통해 몇 분 안에 클라우드 기반 고객 센터를 구성 할 수 있습니다. 고객 센터를 만들고, IVR과 유사하게 고객 응대 흐름을 설계할 수 있을 뿐 아니라 웹 기반의 최신 인터페이스를 사용하여 상담원이 업무를 진행할 수 있습니다.본 서비스는 IT 전담 팀 및 전문 컨설턴트의 도움 없이도, 비즈니스 담당자가 직접 구성하고 실행할 수 있을 정도로 간단합니다. 구매해서 서비스를 배포 할 하드웨어가 필요 없고, 사용자 에이전트 당 라이선스도 없습니다. 대신 고객과 통화하는 시간 및  전화 통화 시간을 기준으로 요금을 납부합니다. 이처럼 확장 가능한 사용한 만큼 지불(pay-as-you-go) 하는 모델은 통화량을 예측할 수 없는 상황에서 바로 Amazon Connect를 효율적으로 사용할 수 있습니다.

Amazon Connect는 다음과 같은 다양한 AWS 서비스와 함께 작동합니다.

  • Amazon S3 – Amazon Connect는 S3을 사용하여 전화 통화 데이터 및 보고서의 무제한 암호화 저장 공간을 제공합니다.
  • AWS Lambda – 고객 상담의 일환으로 서버리스 방식으로 코드를 실행할 수 있는 기능을 제공합니다. 이 함수 코드는 CRM 또는 데이터베이스에서 데이터를 가져 와서 개인화 고객 경험을 제공 할 수 있습니다.
  • Amazon Lex – 고객 연락처는 Alexa의 기술과 동일한 자연어 처리, 대화식 인터페이스를 사용할 수 있습니다.
  • AWS Directory Service – Amazon Connect는 기존 Active Directory를 참조하거나 새로운 Active Directory를 만들 수 있습니다. 이 디렉토리는 사용자 (관리자, 관리자 또는 에이전트) ID 및 사용 권한을 저장하는 데 사용됩니다.
  • Amazon Kinesis – Amazon Connect는 연락처 추적 레코드 (CTR)를 Amazon Kinesis로 스트리밍 할 수 있습니다. 여기에서 Amazon S3 또는 Amazon Redshift로 전달하고, Amazon QuickSight 또는 기타 비즈니스 분석 도구를 사용할 수 있습니다.
  • Amazon CloudWatch – Amazon Connect는 CloudWatch에 실시간 운영 통계를 게시합니다. 이러한 통계 측정 항목은 초당 통화 수, 거부되거나 제한되는 통화 수 등을 알려줍니다. 이 측정 기준을 사용하여 고객 센터의 성과를 관찰하고 적절한 수의 상담원을 확보 할 수 있습니다.

Amazon Connect 장점 및 특징
Amazon Connect의 주요 이점과 기능을 살펴 보겠습니다.

  • 클라우드 기반 – Amazon Connect는 높은 확장성 및 가용성으로 설계하였습니다. 각 고객 센터 인스턴스는 여러 AWS 멀티 가용 영역(AZ)에서 실행됩니다.
  • 단순성 – 이미 언급했듯이 Amazon Connect는 비즈니스 담당자가 쉽게 설정하고 실행할 수 있도록 설계되었습니다.  콘솔을 사용하면 그래픽 통화 흐름 설계를 포함한 설치 프로세스를 쉽고 효율적으로 수행 할 수 있습니다.
  • 유연성 – Amazon Connect를 지원하는 CFE (Contact Flow Editor)는 상호 작용, 통합, 제어 흐름, 분기 등을위한 세부 항목을 포함합니다. 통화 흐름에는 사전 녹음 된 오디오 프롬프트, 생성 된 오디오, Lex 기반 상호 작용, 기존 시스템 및 데이터베이스와의 통합, 상담원과의 통화, 통화 전환 등의 다양한 정보가 포함될 수 있습니다.
  • 경제적– Amazon 연결의 유료화 모델은 실제 사용량에 따라 운영 비용을 유지합니다. 에이전트 측에서 Amazon Connect에는 고품질 16kHz 오디오를 지원하는 소프트 폰이 포함되어 있습니다.

Amazon Connect 둘러보기
Amazon Connect 콘솔에서 시작하여 고객 접촉 센터를 구성 해 보겠습니다. Get started를 클릭하십시오.

기존 디렉토리를 사용하도록 선택하거나 새로운 디렉토리를 만들 수 있습니다. 계속 진행하려면 내 고객 센터 URL을 설정해야합니다. 이 URL을 통해 내 고객 센터 사용자는 로그인 할 수 있습니다.

다음으로 관리자로서 자신을 설정했습니다.내 고객 센터는 걸려 오는 전화를 수락하거나, (고객 응대 순서의 일부로) 전화를 걸거나 두 가지 모두를 할 수 있습니다. 우선 필요한 것을 간단하게 지정합니다. (직접 전화 번호 또는 무료 전화 번호를 나중에 선택합니다.)

다음으로, 통화 녹음 및 보고서를 위한 Amazon S3 위치 (버킷 및 접두어)를 지정합니다. 개별 암호화 키와 함께 각각에 대해 별도의 버킷 및 접두사를 사용할 수 있습니다.

그런 다음 선택 항목을 확인하고 Create instance(인스턴스 생성)를 클릭합니다.

몇 초 후 Amazon Connect 인스턴스가 구동됩니다.

처음에는 무료 또는 직통 전화 번호를 선택하여 첫 번째 전화를 수락 할 수 있습니다.

이제 첫 번째 전화를 받을 준비가 되었습니다.브라우저 기반 소프트 폰이 두 번째 창에서 팝업으로 뜨면서 전화를 받을 수 있습니다.

셀에 있는 전화 번호로 전화하고 옵션을 살펴 봅니다. “1”을 눌러 상담원에게 말하면 소프트 폰이 (상담원 역할을 하면서) 전화를 걸도록 제안합니다.

Amazon Connect가 설정되고 통화를 수락 했으므로 대시 보드를 탐색하고 고객 센터를 구성 할 수 있습니다.

콜센터와 연결된 전화 번호를 볼 수 있습니다.

다양한 국가의 번호에서 선택하여 추가 번호를 청구 할 수 있습니다 (최대 10 개의 직접 내부 다이얼링 및 10 개의 무료 전화 번호 가능)

화면 하단에서 번호가 호출 될 때 활성화되는 연락처 흐름을 선택할 수 있습니다.

대시 보드로 돌아가서 다음 단계는 작동 시간을 설정하는 것입니다. 기존 영업 시간 목록을 볼 수 있으며 새 영업 시간을 작성할 수 있습니다.

각 대기열에 연결하거나 응대 흐름에서 참조 할 수 있는 작업 시간을 가질 수 있습니다.

이제 상담원에게 연락처(수신 통화)에게 전달하는 모델링을 만드는 대기열을 만들 수 있습니다. 대기열은 우선 순위 (다양한 수준의 정기 및 프리미엄 지원) 또는 비즈니스 또는 언어 기술이 다른 상담원을 나타낼 수 있습니다.

또한 프롬프트를 만들 수도 있습니다. 이는 연락처에서 참조 할 수 있는 오디오 코드입니다. 기존 WAV 파일을 업로드하거나 브라우저에서 WAV 파일을 녹음 할 수 있습니다.

그런 다음 새로운 응대 흐름을 만들거나 기존 프로세스를 편집 할 수 있습니다. 응대 흐름은 고객이 전화한 이후, 고객 경험을 정의합니다. 다음은 기본적으로 설정되는 샘플 흐름입니다.

메뉴에서 원하는 블록을 찾아 캔버스로 드래그하여 흐름에 연결할 수 있습니다.

그런 다음 두 번 클릭하여 설정합니다. 프롬프트를 사용할 수도 있고, 정적 또는 동적 텍스트 음성 중에서 선택할 수도 있습니다 (동적 텍스트는 호출 조회에 첨부 된 값을 참조합니다. 아마도 데이터베이스 조회로 인한 결과 일 수 있습니다).

가장 강력한 기능 블록 중 하나는 응대 흐름 중에 AWS Lambda 함수를 호출 할 수 있다는 점입니다. 람다 함수는 데이터베이스에서 데이터를 가져 오거나, CRM에 연결하거나, 원하는 비즈니스 로직 유형을 구현할 수 있습니다. 람다 함수에서 키 – 값 쌍을 입력으로 제공하고 출력과 동일한 값을 반환합니다. 리턴 된 값은 플로우의 실행과 연관됩니다.

다음 단계는 연관된 우선 순위를 갖는 하나 이상의 대기열로 구성된 라우팅 프로파일을 작성하는 것입니다. 우선 순위를 사용하면 상담원이 적절한 순서로 여러 대기열에 서비스를 제공 할 수 있습니다 (낮은 번호는 우선 순위가 높음).

마지막 단계는 사용자 (관리자, 관리자, 에이전트 등)를 추가하고 권한을 부여하는 것입니다. 이 작업은 사용자 별로 또는 여러 사용자에 대한 정의가 포함 된 CSV 파일을 가져 와서 수행 할 수 있습니다. Hello World라는 사용자를 추가하는 방법은 다음과 같습니다.

에이전트의 계층 구조를 만들 수도 있습니다 (지역 및 / 또는 부서별 보고에 적합).

Amazon Connect에서는 보안 프로필을 사용하여 각 유형의 사용자에게 할당 된 권한을 제어 할 수 있습니다.

또한, 실시간 및 과거 운영 통계에 접근할 수 있습니다. 다음은 실시간 통계 중 일부입니다 (시간 프레임 및 표시된 필드는 필요에 따라 사용자 정의 할 수 있음).

측정 항목은 CloudWatch에 게시되어 알람을 만드는 데 사용될 수 있습니다.

Amazon Connect.에 대한 간단한 소개에서 보시다시피 보다시피 맞춤형 기능 및 다양한 확장을 제공하는 강력한 서비스입니다.

정식 출시
Amazon Connect는 현재 미국 동부 (버지니아 북부) 지역에서 사용할 수 있으며 오늘 부터 바로 여러분 만의 고객 센터를 만들 수 있습니다!가격 책정 방식은 사용한 통화량 만큼만 지불합니다. 각 고객 센터 및 각 활성 전화 통화 (인바운드 또는 아웃 바운드)는 분당 요금을 지불합니다. AWS 무료 티어를 통해 월간 90분 고객 센터 사용, 2개의 전화 번호 (DID 및 수신자 부담), 30 분의 인바운드 DID 통화, 30 분의 수신자 부담 수신자 부담 전화 및 30 분의 아웃 바운드 통화에 대해 1년간 제공합니다.

Jeff;

PS – 레고 이미지를 좀 더 자세히 보시려면 Amazon Connect Images 앨범을 참고하세요!

이 글은 Amazon Connect – Customer Contact Center in the Cloud의 한국어 번역입니다.

Amazon Rekognition 업데이트 – 얼굴 기반 나이 추정 속성 추가

Amazon Rekognition은 AWS의 인공 지능 서비스 중 하나입니다. Rekognition은 이미지에서 물체, 장면 및 얼굴을 감지 할 뿐만 아니라 얼굴을 검색하고 비교할 수도 있습니다. Rekognition 서비스는 백엔드에서 수십억 개의 이미지를 매일 분석하기 위해 딥러닝 기반 신경 네트워크 모델을 사용합니다. (자세한 내용은 Amazon Rekognition – 딥러닝을 기반한 이미지 탑지 및 인식 서비스 참고)

Amazon Rekognition은 이미지에서 찾은 여러 가지 속성을 API로 제공함으로서 다양한 이미진 기반 스마트 애플리케이션을 만들 수 있습니다. 오늘은 얼굴을 토대로 추정 나이를 알려주는 재미있는 신규 속성을 추가하였습니ㄷ다. 이 값은 나이 단위로 표시되며, 연령대가 겹칠 수 있습니다. 즉, 5 살의 얼굴은 4에서 6의 추정 범위를 가질 수 있지만, 6 살 얼굴은 4에서 8의 추정 범위를 가질 수 있습니다. 새로운 속성을 사용하여, 안전 관련 애플리케이션이나 인구 통계 수집 등에 활용할 수 있습니다.

새로운 기능을 재미있게 살펴 보기 위해, 필자의 옛날 사진을 가지고 Rekognition에게 나이를 추정해 달라고 요청했습니다. 결과는 다음과 같습니다.

첫 사진은 아마 제가 2 살 정도였습니다.

이 사진은 1966 년 봄 할머니 집에서 찍은 사진입니다.

저는 6 살이었는데, 6 세에서 13 세 사이라고 추정했습니다.

제가 43 살이었던 2003 년의 나의 첫 공식 아마존 PR 사진입니다.

나이 범위가 17 년이지만, 실제 나이는 중간값에 있습니다.

그리고, 가장 최근의 (2015 년 말) 사진입니다. 벌서 55 살이 되었네요.

다소 넓은 나이 범위가 나오지만, 중간 값에 나옵니다.  일반적으로 각 얼굴의 실제 나이는 인식 된 범위 내로 들어오지만, 항상 중간값으로 정확하게 떨어지는 것으로 생각해서는 안됩니다.

현재 이 기능은 바로 사용 가능하며 AWS 관리 콘솔에서 데모로 해 보실 수 있습니다.

Jeff;

이 글은 Amazon Rekognition Update – Estimated Age Range for Faces의 한국어 번역입니다.

저도 한번 해보았습니다. 여러분도 지금 바로 테스트 해보세요~!

2017-02-rekognition-face-age

Amazon Rekognition – 딥러닝을 기반한 이미지 탐지 및 인식 서비스

아래 사진이 무엇으로 보이시나요?

당연히 여러분은 동물이라고 인지하실 겁니다. 또한, 애완견으로서 골드리트리버 종이죠. 위의 그림과 이러한 메타 정보가 결합되는 것은 여러분의 뇌에서 바로 인지하기 때문입니다. 이는 여러분이 이미 수백 수천번 이러한 이미지와 데이터 간의 훈련을 통해 학습을 한 것입니다. 이런 방식으로 식물과 동물의 차이, 개와 고양이의 차이 그리고 골드 리트리버와 다른 견종과의 차이를 인지하는 것입니다.

이미지 인식을 위한 딥러닝(Deep Learning)
컴퓨터를 통해 인간과 동일한 수준의 이해력을 요구하는 것은 매우 어려운 작업임이 입증되었습니다. 수십 년 동안 컴퓨터 과학자들이 이 문제에 대해 여러 가지 다른 접근 방식을 취해 왔습니다. 오늘날 이 난제를 해결할 수 있는 가장 좋은 방법은 딥러닝 학습(deep learning)이라는 점에 공감대가 형성되었습니다. 딥러닝은 추상화와 신경망 결합을 사용하여 (Arthur C. Clarke가 말한 것처럼) 마술과 구별할 수 없는 결과를 산출합니다. 그러나 상당한 비용이 듭니다. 첫째, 데이터 훈련 단계에 많은 작업을 투입해야 합니다. 학습 네트워크에 다양한 텍스트 예제 (“this is a dog”, “this is a pet” 등)를 표시하여 이미지의 특징을 라벨과 연관 지어야 합니다. 이 단계에서 신경망의 크기와 다층 적 특성으로 인해 계산 비용이 많이 들게 되는 거죠. 트레이닝 단계가 완료된 후, 트레이닝 네트워크에서 새 이미지가 들어왔을 때 평가하기가 용이합니다. 쉽습니다. 그 결과는 일반적으로 신뢰 수준 (0-100%)으로 표현됩니다. 이를 통해 응용 프로그램에 적합한 정밀성 정도를 결정할 수 있습니다.

Amazon Rekognition 서비스 소개
오늘 Amazon Rekognition 서비스를 공개합니다. 딥러닝 기술을 이용하여 컴퓨터 비전 연구팀이 수 년에 거쳐 수십 억장의 이미지를 매일 훈련 시키는 완전 관리형 서비스입니다. 정확히 훈련된 수 천개의 객체와 장면에 대한 정보를 여러분의 애플리케이션에 사용할 수 있습니다. Rekognition 데모를 통해 사용 방법 및 샘플 코드를 보실 수 있고, 더 자세한 사항은 Rekognition API를 참고하실 수 있습니다.

Rekognition은 확장성을 고려해서 설계되었습니다. 각종 장면, 객체, 얼굴 등을 인식하여 이에 해당하는 레이블(Lavel) 정보를 반환해 주게 됩니다. 이미지에 하나 이상의 얼굴이 포함되어 있다면, 각 얼굴 경계선에 대한 정보를 제공합니다. 아래는 위의 골드 리트리버 이미지에 대한 정보입니다.

보시다시피 Rekognition을 통해 animal, dog, pet, golden retriever 등의 높은 신뢰 수준의 정보를 제공합니다. 이러한 정보들은 독립적이고 서로 명시적 관계성 없이 각자 딥러닝 모델을 통해 생성되는 것입니다. 예를 들어 개와 동물은 완전히 다른 트레이닝 결과입니다. 다만, Rekognition 결과 중 두 레이블이 동시에 강아지 중심의 훈련 자료에 동시에 나타나기도 합니다.

이제 제 와이프와 제가 찍은 사진을 한번 올려 보겠습니다.

Amazon Rekognition를 통해 두 사람의 얼굴과 경계선을 얻을 수 있습니다. 와이프가 행복한 표정을 짓고 있다는 것도 알려주네요. (이 사진은 와이프 생일날 찍은 것입니다.)

또한, Rekognition는 얼굴을 비교하고 해당 이미지 인식을 요청한 많은 얼굴 중 하나가 포함되어 있는지 확인합니다.

모든 기능은 API 함수를 통해 더 자세하게 제공됩니다. (콘솔에서는 간단한 데모를 보시는데 좋습니다.) 예를 들어, DetectLabels로 첫 번째 예제를 프로그래밍으로 처리하고, 두번째로 DetectFaces를 실행합니다. Rekognition에서 IndexFaces을 여러 번 호출해서 인식할 이미지를 준비시킬 수도 있습니다. 실행 할 때마다, 몇 기지 주요 정보(face vectors)를 이미지에서 추출해서 벡터로 저장하고 이미지를 없앱니다. 하나 이상의 인식용 모음을 만들어서 각각 페이스 벡터의 관련 그룹에 저장할 수 있습니다.

RekognitionAmazon Simple Storage Service (S3)에 있는 이미지를 직접 가져올 수도 있습니다. AWS Lambda 함수를 통해 새로 업로드 되는 이미지 인식 작업을 수행할 수 있는데, 이 때 AWS Identity and Access Management (IAM)으로 Rekognition API 접근을 하게 하고 AWS CloudTrail로 API 사용 로그를 남길 수도 있습니다.

Rekognition 애플리케이션
이미지 인식 서비스에 대한 응용 분야는 무궁무진합니다. 만일 많은 사진 정보가 있다면 Amazon Rekognition를 통해 태깅 및 색인 작업을 할 수 있습니다. Rekognition은 클라우드 서비스로서 저장 인프라 설치와 처리 그리고 확장성에 염려할 필요가 없기 때문입니다. 이미지 검색 기능, 태그 기반 브라우징 등 어떤 종류의 대화형 검색 서비스에 적합니다.

또한, 다양한 인증 및 보안 서비스에도 활용할 수 있습니다. 웹캠을 통해 신분증 정보를 확인하거나, 사무실 출입이나 보안 영역 출입 허가를 할 수도 있고, 시각적 감시를 수행하고, 관심 있는 대상 및 사람들을 위해 안면 검사를 할 수도 있습니다. 궁극적으로 영화에 나오는 것 같은 얼굴 인식 정보를 통한 “스마트” 광고판을 만들어 볼 수도 있을 것입니다.

정식 출시
Rekognition은 오늘 부터 US East (Northern Virginia), US West (Oregon), EU (Ireland) 리전에서 서비스를 시작합니다. AWS 프리티어(무료 체험판)을 통해 한달에 5,000개의 이미지는 비용 없이 분석 가능하고 일년에 1,000 개의 페이스 벡터를 저장할 수 있습니다. 그 이상에 대해서는 이미지량과 저장 볼륨에 따라 금액이 책정됩니다.

Jeff;

이 글은 AWS re:Invent 2016 신규 출시 소식으로 Amazon Rekognition – Image Detection and Recognition Powered by Deep Learning의 한국어 번역입니다. re:Invent 출시 소식에 대한 자세한 정보는 12월 온라인 세미나를 참고하시기 바랍니다.

Amazon Polly – 클라우드 기반 24개 언어 47개 음성 합성 서비스

어린 시절 (TV를 많이 보던 때)로 돌아가면, 1960년대와 70년대 매우 유명한 로봇 소리가 다시 기억이 납니다. 특히, HAL-9000, B9 (Lost in Space), 오리지널 Star Trek Computer, 밋 Rosie (The Jetsons)과 같은 영화에서 익숙한 음성이 생각나실 것입니다. 그 때는 기계적으로 생성된 음성이 인간의 감정과 표현을 그대로 재현한다는 것은 불가능하다고 생각했습니다.

세월이 흘러 이제는 컴퓨터가 생성하는 음성을 사용하는 다양한 애플리케이션과 사용 사례가 있고, 흔히 TTS(Text-to-Speech)라고 알려진 음성 합성은 게임, 알림, 이러닝, 화상 통화 및 고객 센터 응대 등에서 많이 활용되고 있습니다. 이러한 애플리케이션 중 상당수는 연결성이 뛰어나고, 로컬 프로세싱 성능 및 스토리지가 최상의 수준인 모바일 환경에 매우 적합합니다.

Amazon Polly 서비스 소개
이러한 사용 사례를 지원하기 위해 오늘 Amazon Polly 서비스를 출시합니다. Polly는 여러분의 애플리케이션 및 도구에서 활용가능한 클라우드 기반 음성 합성 서비스입니다. 현재 47개의 남성 혹은 여성 목소리와 24개 언어를 지원하고, 추가적으로 더 다양한 언어 및 음성을 서비스할 계획입니다.

Polly는 다양한 음성 합성의 기술적 도전을 극복하고 있습니다. 예를 들어, “I live in Seattle”에서 live(리브)와 “Live from New York.”에서 Live(라이브)를 구별합니다. 같은 단어가 다른 맥락에서 사용될 때의 발음 방식에 대해 정보를 가지고 있습니다. “St.”의 경우도 맥락에 따라 “street” 또는 “saint.”로 발음됩니다. 또한, Polly는 단위, 약자, 화폐 단위, 날짜, 시간 등 언어별로 다른 부분에 대해 유연하게 처리합니다.

이를 위해 전문적인 모국어 구사자들과 함께 작업을 하고, 각 언어 구사자들에게 개별 언어 내 무수히 많은 대표적인 단어와 어구를 발음하도록 요청한 다음, 그 오디오를 diphone이라고하는 음원으로 분해합니다.

Polly는 일반 텍스트를 전달 받아, 문맥과 내용에 따라 가장 정확하고 자연스러운 음성을 오디오 파일로 전환하여 스트리밍으로 제공하게 됩니다. 좀 더 다양한 기능을 추가하고 싶다면, SSML (Speech Synthesis Markup Language) 정보를 제공할 수 있습니다. 예를 들어, 하나의 문장에 영어와 프랑스어 단어가 섞여 있다던지, 어구 강조를 한다던지 하는 부분에 대한 SSML 의미적 태깅을 통해 음성이 달리 변환됩니다.

본 블로그에 음성 파일을 임베딩할 수 없지만, Polly Console에 가셔서,  여러분이 원하는 텍스트를 직접 입력 한 후 Listen to speech를 눌러 들을 수 있습니다.

MP3 파일로 저장하여 애플리케이션에서 사용할 수 있습니다.

Language and Region 메뉴를 누르면, 지원 하는 언어 및 국가를 보실 수 있습니다.

API 및 기술적 세부 정보
Polly 콘솔 뿐만 아니라 다양한 방식으로 자유롭게 서비스를 이용하려면, 텍스트 및 SSML을  SynthesizeSpeech API로 호출 하면 됩니다. 결과를 사용자에게 스트리밍으로 전달하거나, MP3 혹은 OGG 파일로 생성해서 원할 때 제공할 수 있습니다. MP3 또는 Vorbis 포맷의 고품질 오디오 (최대 22 kHz 샘플링) 및 PCM 포맷의 전화 음성 (8 kHz)을 지원합니다.

AWS Command Line Interface (CLI) 를 사용할 수도 있습니다.

Bash
$ aws polly synthesize-speech \
  --output-format mp3 --voice-id Joanna \
  --text "Hello my name is Joanna." \
  joanna.mp3

Polly는 모든 전송 데이터를 SSL을 통해 암호화 합니다. 제공된 텍스트는 Polly의 성능을 유지하기 위해 6개월까지 암호화 된 상태로 저장됩니다.

정식 출시 및 가격
Amazon Polly는 월 5백만자 까지 무료로 제공됩니다. 그 이상의 경우, 한 자당 $0.000004 per 또는 제작된 오디오 분당 $0.004로 과금 됩니다.  본 블로그의 영문 포스트의 경우, 약 $0.018 이고,  Adventures of Huckleberry Finn이라는 책 원문 전체는 약$2.4 정도 됩니다.

PollyUS East (Northern Virginia), US West (Oregon), US East (Ohio), EU (Ireland) 리전에서 지금 바로 사용할 수 있습니다.

Jeff;

이 글은 AWS re:Invent 2016 신규 출시 소식으로 Polly – Text to Speech in 47 Voices and 24 Languages의 한국어 번역입니다. re:Invent 출시 소식에 대한 자세한 정보는 12월 온라인 세미나를 참고하시기 바랍니다.