일반

Q: Amazon Kinesis Data Firehose란 무엇입니까?

Amazon Kinesis Data Firehose는 스트리밍 데이터를 데이터 스토어와 분석 도구에 로드하는 가장 쉬운 방법입니다. 스트리밍 데이터를 캡처하고 변환한 후 Amazon S3, Amazon Redshift, Amazon Elasticsearch Service 및 Splunk로 로드하여 이미 사용하고 있는 기존 비즈니스 인텔리전스 도구 및 대시보드를 통해 거의 실시간으로 분석할 수 있습니다. Amazon Kinesis Firehose는 완전관리형 서비스로서 데이터 처리량에 대응하여 자동으로 확장되며 지속적인 관리가 필요 없습니다. 또한, 데이터를 로드하기 전에 배치, 압축 및 암호화하여 대상 스토리지의 사용량을 최소화하고 보안을 강화할 수 있습니다.

Q: Amazon Kinesis Data Firehose에서 자동으로 수행하는 관리 작업은 무엇입니까?

Amazon Kinesis Data Firehose는 데이터를 캡처하여 Amazon S3, Amazon Redshift, Amazon Elasticsearch Service 또는 Splunk로 로드하는 데 필요한 모든 기본 인프라, 스토리지, 네트워킹 및 구성을 관리합니다. 하드웨어와 소프트웨어의 프로비저닝, 배포 및 지속적인 유지 관리에 대한 걱정이나 이러한 프로세스를 관리할 다른 애플리케이션을 작성할 필요가 없습니다. 또한, Firehose는 사람의 개입이나 관련된 개발자 오버헤드 없이 탄력적으로 확장됩니다. 그뿐만 아니라 Amazon Kinesis Data Firehose는 AWS 리전 내 3개의 시설에 데이터를 동기적으로 복제하여 데이터가 대상으로 전송될 때 데이터에 대한 높은 가용성과 안정성을 제공합니다.

Q: Amazon Kinesis Data Firehose를 사용하려면 어떻게 해야 합니까?

Amazon Web Services에 가입한 후, 다음 단계를 따라 Amazon Kinesis Data Firehose 사용을 시작할 수 있습니다.

  • Firehose 콘솔 또는 CreateDeliveryStream 작업을 통해 Amazon Kinesis Data Firehose 전송 스트림을 생성합니다. 원하는 경우 전송 스트림에 AWS Lambda 함수를 구성하여 데이터를 로드하기 전에 원시 데이터를 준비하고 변환하도록 할 수 있습니다.
  • Amazon Kinesis 에이전트 또는 Firehose API를 사용해 데이터가 전송 스트림으로 지속적으로 전송되도록 데이터 생산자를 구성합니다.
  • Firehose는 데이터를 지정한 대상으로 계속해서 자동으로 로드합니다.

Q: 원본이란 무엇입니까?

원본이란 스트리밍 데이터가 연속해서 생성 및 수집되는 위치를 말합니다. 예를 들어 Amazon EC2 인스턴스의 로깅 서버, 모바일 장치의 애플리케이션, IoT 장치의 센서, Kinesis 스트림 등도 원본이 될 수 있습니다.

Q: Amazon Kinesis Data Firehose에는 어떤 제한이 있습니까?

제한에 대한 자세한 내용은 개발자 안내서에서 Amazon Kinesis Data Firehose 제한 섹션을 참조하십시오.

주요 개념

Q: 전송 스트림이란 무엇입니까?

전송 스트림은 Amazon Kinesis Data Firehose의 기본 엔터티입니다. 전송 스트림을 생성한 후, 데이터를 전송 스트림으로 보내어 Firehose를 사용합니다.

Q: 레코드란 무엇입니까?

레코드는 사용자의 데이터 생산자가 전송 스트림에 전송하는 대상 데이터입니다. 레코드의 최대 크기(Base64 인코딩 전)는 1,024KB입니다.

Q: 대상이란 무엇입니까?

대상은 데이터가 전송되는 데이터 스토어입니다. 현재 Amazon Kinesis Data Firehose에서는 전송 대상으로 Amazon S3, Amazon Redshift, Amazon Elasticsearch Service 및 Splunk를 지원합니다.

전송 스트림 생성

Q: 전송 스트림을 생성하려면 어떻게 해야 합니까?

Firehose 콘솔 또는 CreateDeliveryStream 작업을 통해 Amazon Kinesis Data Firehose 전송 스트림을 생성할 수 있습니다. 자세한 내용은 전송 스트림 생성 섹션을 참조하십시오.

Q: 어떤 압축 형식을 사용할 수 있습니까?

Amazon Kinesis Data Firehose에서는 Amazon S3로 데이터를 전송하기 전에 데이터를 압축할 수 있습니다. 현재 이 서비스에서는 GZIP, ZIP 및 SNAPPY 압축 형식을 지원합니다. 데이터가 Amazon Redshift로 로드되는 경우에는 GZIP 형식만 지원됩니다.

Q: CloudWatch Logs 구독 기능을 사용할 때 압축은 어떻게 작동합니까?

CloudWatch Logs 구독 기능을 사용하여 CloudWatch Logs에서 Kinesis Data Firehose로 데이터를 스트리밍할 수 있습니다. CloudWatch Logs의 모든 로그 이벤트는 이미 gzip 형식으로 압축되어 있으므로 Firehose의 압축 구성을 비압축으로 유지해야 이중으로 압축되는 것을 방지할 수 있습니다. CloudWatch Logs 구독 기능에 대한 자세한 내용은 Amazon CloudWatch Logs 사용 설명서에서 Amazon Kinesis Data Firehose에 대한 구독 필터 섹션을 참조하십시오.

Q: 어떤 종류의 암호화를 사용할 수 있습니까?

Amazon Kinesis Data Firehose에서는 데이터가 Amazon S3 버킷으로 전달된 후에 데이터를 암호화할 수 있습니다. 전송 스트림을 생성할 때, 소유한 AWS Key Management Service(KMS) 키로 데이터를 암호화하도록 선택할 수 있습니다. KMS에 대한 자세한 내용은 AWS Key Management Service 섹션을 참조하십시오.

Q: Lambda를 통한 데이터 변환이란 무엇입니까?

Firehose는 AWS Lambda 함수를 호출하여 수신 데이터가 대상에 전송되기 전에 이를 변환할 수 있습니다. AWS에서 제공하는 Lambda 청사진 중 하나를 사용하여 새로운 Lambda 함수를 구성하거나 기존 Lambda 함수를 선택할 수 있습니다.

Q: 원본 레코드 백업이란 무엇입니까?

Lambda를 사용해 데이터 변환을 수행하는 경우 원본 레코드 백업을 활성화할 수 있습니다. 그러면 Amazon Kinesis Data Firehose에서 변환되지 않은 수신 데이터를 별도의 S3 버킷으로 전송합니다. Firehose에서 생성한 ‘YYYY/MM/DD/HH’ UTC 시간 접두사 앞에 삽입할 추가 접두사를 지정할 수 있습니다.

Q: 오류 로깅이란 무엇입니까?

Lambda를 사용해 데이터 변환을 수행하는 경우 Firehose에서 모든 Lambda 호출과 데이터 전송 오류를 Amazon CloudWatch Logs에 기록할 수 있으므로 Lambda 호출 또는 데이터 전송에 실패한 경우 특정 오류 로그를 볼 수 있습니다. 자세한 내용은 Amazon CloudWatch Logs를 사용하여 모니터링 섹션을 참조하십시오.

Q: 버퍼 크기와 버퍼 간격이란 무엇입니까?

Amazon Kinesis Data Firehose는 수신되는 스트리밍 데이터를 대상으로 전달하기 전에 데이터를 특정 크기 또는 특정 간격으로 버퍼링합니다. 전송 스트림을 생성할 때 버퍼 크기 및 버퍼 간격을 구성할 수 있습니다. 버퍼 크기는 MB 단위이며, 대상이 Amazon S3인 경우에는 1MB에서 128MB 그리고 대상이 Amazon Elasticsearch Service인 경우에는 1MB에서 100MB 범위에서 구성됩니다. 버퍼 간격은 초 단위로 60초에서 900초 사이입니다. 대상으로 데이터가 전송되는 것이 전송 스트림에 데이터를 쓰는 것보다 느릴 경우, 이를 만회하기 위해 Firehose에서 버퍼 크기를 동적으로 늘려 모든 데이터가 대상에 전달되도록 합니다.

Q: 데이터를 압축하도록 선택하는 경우, 버퍼 크기는 어떻게 적용됩니까?

버퍼 크기는 압축 전에 적용됩니다. 따라서 데이터를 압축하도록 선택하면, Amazon S3 버킷 내의 객체 크기는 지정한 버퍼 크기보다 작을 수 있습니다.

Q: 전송 스트림을 생성할 때 지정해야 하는 IAM 역할은 무엇입니까?

Amazon Kinesis Data Firehose는 Amazon S3 버킷 및 Amazon Elasticsearch 도메인과 같은 리소스에 액세스할 수 있도록 사용자가 지정한 IAM 역할을 맡습니다. 자세한 내용은 Amazon Kinesis Data Firehose 개발자 안내서에서 Amazon Kinesis Data Firehose를 통한 액세스 제어 섹션을 참조하십시오.

Q: 전송 스트림을 생성할 때 지정해야 하는 Amazon Redshift 사용자 권한은 무엇입니까?

Amazon Redshift 사용자는 데이터를 Amazon S3 버킷에서 Redshift 클러스터로 복사하기 위한 Redshift INSERT 권한을 보유해야 합니다.

Q: Amazon Redshift 클러스터가 VPC 내에 있다면 무엇을 해야 합니까?

Amazon Redshift 클러스터가 VPC 내에 있는 경우, VPC에서 Firehose IP 주소 차단을 해제하여 Amazon Kinesis Data Firehose에서 Redshift 클러스터에 액세스할 수 있도록 권한을 부여해야 합니다. VPC에 대한 IP 차단을 해제하는 방법에 대한 정보는 Amazon Kinesis Data Firehose 개발자 안내서에서 Amazon Redshift 대상에 액세스할 수 있는 권한을 Kinesis Data Firehose에 부여 섹션을 참조하십시오.

Q: Amazon Redshift를 대상으로 선택하면서 Amazon S3 버킷을 제공해야 하는 이유는 무엇입니까?

Amazon Redshift 대상의 경우, Amazon Kinesis Data Firehose에서는 데이터를 먼저 Amazon S3 버킷으로 전송한 다음, Redshift COPY 명령을 실행하여 데이터를 S3 버킷에서 Redshift 클러스터로 로드합니다.

Q: Amazon Elasticsearch Service 대상에 대한 인덱스 로테이션이란 무엇입니까?

Amazon Kinesis Data Firehose는 시간 기간을 기준으로 Amazon Elasticsearch Service 인덱스를 교체할 수 있습니다. 전송 스트림을 생성할 때 이 시간 기간을 구성할 수 있습니다. 자세한 내용은 Amazon Kinesis Data Firehose 개발자 안내서에서 Amazon ES 대상에 대한 인덱스 로테이션 섹션을 참조하십시오.

Q: Amazon Elasticsearch Service를 대상으로 선택하면서 Amazon S3 버킷을 제공해야 하는 이유는 무엇입니까?

Amazon Elasticsearch Service로 데이터를 로딩할 때, Amazon Kinesis Data Firehose는 모든 데이터 또는 전송에 실패한 데이터만 백업할 수 있습니다. 이 기능을 활용하고 데이터 손실을 방지하기 위해서는 백업 Amazon S3 버킷을 제공해야 합니다.

Q: 전송 스트림이 생성된 이후에 전송 스트림의 구성을 변경할 수 있습니까?

전송 스트림이 생성된 후 언제든 이의 구성을 변경할 수 있으며, Firehose 콘솔 또는 UpdateDestination 작업을 사용해 변경하면 됩니다. 구성이 변경되는 동안에도 전송 스트림은 활성 상태로 유지되므로 데이터를 전송 스트림으로 계속해서 전송할 수 있습니다. 업데이트된 구성은 보통 몇 분 내에 적용됩니다.

VPC 대상에 전송할 때는 새 대상을 동일한 VPC, 서브넷 및 보안 그룹 내에서 액세스할 수 있는 경우에 한해 대상 엔드포인트 URL을 변경할 수 있습니다. VPC, 서브넷 및 보안 그룹을 변경하려면 Firehose 전송 스트림을 재생성해야 합니다.

Q: 특정 계정의 Firehose 전송 스트림을 사용하여 데이터를 다른 계정의 Amazon Elasticsearch Service 도메인 VPC 대상으로 전송할 수 있습니까?

아니요. Firehose 전송 스트림과 대상 Amazon Elasticsearch Service 도메인은 동일한 계정에 있어야 합니다.

Q: 특정 리전의 Firehose 전송 스트림을 사용하여 데이터를 다른 리전의 Amazon Elasticsearch Service 도메인 VPC 대상으로 전송할 수 있습니까?

아니요. Firehose 전송 스트림과 대상 Amazon Elasticsearch Service 도메인은 동일한 리전에 있어야 합니다.

데이터 준비 및 변환

Q: Amazon Kinesis Data Firehose의 원시 데이터를 준비 및 변환하려면 어떻게 해야 합니까?

Amazon Kinesis Data Firehose에서는 AWS Lambda 함수를 사용하여 전송 스트림에서 수신되는 원시 데이터가 대상에 로드되기 전에 이를 준비하고 변환할 수 있습니다. 새로운 전송 스트림을 생성하거나 기존 전송 스트림을 수정할 때 데이터 변환을 위한 AWS Lambda 함수를 구성할 수 있습니다.

Q: 준비되고 변환된 데이터를 내 AWS Lambda 함수에서 Amazon Kinesis Data Firehose로 반환하려면 어떻게 해야 합니까?

Lambda를 통해 변환된 모든 레코드는 다음과 같은 3개의 파라미터와 함께 Firehose로 반환되어야 합니다. 그렇지 않은 경우 Firehose는 해당 레코드를 거부하고 이를 데이터 변환 실패로 간주합니다.

  • recordId: Firehose는 Lambda를 호출할 때 각 레코드와 함께 recordId를 전달합니다. 변환된 각 레코드는 정확히 같은 recordId와 함께 반환되어야 합니다. 원래 recordId와 반환된 recordId가 조금이라도 다르면 데이터 변환 실패로 간주됩니다.
  • result: 각 레코드의 변환 결과 상태. 이 파라미터에 대해서 허용되는 값은 다음과 같습니다. ‘Ok’는 레코드가 예상대로 성공적으로 변환된 경우를 말합니다. ‘Dropped’는 처리 로직이 예상대로 의도적으로 레코드를 중단한 경우를 말합니다. ‘ProcessingFailed’는 레코드가 예상과는 달리 변환될 수 없는 경우를 말합니다. Firehose는 SucceedProcessing.Records와 SucceedProcessing.Bytes 지표를 생성할 때 ‘Ok’ 및 ‘Dropped’ 상태로 반환된 레코드는 성공적으로 처리된 레코드로 간주하고 ‘ProcessingFailed’ 상태로 반환된 레코드는 처리한 실패한 레코드로 간주합니다. 
  • data: base64 인코딩 후 변환된 데이터 페이로드.

Q: 데이터 준비 및 변환에 사용할 수 있는 Lambda 청사진은 무엇입니까?

Firehose에서는 데이터 변환용 Lambda 함수를 생성하는 데 사용할 수 있도록 다음과 같은 Lambda 청사진을 제공합니다.

  • General Firehose Processing: 이 청사진은 위에서 설명한 데이터 변환 및 상태 모델을 포함합니다. 사용자 지정 변환 로직에 이 청사진을 사용하십시오.
  • Apache Log to JSON: 이 청사진은 사전에 정의된 JSON 필드 이름을 통해 Apache 로그 줄을 JSON 객체로 파싱 및 변환합니다.
  • Apache Log to CSV: 이 청사진은 Apache 로그를 CSV 형식으로 파싱 및 변환합니다.
  • Syslog to JSON: 이 청사진은 사전에 정의된 JSON 필드 이름을 통해 Syslog 줄을 JSON 객체로 파싱 및 변환합니다.
  • Syslog to CSV: 이 청사진은 Syslog 로그를 CSV 형식으로 파싱 및 변환합니다.

Q: 모든 원시 데이터 복사본을 내 S3 버킷에 보관할 수 있습니까?

예. Firehose에서는 변환된 레코드를 대상에 전송하면서 동시에 변환되지 않은 모든 레코드를 S3 버킷에 백업할 수 있습니다. 전송 스트림을 생성하거나 업데이트할 때 소스 레코드 백업을 활성화하면 됩니다.

전송 스트림에 데이터 추가

Q: Amazon Kinesis Data Firehose 전송 스트림에 데이터를 추가하려면 어떻게 해야 합니까?

Amazon Kinesis 에이전트나 Firehose의 PutRecordPutRecordBatch 작업을 통해 Amazon Kinesis Data Firehose 전송 스트림에 데이터를 추가할 수 있습니다. Kinesis Data Firehose 역시 Kinesis Data Streams, AWS IoT, Amazon CloudWatch Logs, Amazon CloudWatch Events 등 다른 AWS 데이터 원본과 통합됩니다.

Q: Amazon Kinesis 에이전트란 무엇입니까?

Amazon Kinesis 에이전트는 사전 구축된 Java 애플리케이션으로서, 데이터를 수집하여 전송 스트림으로 전송하는 간편한 방법을 제공합니다. 에이전트는 웹 서버, 로그 서버, 데이터베이스 서버 등과 같은 Linux 기반 서버 환경에 설치할 수 있습니다. 에이전트에서는 특정 파일을 모니터링하고 데이터를 전송 스트림으로 지속적으로 전송합니다. 자세한 내용은 에이전트를 사용하여 쓰기 섹션을 참조하십시오.

Q: Amazon Kinesis 에이전트에서 지원하는 플랫폼은 무엇입니까?

Amazon Kinesis 에이전트는 현재 Amazon Linux 및 Red Hat Enterprise Linux를 지원합니다.

Q: Amazon Kinesis 에이전트는 어디에서 다운로드 받을 수 있습니까?

Amazon Kinesis 에이전트는 다음 명령과 링크를 사용해 다운로드 및 설치할 수 있습니다.

Amazon Linux의 경우: sudo yum install –y aws-kinesis-agent

Red Hat Enterprise Linux의 경우: sudo yum install –y https://s3.amazonaws.com/streaming-data-agent/aws-kinesis-agent-latest.amzn1.noarch.rpm

GitHub의 경우: awlabs/amazon-kinesis-agent

Q: Amazon Kinesis 에이전트를 사용하려면 어떻게 해야 합니까?

Amazon Kinesis 에이전트를 서버에 설치한 후, 디스크의 특정 파일을 모니터링하도록 구성합니다. 그런 다음 새로운 데이터를 전송 스트림에 지속적으로 전송할 수 있습니다. 자세한 내용은 에이전트를 사용하여 쓰기 섹션을 참조하십시오.

Q: PutRecord와 PutRecordBatch 작업의 차이는 무엇입니까?

PutRecord 작업에서는 API 호출 시 단일 데이터 레코드를 사용할 수 있고, PutRecordBatch 작업에서는 API 호출 시 여러 데이터 레코드를 사용할 수 있습니다. 자세한 내용은 PutRecordPutRecordBatch를 참조하십시오.

Q: Amazon Kinesis Data Firehose API에 액세스하기 위해 사용할 수 있는 프로그래밍 언어 또는 플랫폼은 무엇입니까?

Amazon Kinesis Data Firehose API는 Amazon Web Services SDK에서 사용할 수 있습니다. Amazon Web Services SDK용 프로그래밍 언어와 플랫폼에 대한 목록은 Amazon Web Services용 도구 페이지를 참조하십시오.

Q: Kinesis 스트림에서 Firehose 전송 시스템으로 데이터를 추가하려면 어떻게 해야 합니까?

AWS 콘솔이나 Firehose API를 통해 전송 시스템을 개발하거나 업데이트할 경우에는 Kinesis 스트림을 전송 스트림의 원본으로 구성할 수 있습니다. 구성이 끝나면 Firehose가 Kinesis 스트림에서 데이터를 자동으로 읽어와서 지정한 대상 위치에 로드합니다.

Q: Kinesis Data Firehose는 Kinesis 스트림에서 데이터를 얼마나 자주 읽어옵니까?

Kinesis Data Firehose는 Kinesis 샤드마다 2초에 한 번씩 Kinesis Data Streams GetRecords()를 호출합니다.

Q: Kinesis 스트림을 전송 스트림의 원본으로 구성할 경우 Kinesis Data Firehose는 어디에서 데이터를 읽어옵니까?

Kinesis 데이터 스트림이 전송 스트림의 원본으로 구성된 경우에는 Kinesis Data Firehose가 Kinesis 데이터 스트림의 LATEST 위치에서 데이터를 읽어오기 시작합니다. Kinesis 데이터 스트림 위치에 대한 자세한 내용은 Kinesis Stream Service API Reference의 GetShardIterator를 참조하십시오.

Q: Kinesis 데이터 스트림을 다수의 Firehose 전송 시스템 원본으로 구성할 수 있습니까?

예. 가능합니다. 하지만 Kinesis Data Firehose의 GetRecords() 호출은 Kinesis 샤드의 전체 조절 제한에 포함되기 때문에 제한에 걸리지 않으려면 다른 Kinesis 애플리케이션과 함께 전송 시스템을 계획해야 합니다. 자세한 내용은 Kinesis Data Streams 개발자 안내서의 Kinesis Data Streams 제한 섹션을 참조하십시오.

Q: Kinesis 데이터 스트림이 원본으로 구성된 경우에도 Kinesis Agent 또는 Firehose의 PutRecord 및 PutRecordBatch 작업을 통해 데이터를 전송 스트림에 추가할 수 있습니까?

아닙니다. 추가할 수 없습니다. Kinesis 데이터 스트림이 Firehose 전송 스트림의 원본으로 구성된 경우에는 Firehose의 PutRecord 및 PutRecordBatch 작업이 비활성화됩니다. 이때는 Kinesis Data Streams PutRecord 및 PutRecords 작업을 통해 데이터를 Kinesis 데이터 스트림에 추가해야 합니다.

Q: AWS IoT에서 전송 스트림으로 데이터를 추가하려면 어떻게 해야 합니까?

이벤트를 전송 스트림으로 보내는 AWS IoT 작업을 생성하면 AWS IoT에서 전송 스트림으로 데이터를 추가할 수 있습니다. 자세한 정보는 Kinesis Data Firehose 개발자 안내서의 AWS IoT를 이용해 Amazon Kinesis Data Firehose에 쓰기 섹션을 참조하십시오.

Q: AWS CloudWatch Logs에서 전송 스트림으로 데이터를 추가하려면 어떻게 해야 합니까?

이벤트를 전송 스트림으로 보내는 CloudWatch Logs 서브스크립션을 생성하면 CloudWatch Logs에서 전송 스트림으로 데이터를 추가할 수 있습니다. 자세한 내용은 Amazon CloudWatch 사용 안내서에서 CloudWatch Logs 구독 필터 사용 섹션을 참조하십시오.

Q: CloudWatch Events에서 Amazon Kinesis Data Firehose 전송 스트림에 데이터를 추가하려면 어떻게 해야 합니까?

전송 스트림을 대상으로 하는 CloudWatch Events 규칙을 생성하면 CloudWatch Events에서 Firehose 전송 스트림으로 데이터를 추가할 수 있습니다. 자세한 내용은 Kinesis Data Firehose 개발자 안내서의 CloudWatch Events를 이용해 Amazon Kinesis Data Firehose에 쓰기 섹션을 참조하십시오.

데이터 전송

Q: Amazon Kinesis Data Firehose에서는 데이터를 Amazon S3 버킷으로 얼마나 자주 전송합니까?

Amazon S3로 데이터를 전송하는 빈도는 전송 스트림에 구성한 S3 버퍼 크기와 버퍼 간격에 따라 다릅니다. Amazon Kinesis Data Firehose는 Amazon S3로 데이터를 전송하기 전에 수신 데이터를 버퍼링합니다. S3 버퍼 크기(1MB에서 128MB) 또는 버퍼 간격(60초에서 900초)의 값을 구성할 수 있으며, 둘 중에 먼저 만족하는 조건이 Amazon S3로 데이터가 전송되도록 트리거합니다. 전송 스트림으로 데이터가 수집되는 것보다 대상으로 데이터가 전송되는 것이 느릴 경우, 이를 만회하기 위해 Amazon Kinesis Data Firehose에서 버퍼 크기를 동적으로 늘려 모든 데이터가 대상에 전달되도록 합니다.

Q: Amazon Kinesis Data Firehose에서는 데이터를 Amazon Redshift 클러스터로 얼마나 자주 전송합니까?

Amazon Redshift 대상의 경우, Amazon Kinesis Data Firehose에서는 데이터를 먼저 Amazon S3 버킷으로 전송한 다음, Redshift COPY 명령을 실행하여 데이터를 S3 버킷에서 Redshift 클러스터로 로드합니다. Amazon S3에서 Amazon Redshift로 데이터를 복사하는 작업의 빈도는 Redshift 클러스터가 COPY 명령을 완료하는 속도에 따라 다릅니다. 아직 복사할 데이터가 남아 있는 경우, Redshift 클러스터가 이전 COPY 명령을 성공적으로 완료하는 대로 Firehose에서 새로운 COPY 명령을 실행합니다.

Q: Amazon Kinesis Data Firehose에서는 데이터를 Amazon Elasticsearch 도메인으로 얼마나 자주 전송합니까?

Amazon Elasticsearch Service로 데이터를 전송하는 빈도는 전송 스트림에 구성한 Elasticsearch 버퍼 크기와 버퍼 간격에 따라 다릅니다. Firehose는 Amazon Elasticsearch Service로 데이터를 전송하기 전에 수신 데이터를 버퍼링합니다. Elasticsearch 버퍼 크기(1MB에서 100MB) 또는 버퍼 간격(60초에서 900초)의 값을 구성할 수 있으며, 둘 중에 먼저 충족되는 조건이 Amazon Elasticsearch Service로 데이터가 전송되도록 트리거합니다. 전송 스트림으로 데이터가 수집되는 것보다 대상으로 데이터가 전송되는 것이 느릴 경우, 이를 만회하기 위해 Amazon Kinesis Data Firehose에서 버퍼 크기를 동적으로 늘려 모든 데이터가 대상에 전달되도록 합니다.

Q: Amazon S3 버킷의 데이터는 어떻게 정리됩니까?

Amazon Kinesis Data Firehose에서는 Amazon S3에 객체를 저장하기 전에 데이터 형식에 UTC 시간 접두사 YYYY/MM/DD/HH를 추가합니다. 접두사는 슬래시(/)로 구분된 각 레이블이 하위 폴더가 되는 Amazon S3 폴더 구조로 전환합니다. 슬래시로 자체 최상위 폴더를 추가하거나(예: myApp/YYYY/MM/DD/HH) 텍스트를 YYYY 최상위 폴더 이름에 붙여서(예: myApp YYYY/MM/DD/HH) 이러한 폴더 구조를 변경할 수 있습니다. 이러한 S3 접두사는 전송 스트림을 생성할 때 지정하면 됩니다.

Q: Amazon Kinesis Data Firehose에서 전송하는 Amazon S3 객체의 이름 지정 패턴은 어떻게 됩니까?

Amazon S3 객체 이름은 DeliveryStreamName-DeliveryStreamVersion-YYYY-MM-DD-HH-MM-SS-RandomString 패턴을 따르며, DeliveryStreamVersion은 1로 시작하여 전송 스트림의 구성이 변경될 때마다 1씩 증가합니다. 전송 스트림 구성(예: S3 버킷 이름, 버퍼링 힌트, 압축 및 암호화)은 Firehose 콘솔 또는 UpdateDestination 작업을 통해 변경할 수 있습니다.

Q: Amazon S3 버킷의 매니페스트 폴더란 무엇입니까?

Amazon Redshift 대상의 경우, Amazon Kinesis Data Firehose에서는 Amazon S3 객체를 Redshift 클러스터에 배치로 로드하기 위해 매니페스트 파일을 생성합니다. 매니페스트 폴더는 Firehose에서 생성한 매니페스트 파일을 저장합니다.

Q: 백업된 Elasticsearch 문서는 Amazon S3 버킷에서 어떻게 표시됩니까?

‘모든 문서’ 모드가 사용된 경우, Amazon Kinesis Data Firehose는 전송 스트림의 버퍼링 구성에 따라 여러 수신 레코드를 연결한 다음, 이를 S3 버킷에 S3 객체로 전송합니다. 어떤 백업 모드가 구성되었는지와 관계없이, 실패한 문서는 오류 코드 및 전송을 시도한 시간과 같은 추가 정보를 제공하는 특정 JSON 형식을 사용해 S3 버킷에 전송됩니다. 자세한 내용은 Amazon Kinesis Data Firehose 개발자 안내서에서 Amazon ES Destination을 위한 Amazon S3 백업 섹션을 참조하십시오.

Q: 단일 전송 스트림에서 여러 Amazon S3 버킷으로 데이터를 전송할 수 있습니까?

단일 전송 스트림은 현재 1개의 Amazon S3 버킷으로만 데이터를 전송할 수 있습니다. 여러 S3 버킷으로 데이터를 전송하려면 여러 개의 전송 스트림을 생성하면 됩니다.

Q: 단일 전송 스트림에서 여러 Amazon Redshift 클러스터 또는 테이블로 데이터를 전송할 수 있습니까?

단일 전송 스트림은 현재 1개의 Amazon Redshift 클러스터 및 1개의 테이블로만 데이터를 전송할 수 있습니다. 여러 Redshift 클러스터 또는 테이블로 데이터를 전송하려면 여러 개의 전송 스트림을 생성하면 됩니다.

Q: 단일 전송 스트림에서 여러 Amazon Elasticsearch Service 도메인 또는 인덱스로 데이터를 전송할 수 있습니까?

단일 전송 스트림은 현재 1개의 Amazon Elasticsearch Service 도메인 및 1개의 인덱스로만 데이터를 전송할 수 있습니다. 여러 Amazon Elasticsearch Service 도메인 또는 인덱스로 데이터를 전송하려면 여러 개의 전송 스트림을 생성하면 됩니다.

Q: Amazon Kinesis Data Firehose는 데이터를 VPC 내 Amazon Elasticsearch Service 도메인으로 어떻게 전송합니까?

Kinesis Data Firehose를 활성화하여 데이터를 VPC 내 Amazon Elasticsearch Service 대상으로 전송하는 경우, Amazon Kinesis Data Firehose는 선택한 각 서브넷에 대해 VPC 내에 1개 이상의 교차 계정 탄력적 네트워크 인터페이스(ENI)를 생성합니다. Amazon Kinesis Data Firehose는 이 ENI를 사용하여 데이터를 VPC로 전송합니다. ENI의 개수는 서비스 요구 사항에 따라 자동으로 늘어납니다.

전송 스트림 문제 해결 및 관리

Q: Amazon Kinesis Data Firehose 전송 스트림으로 데이터를 전송 시 병목 현상이 발생하는 이유는 무엇입니까?

기본적으로 각 전송 스트림은 최대 초당 트랜잭션 2,000건, 초당 레코드 5,000개 및 초당 5MB를 수용할 수 있습니다. 서비스 한도 증가 양식을 제출하면 간단하게 이러한 한도를 늘릴 수 있습니다.

Q: Amazon S3 버킷, Amazon Redshift 테이블 또는 Amazon Elasticsearch 인덱스 또는 Splunk 클러스터에 중복된 레코드가 있는 이유는 무엇입니까?

Amazon Kinesis Data Firehose에서는 데이터 전송에 ‘최소 한 번’이라는 의미 체계를 사용합니다. 드문 경우지만 예를 들어 데이터 전송 시도 중에 요청 제한 시간이 초과하는 경우, Firehose에서 전송을 재시도하고 이전 요청도 결국 수행되면, 데이터 중복이 발생합니다.

Q: Amazon S3 버킷으로 데이터를 전송하는 데 실패하면 어떤 일이 발생합니까?

Amazon S3 버킷으로 데이터를 전송하는 데 실패하면, Amazon Kinesis Data Firehose에서 5초 간격으로 최대 24시간 동안 데이터 전송을 재시도합니다. 24시간의 최대 보존 기간이 지나도 문제가 지속되면, Amazon Kinesis Data Firehose에서 데이터를 취소합니다.

Q: Amazon Redshift 클러스터로 데이터를 전송하는 데 실패하면 어떤 일이 발생합니까?

Amazon Redshift 클러스터로 데이터를 전송하는 데 실패하면, Amazon Kinesis Data Firehose에서 5분 간격으로 최대 120분 동안 데이터 전송을 재시도합니다. 120분이 지나면, Amazon Kinesis Data Firehose는 COPY를 수행할 준비가 된 현재 S3 객체 배치를 건너뛰고 다음 배치로 진행합니다. 건너뛴 객체에 대한 정보는 오류 폴더에 매니페스트 파일로서 S3 버킷에 전송되고, 수동 백필에 사용할 수 있습니다. 매니페스트 파일을 사용해 데이터를 수동으로 복사하는 방법에 대한 정보는 매니페스트 파일을 이용해 로드할 데이터 파일 지정 섹션을 참조하십시오.

Q: Amazon Elasticsearch 도메인으로 데이터를 전송하는 데 실패하면 어떤 일이 발생합니까?

Amazon Elasticsearch Service 대상의 경우, 전송 스트림을 생성할 때 재시도 기간을 0초에서 7,200초 범위에서 지정할 수 있습니다. Amazon ES 도메인으로 데이터를 전송하는 데 실패하면, Amazon Kinesis Data Firehose에서 지정된 시간 동안 데이터 전송을 재시도합니다. 재시도 기간이 지나면, Amazon Kinesis Data Firehose는 현재 데이터 배치를 건너뛰고 다음 배치로 진행합니다. 건너뛴 문서에 대한 상세 정보는 S3 버킷의 elasticsearch_failed 폴더로 전송되고, 수동 백필에 사용할 수 있습니다.

Q: 데이터 변환에 실패하면 어떻게 됩니까?

Firehose가 데이터 변환을 위해 Lambda 함수를 호출하려고 시도할 때 실패하는 시나리오에는 2가지 유형이 있습니다.

  • 첫 번째 유형은 네트워크 제한 시간에 걸리거나 Lambda 호출 한도에 도달하여 함수 호출이 실패하는 경우입니다. 이러한 이유로 실패한 경우에는 Firehose에서 기본적으로 3번 호출을 재시도한 후 해당 레코드 배치를 건너뜁니다. 건너뛴 레코드는 처리에 실패한 레코드로 간주됩니다. CreateDeliveryStream 및 UpdateDeliveryStream API를 사용하여 호출 재시도 수를 0에서 300 사이로 설정할 수 있습니다 이러한 실패 유형의 경우 Firehose의 오류 로깅 기능을 사용하여 호출 오류를 CloudWatch Logs로 내보낼 수도 있습니다. 자세한 내용은 Amazon CloudWatch Logs를 사용하여 모니터링 섹션을 참조하십시오.
  • 실패 시나리오의 두 번째 유형은 레코드의 변환 결과가 Lambda 함수에서 반환될 때 ‘ProcessingFailed’로 설정된 경우입니다. Firehose에서는 이러한 레코드를 처리에 실패한 레코드로 간주합니다. 이러한 실패 유형의 경우 Lambda의 로깅 기능을 사용하여 오류 로그를 CloudWatch Logs로 내보낼 수 있습니다. 자세한 내용은 AWS Lambda에 대한 Amazon CloudWatch Logs 액세스 섹션을 참조하십시오.

실패 시나리오의 두 유형 모두 처리에 실패한 레코드는 S3 버킷의 processing_failed 폴더로 전송됩니다.

Q: 전송된 S3 객체의 크기가 내가 전송 스트림 구성에 지정한 버퍼 크기보다 큰 이유는 무엇입니까?

전송된 S3 객체의 크기는 버퍼 크기 조건이 버퍼 간격 조건보다 먼저 충족되는 대부분의 경우 지정된 버퍼 크기가 반영됩니다. 하지만 대상으로 데이터가 전송되는 것이 전송 스트림에 데이터를 쓰는 것보다 느릴 경우, 이를 만회하기 위해 Firehose에서 버퍼 크기를 동적으로 늘려 모든 데이터가 대상에 전달되도록 합니다. 이러한 경우, 전송된 S3 객체의 크기는 지정한 버퍼 크기보다 클 수 있습니다.

Q: Amazon S3 버킷의 오류 폴더란 무엇입니까?

오류 폴더는 Amazon Redshift 클러스터로 로드하는 데 실패한 S3 객체의 정보를 담고 있는 매니페스트 파일을 저장합니다. Redshift COPY 명령을 수동으로 실행하여 이러한 객체를 다시 로드할 수 있습니다. 매니페스트 파일을 사용해 데이터를 수동으로 복사하는 방법에 대한 정보는 매니페스트 파일을 이용해 로드할 데이터 파일 지정 섹션을 참조하십시오.

Q: Amazon S3 버킷의 elasticsearch_failed 폴더란 무엇입니까?

elasticsearch_failed 폴더는 Amazon Elasticsearch 도메인으로 로드하는 데 실패한 문서를 저장합니다. 백필을 위해 해당 문서를 수동으로 다시 인덱싱할 수 있습니다.

Q: 내 Amazon S3 버킷의 processing_failed 폴더란 무엇입니까?

processing_failed 폴더는 AWS Lambda 함수에서 변환에 실패한 레코드를 저장합니다. 이러한 레코드는 수동으로 다시 처리할 수 있습니다.

Q: Amazon Kinesis Data Firehose 전송 스트림의 운영 및 성능을 모니터링하려면 어떻게 해야 합니까?

Firehose 콘솔에서는 수신 데이터 볼륨과 전송 데이터 볼륨 같은 주요 운영 및 성능 지표를 표시합니다. 또한, Amazon Kinesis Data Firehose는 Amazon CloudWatch Metrics와 통합되므로, 전송 스트림에 대한 지표를 수집, 확인 및 분석할 수 있습니다. Amazon Kinesis Data Firehose 지표에 대한 자세한 내용은 Amazon Kinesis Data Firehose 개발자 안내서에서 Amazon CloudWatch Metrics로 모니터링 섹션을 참조하십시오.

Q: Amazon Kinesis Data Firehose 전송 스트림의 데이터 변환 및 데이터 전송 실패를 모니터링하려면 어떻게 해야 합니까?

Amazon Kinesis Data Firehose는 Amazon CloudWatch Logs와 통합되므로, 데이터 변환 또는 전송이 실패하면 특정 오류 로그를 확인할 수 있습니다. 전송 스트림을 생성할 때 오류 로깅을 활성화할 수 있습니다. 자세한 내용은 Amazon Kinesis Data Firehose 개발자 안내서에서 Amazon CloudWatch Logs로 모니터링 섹션을 참조하십시오.

Q: Amazon Kinesis Data Firehose 전송 스트림에 대한 액세스를 어떻게 관리하고 제어합니까?

Amazon Kinesis Data Firehose는 AWS 서비스 및 리소스에 대한 사용자 액세스를 안전하게 제어할 수 있도록 지원하는 서비스인 AWS Identity and Access Management와 통합됩니다. 예를 들어, 특정 사용자 또는 그룹만 Firehose 전송 스트림에 데이터를 추가할 수 있도록 허용하는 정책을 생성할 수 있습니다. 스트림에 대한 액세스 관리 및 제어에 대한 자세한 내용은 Amazon Kinesis Data Firehose를 통한 액세스 제어 섹션을 참조하십시오.

Q: 보안 분석 및 운영 문제 해결을 위해 Amazon Kinesis Data Firehose 전송 스트림에 전송된 API 호출을 기록하려면 어떻게 해야 합니까?

Amazon Kinesis Data Firehose는 계정에 대한 AWS API 호출을 기록하고 로그 파일을 사용자에게 전달하는 서비스인 AWS CloudTrail과 통합됩니다. API 호출 로깅 및 지원되는 Amazon Kinesis Data Firehose API 작업 목록에 대한 자세한 내용은 AWS CloudTrail을 이용한 Amazon Kinesis Data Firehose API 호출 모니터링 섹션을 참조하십시오.

요금 및 결제

Q: AWS 프리 티어에서 Amazon Kinesis Data Firehose를 사용할 수 있습니까?

아니요. Amazon Kinesis Data Firehose는 현재 AWS 프리 티어에서 사용할 수 없습니다. AWS 프리 티어는 AWS 서비스 그룹을 무료로 체험해 볼 수 있도록 하는 프로그램입니다. 자세한 내용은 AWS 프리 티어를 참조하십시오.

Q: Amazon Kinesis Data Firehose의 요금은 어떻게 됩니까?

Amazon Kinesis Data Firehose는 사용한 만큼 지불하는 간편한 요금제를 사용합니다. 선수금이나 최소 요금이 없으며 사용한 리소스에 대해서만 비용을 지불하면 됩니다. Amazon Kinesis Data Firehose 요금은 Firehose에서 수집한 데이터 볼륨(GB)을 기준으로 부과되며 각 레코드는 5KB 단위로 올림 처리됩니다. VPC 내 대상으로 전송하는 경우에는 전송 스트림이 각 가용 영역에서 프로비저닝 상태를 유지하는 매 시간마다 그리고 대상에 대해 처리되는 데이터의 GB당 요금이 청구됩니다. Amazon Kinesis Data Firehose 비용에 대한 자세한 내용은 Amazon Kinesis Data Firehose 요금 페이지를 참조하십시오.

Q: PutRecordBatch 작업을 사용하여 Amazon Kinesis Data Firehose로 데이터를 전송할 때, 5KB 단위로 올림은 어떻게 계산됩니까?

5KB 단위로 올림은 API 작업 수준이 아니라 레코드 수준에서 계산됩니다. 예를 들어, PutRecordBatch 호출에 2개의 1KB 레코드가 포함된 경우 해당 호출의 데이터 볼륨은 10KB로 측정됩니다(레코드당 5KB).

Q: Amazon Kinesis Data Firehose 비용에는 Amazon S3, Amazon Redshift, Amazon Elasticsearch Service 및 AWS Lambda 비용이 포함되어 있습니까?

아니요. 스토리지와 요청 비용을 비롯하여 Amazon S3, Amazon Redshift, Amazon Elasticsearch Service 및 AWS Lambda 사용과 관련된 요금은 별도로 청구됩니다. 자세한 내용은 Amazon S3 요금, Amazon Redshift 요금, Amazon Elasticsearch Service 요금AWS Lambda 요금 페이지를 참조하십시오.

서비스 수준 계약

Q: Amazon Kinesis Data Firehose SLA에서는 무엇을 보장합니까?

Amazon Kinesis Data Firehose SLA는 Amazon Kinesis Data Firehose에 대해 최소 99.9%의 월간 가동률을 보장합니다.

Q: SLA 서비스 크레딧을 수령할 자격이 있는지 어떻게 알 수 있습니까?

같은 리전 내에서 작업을 실행하고 있는 하나 이상의 가용 영역의 월간 가동률이 월별 청구 주기 동안 99.9%보다 낮은 경우, Amazon Kinesis Data Firehose SLA에 따라 Amazon Kinesis Data Firehose의 SLA 크레딧 지급 대상이 됩니다.

SLA 이용 약관과 요청 제출 방법에 대한 자세한 내용은 Amazon Kinesis Data Firehose SLA 세부 정보 페이지를 참조하십시오.

Amazon Kinesis Data Firehose 요금에 대해 자세히 알아보기

요금 페이지로 이동하기
시작할 준비가 되셨습니까?
가입
추가 질문이 있으십니까?
문의처