Amazon Web Services 한국 블로그

Amazon Redshift – Amazon Q를 포함한 새로운 AI 기능 추가

Amazon Redshift는 서비스에 인공 지능(AI)을 적용하여 효율성을 최적화하고 생산성을 높일 수 있도록 오늘 평가판으로 두 가지 새로운 기능을 출시합니다.

우선 Amazon Redshift Serverless가 더 스마트해집니다. 쿼리의 복잡성, 빈도, 데이터 세트 크기 등의 차원에 따라 능동적으로 용량을 자동 확장하여 맞춤형 성능 최적화를 제공합니다. 이를 통해 데이터 웨어하우스 인스턴스를 튜닝하는 시간을 줄이고 데이터에서 가치를 창출하는 데 더 많은 시간을 할애할 수 있습니다.

둘째, Amazon Redshift 쿼리 에디터의 Amazon Q 생성형 SQL은 자연어 프롬프트에서 SQL 권장 사항을 생성합니다. 이를 통해 데이터에서 인사이트 추출 시 생산성을 높일 수 있습니다.

Amazon Redshift Serverless를 시작해봅시다
Amazon Redshift Serverless를 사용하면 이제 AI에 기반한 크기 조정 및 최적화의 미리 보기를 선택할 수 있습니다. 활성화를 마친 시스템은 동시 쿼리 수, 복잡성, 실행 시간와 같은 사용 패턴을 관찰 및 학습합니다. 그런 다음 서버리스 엔드포인트를 자동으로 최적화하여 가격 대비 성능 목표를 충족합니다. AWS 내부 테스트에 따르면 이 새로운 기능을 사용하면 수동 개입 없이 가변 워크로드에 대해 최대 10배 나은 가격 대비 성능을 제공할 수 있습니다.

AI 기반 규모 조정 및 최적화를 통해 작업 그룹 크기를 수동으로 조정하고, 워크로드 요건에 따라 백그라운드 최적화를 계획하는 데 드는 시간 및 노력을 줄일 수 있습니다. 성능 향상에 가장 중요한 시점에 자동 최적화를 지속적으로 실행하여 성능 절벽 및 타임아웃을 방지합니다.

이 새로운 기능은 기존 Amazon Redshift Serverless의 자체 조정 기능, 즉 컴퓨팅을 조정하고, 데이터베이스의 물리적 스키마를 수정하며, 필요에 따라 구체화된 뷰를 생성 또는 삭제하기 위한 기계 학습(ML) 강화 기능(저희가 자동으로 관리하는 항목으로, 사용자의 것이 아님) 및 진공 테이블을 뛰어넘습니다. 이 새로운 기능은 컴퓨팅 조정 방법, 필요한 백그라운드 최적화, 적용 시기 결정에 보다 많은 인텔리전스를 제공하며, 더 많은 차원을 기반으로 의사 결정을 내립니다. 또한 쿼리에 필요할 때 ML 기반 최적화에 대한 구체화된 뷰, 테이블 최적화워크로드 관리를 오케스트레이션합니다.

미리 보기 중에는 워크그룹에서 이러한 AI 기반 크기 조정 및 최적화를 활성화하도록 선택해야 합니다. 가격 또는 성능 최적화의 균형을 맞추도록 시스템을 구성합니다. 콘솔에서 조정할 수 있는 슬라이더는 딱 하나입니다.

Redshift 서버리스 - AI 기반 워크그룹

평소와 같이 콘솔, Amazon CloudWatch 지표 및 SYS_SERVERLESS_USAGE 시스템 테이블을 통해 리소스 사용량 및 관련 변경 사항을 추적할 수 있습니다.

이제 Amazon Redshift 쿼리 에디터에서 Amazon Q 생성형 SQL을 살펴봅시다.
분석가가 효과적인 SQL 쿼리를 보다 신속하게 작성할 수 있도록 생성형 AI를 사용할 수 있다면 어떨까요? 이것이 바로 저희의 웹 기반 SQL 편집기인 Amazon Redshift 쿼리 에디터에서 오늘 소개하는 새로운 경험입니다.

이제 데이터에서 추출하려는 정보를 자연어로 설명할 수 있고, SQL 쿼리 권장 사항이 자동으로 생성됩니다. Amazon Q 생성형 SQL은 백그라운드에서 대규모 언어 모델(LLM) 및 Amazon Bedrock을 사용하여 SQL 쿼리를 생성합니다. 당사는 프롬프트 엔지니어링검색 증강 세대(RAG) 등의 다양한 기술을 사용하여 연결된 데이터베이스, 작업 중인 스키마, 쿼리 기록, 선택적으로 동일한 엔드포인트에 연결된 다른 사용자의 쿼리 기록 등 컨텍스트를 기반으로 모델을 쿼리합니다. 시스템은 이전 질문도 기억합니다. 이전에 생성한 쿼리를 구체화하도록 요청할 수 있습니다.

SQL 생성 모델은 데이터 스키마별 메타데이터를 사용하여 관련 쿼리를 생성합니다. 예를 들어 테이블 및 열 이름과 데이터베이스의 테이블 간의 관계를 사용합니다. 또한 데이터베이스 관리자는 AWS 계정에 있는 모든 사용자의 쿼리 기록을 사용하여 보다 관련성이 높은 SQL 문을 생성하도록 모델을 승인할 수 있습니다. 쿼리 기록을 다른 AWS 계정과 공유하지 않고, 사용자의 AWS 계정에서 가져온 데이터로 세대 모델을 학습시키지 않습니다. 당사는 사용자가 기대하는 높은 수준의 개인 정보 보호 및 보안을 유지합니다.

생성된 SQL 쿼리를 사용하면 새로운 스키마 검색을 시작하기 용이해집니다. 이 기능은 열 이름과 테이블 간의 관계를 검색하는 번거로운 작업을 대신 수행합니다. 또한 선임 분석가는 자연어로 무엇을 원하는지 질문하고 SQL 문을 자동으로 생성할 수 있는 이점을 누릴 수 있습니다. 이들은 쿼리를 검토하고 노트북에서 직접 실행할 수 있습니다.

스키마를 탐색하고 정보를 추출합니다
이 데모에서는 제가 콘서트 티켓을 판매하는 회사의 데이터 분석가라고 가정해 보겠습니다. 데이터베이스 스키마 및 데이터를 다운로드할 수 있습니다. 관리자는 시애틀에서 지출액이 가장 큰 고객에게 할인 쿠폰이 포함된 감사 편지를 보내기 위해 저에게 티켓 판매 데이터를 분석하라고 합니다.

Amazon Redshift 쿼리 에디터에 연결하고 분석 엔드포인트를 연결합니다. 노트북을 위한 새 탭을 생성합니다(SQL 생성은 노트북에서만 가능).

SQL 명령문을 작성하는 대신 채팅 패널을 열고 “시애틀에서 2022년에 티켓을 가장 많이 구매한 상위 5명의 사용자를 찾아주세요.”라고 입력합니다. 생성된 SQL 문을 검증하는 데 시간을 사용합니다. 맞는 것 같아서 실행하기로 결정했습니다. 노트북에 추가를 선택한 다음 실행을 선택합니다. 이 쿼리는 시애틀의 상위 5위 구매자 목록을 반환합니다.

SQL 생성 - 상위 5명의 사용자

데이터 스키마에 대한 사전 지식도 가지고 있지 않았으며 필요한 정보를 찾기 위해 SQL을 한 줄도 입력하지 않았습니다.

하지만 생성형 SQL은 단일 상호 작용에만 국한되지 않습니다. 채팅을 통해 쿼리를 동적으로 조정할 수 있습니다. 다음은 또 다른 예입니다.

저는 “공연장이 가장 많은 주는 어디입니까?”라고 묻고 생성형 SQL은 다음 쿼리를 제안합니다. 궁금하다면 49개의 공연장이 있는 뉴욕이 정답입니다.

생성형 SQL 채팅 01

생각이 바뀌어서 공연장이 가장 많은 상위 3개 도시를 알고 싶습니다. 질문을 간단히 바꾸어 말하겠습니다. “공연장이 많은 상위 3곳은 어디야?

생성형 SQL 채팅 02

노트북에 쿼리를 추가하고 실행합니다. 예상 결과를 반환됩니다.

생성형 SQL 채팅 03

프롬프트 모범 사례
다음은 프롬프트에서 최상의 결과를 얻기 위한 몇 가지 팁과 요령입니다.

구체적인 질문 – 자연어로 질문할 때는 시스템이 필요한 내용을 정확히 이해할 수 있도록 최대한 구체적으로 작성합니다. 예를 들어 ‘가장 많은 티켓을 판매한 상위 공연장 찾기’라고 쓰는 대신 ‘2022년에 가장 많은 티켓을 판매한 상위 3개 공연장 이름 찾기’와 같은 세부 정보를 제공합니다. 동일한 엔티티를 다른 방식으로 지칭하는 대신 장소, 티켓, 위치와 같은 일관된 엔티티 이름을 사용하면 시스템이 혼동할 수 있습니다.

반복 – 복잡한 요청을 시스템이 해석하기 쉬운 여러 개의 간단한 문장으로 나눕니다. 후속 질문을 반복적으로 수행하여 시스템에서 보다 상세한 분석을 얻을 수 있습니다. 예를 들어, “공연장이 가장 많은 주는 어디입니까?”라고 묻는 것부터 시작합니다. 그런 다음 응답에 따라 “이 주에서 가장 인기 있는 공연장은 어디입니까?” 와 같은 후속 질문을 합니다.

확인 – 생성된 SQL을 실행하기 전에 검토하여 정확성을 확인합니다. 생성된 SQL 쿼리에 오류가 있거나 의도와 일치하지 않는다면 전체 요청을 다시 표현하지 말고 수정 방법에 대한 지침을 시스템에 제공합니다. 예를 들어 쿼리에 연도에 대한 필터 조항이 없으면 “2022년부터의 공연장을 제공”이라고 쓰세요.

가용성 및 요금
AI 기반 규모 조정 및 최적화는 미국 동부(오하이오, 버지니아 북부), 미국 서부(오레곤), 아시아 태평양(도쿄) 및 유럽(아일랜드, 스톡홀롬)의 6개 AWS 리전에서 평가판으로 제공됩니다. 해당 기능은 추가 비용 없이 제공됩니다. 데이터 웨어하우스가 활성 상태일 때 사용한 컴퓨팅 용량에 대해서만 비용을 지불하면 됩니다. 요금은 시간당 Redshift 처리 단위(RPU) 기준으로 책정됩니다. 요금은 사용 용량의 초당 요금입니다. 자세한 내용은 Amazon Redshift 요금 페이지를 참조하십시오.

Amazon Redshift 쿼리 에디터용 Amazon Q 생성형 SQL은 현재 미국 동부(버지니아 북부)와 미국 서부(오레곤)의 두 AWS 리전에서 평가판이 출시되었습니다. 미리 보기 기간에는 요금이 부과되지 않습니다.

다음은 Amazon Redshift Serverless 엔드포인트의 가격 대비 성능 비율을 자동으로 조정하거나 자연어 프롬프트에서 올바른 SQL 문을 생성하면 AI가 성능을 최적화하고 생산성을 높이는 데 어떻게 도움이 되는지를 보여주는 두 가지 예입니다.

모든 사용자가 이러한 기능을 사용할 수 있도록 설정하기 전에 피드백을 캡처하려면 평가판은 필수적입니다. 오늘 이것들을 시험해보고 콘솔 좌측 하단에 있는 피드백 버튼을 사용하거나 re:Post 포럼으로 어떻게 생각하는지 알려주세요.

— seb