데이터 마이닝 기술이란 무엇인가요?
데이터 마이닝 기술이란 무엇인가요?
조직은 데이터 마이닝 기술을 사용하여 데이터 내에서 미묘한 패턴과 관계를 찾을 수 있습니다. 그리고 원시 데이터를 실용적인 지식으로 전환해 이 지식을 활용하여 문제를 해결하고 비즈니스 의사 결정의 향후 영향을 분석하며 수익을 높일 수 있습니다. 이 안내서에서는 다양한 데이터 마이닝 기술과 이를 AWS에서 구현하는 방법을 살펴봅니다.
조직은 다양한 비즈니스 프로세스에서 대량의 정보를 저장하고 처리합니다. 데이터 마이닝은 데이터 모델링 및 예측 분석을 통해 과거 데이터에서 소중한 인사이트를 얻을 수 있도록 도와줍니다. 최신 데이터 마이닝은 종종 인공 지능과 기계 학습(AI/ML) 기술을 사용하여 비즈니스 인사이트를 가속화하고 더 나은 결과를 이끌어냅니다.
그러나 비즈니스는 온프레미스 인프라를 사용할 경우 지식 검색을 수행할 때 어려움을 겪습니다. 특히 데이터 마이닝 도구를 다양한 데이터 소스와 통합하고 서드 파티 애플리케이션과 연결하며 다양한 이해관계자에게 결과를 알려야 하는데, 기존 인프라에서는 비용이 많이 듭니다.
AWS는 조직이 클라우드에서 데이터 마이닝 프로세스를 확장할 수 있도록 지원하는 관리형 서비스를 제공합니다. 강력한 데이터 마이닝 기능, 생성형 AI 전문 지식, 데이터 거버넌스 모범 사례를 Amazon SageMaker에 결합하였습니다. 이를 통해 데이터 과학자는 다양한 소스의 데이터를 통합하고 복잡한 데이터 분석 쿼리를 실행하며 보안 정책에 따라 데이터를 보다 효과적으로 모니터링할 수 있습니다.
조직은 데이터 흐름을 개선할 뿐만 아니라 자체 인프라를 프로비저닝하지 않고도 고급 분석을 보다 경제적으로 제공할 수 있습니다. 예를 들어 Lennar는 Amazon SageMaker Unified Studio 및 Amazon Sagemaker Lakehouse를 사용하여 데이터 기반을 혁신함으로써 데이터 팀이 비즈니스 인사이트를 더 효과적으로 도출할 수 있도록 했습니다.
다음으로 다양한 데이터 마이닝 기술과 AWS 도구가 이를 어떻게 활용할 수 있는지 설명합니다.
데이터 마이닝에서 데이터 전처리는 어떻게 사용되나요?
데이터 전처리는 원시 데이터를 데이터 마이닝 신경망에서 이해할 수 있는 형식으로 변환합니다. 이는 데이터 모델의 성능에 큰 영향을 미치기 때문에 데이터 마이닝의 중요한 부분입니다. 종종 원시 데이터에는 모델의 결과에 부정적인 영향을 미칠 수 있는 오류, 중복 및 누락된 정보가 포함될 수 있습니다. 데이터 전처리를 통해 데이터를 정리하고 이러한 이상 조건을 제거할 수 있습니다. 또한 데이터 과학자가 비즈니스 인사이트에 기여하고 불필요한 정보를 제거하는 특정 기능을 선택할 수도 있습니다. 예를 들어 고객 이탈을 예측하는 경우 월별 평균 사용량, 마지막 로그인 날짜, 지원 요청 빈도와 같은 기능을 선택합니다. 이 기능을 엔지니어링이라고 하며, 이를 통해 데이터 마이닝에 필요한 컴퓨팅 리소스를 줄일 수 있습니다.
Amazon SageMaker Data Wrangler는 데이터 품질을 개선하고 분석 결과를 개선하는 데 도움이 되는 데이터 준비 도구입니다. 데이터 파이프라인에 연결된 다양한 데이터 소스에서 Amazon SageMaker Data Wrangler를 사용할 수 있습니다. Amazon SageMaker Data Wrangler는 노코드 접근 방식 덕분에 몇 시간이 아니라 몇 분 만에 데이터를 정리합니다. 다음은 SageMaker Data Wrangler를 사용하여 기계 학습 모델을 위해 데이터를 준비하는 방법입니다.
1단계 - 선택 및 쿼리
시각적 쿼리 빌더를 사용하여 AWS 및 서드 파티 스토리지에서 텍스트, 이미지 및 표 형식 데이터에 액세스하고 이를 검색합니다. 그런 다음 데이터 품질 보고서의 조사 결과를 적용하여 이상치, 클래스 불균형, 데이터 유출과 같은 이상 조건을 탐지합니다.
2단계 - 정리 및 보강
사전 빌드된 PySpark 변환과 자연어 인터페이스로 데이터를 변환합니다. Amazon SageMaker Data Wrangler는 텍스트 벡터화, 날짜 및 시간 데이터 지정, 인코딩 및 데이터 균형 조정을 비롯한 일반적인 데이터 변환을 지원합니다. 또한 사용자의 사용 사례를 지원하도록 사용자 지정된 변환을 쉽게 생성할 수도 있습니다.
3단계 - 시각화 및 이해
차트, 다이어그램 및 기타 시각적 도구를 사용하여 준비된 데이터를 검증합니다. 그런 다음 실제로 훈련하기 전에 빠른 분석을 실행하여 모델의 결과를 예측합니다.
탐색적 데이터 분석이란 무엇인가요?
탐색적 데이터 분석(EDA)은 데이터 과학자가 숨겨진 패턴을 발견하고 의미 있는 관계를 식별하며 데이터의 이상 조건을 탐지할 수 있도록 하는 데이터 과학 기술입니다. EDA에는 종종 히스토그램, 차트 및 그래프와 같은 시각적 도구의 지침이 적용됩니다. EDA의 목적은 후속 데이터 분석을 위한 지침을 제공하는 데 있습니다. 또한 데이터 과학자가 가정과 편견으로부터 자유롭게 판단할 수 있도록 도와줍니다.
간단히 말해, EDA는 시계열 분석, 공간 분석, 산점도와 같은 통계 모델링과 기법을 통해 관찰할 수 있는 증거를 제공합니다. 그러나 EDA를 수행하려면 통합된 방식으로 함께 작동해야 하는 일련의 데이터 마이닝 도구가 필요합니다. 이때 설정에 비용이 많이 들 수 있습니다.
Amazon SageMaker Unified Studio는 팀에서 데이터 분석 워크로드를 빌드, 배포 및 공유할 수 있게 해주는 단일 AI 및 데이터 플랫폼입니다. 이를 사용하여 Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Amazon Bedrock, Amazon SageMaker AI를 비롯한 AWS의 친숙한 AI/ML 도구, 스토리지 및 분석 기능을 함께 사용할 수 있습니다.
다음은 Amazon SageMaker Unified Studio를 사용하여 탐색적 데이터 분석(EDA)을 가속화할 수 있는 방법입니다.
- 데이터 분석 모델 훈련에 사용할 데이터 자산에 대한 규칙을 구독, 관리 및 설정합니다.
- 데이터 레이크, 데이터 웨어하우스 및 기타 소스에 저장된 데이터를 쿼리합니다.
- 내장된 시각적 인터페이스로 워크플로를 생성하여 데이터 소스와 대상 간에 변환 모듈을 추가합니다.
데이터 마이닝에서 예측 분석이란 무엇인가요?
데이터 마이닝의 예측 분석은 발견된 데이터 패턴을 활용하여 미래의 결과를 예측합니다. 이를 위해 기계 학습 모델에 데이터를 공급하고 학습한 지식을 기반으로 예측하여 기업이 의사 결정을 지원하는 데 도움을 줍니다. 예를 들어 금융 회사는 예측 분석을 사용하여 시장 동향을 예측하고 사기를 탐지하며 신용 위험을 평가합니다.
Amazon SageMaker Canvas는 예측 모델을 대규모로 훈련, 테스트 및 배포할 수 있는 시각적 개발 도구입니다. 기본 모델 및 사용자 지정 기계 학습(ML) 알고리즘에 대한 액세스를 제공하여 다양한 사용 사례에 대한 정확한 예측을 생성할 수 있습니다.
또한 Amazon Q Developer를 사용하여 대화형 언어로 전체 데이터 워크플로를 빌드할 수 있습니다. 이 생성형 AI 어시스턴트는 기계 학습 및 데이터 분석 작업을 일상 언어로 설명할 수 있게 지원합니다. 그리고 사용자의 설명을 쿼리, SQL 스크립트, 실행 가능한 단계, 코드 권장 사항 등으로 변환하여 AI 및 데이터를 보다 효율적으로 사용할 수 있도록 도와줍니다.
다음은 예측 분석을 지원하기 위해 Amazon SageMaker Canvas로 빌드하고 배포할 수 있는 모델입니다.
분류
분류 모델은 학습한 특성을 기반으로 이전에는 드러나지 않던 데이터에 레이블을 할당할 수 있습니다. 예를 들어 AI 기반 고객 지원 시스템은 대화의 단어를 분석하여 긍정적, 부정적 또는 중립적 피드백으로 분류할 수 있습니다. Amazon SageMaker Canvas는 텍스트 분류, 이미지 분류, 이상 탐지, 객체 탐지를 비롯한 다양한 문제 유형에 대한 분류 모델을 지원합니다.
연관 규칙 마이닝
연관 규칙 마이닝(ARM)은 데이터 포인트 사이의 관계를 발견하고 예측 분석 파이프라인을 강화하는 데 사용할 수 있습니다. 예를 들어 ARM을 사용하여 장바구니 분석을 실행하고 슈퍼마켓에서 함께 구매하는 품목이 무엇인지 확인할 수 있습니다. Amazon SageMaker를 사용하면 Python과 같은 프레임워크를 통해 사용자 지정 ARM 알고리즘을 생성하고 AWS의 AI/ML 워크플로 내에 배포할 수 있습니다.
클러스터링
클러스터링은 유사한 속성을 기반으로 데이터를 그룹화하여 예측 분석을 간접적으로 지원합니다. 예를 들어 평균 지출 비용을 기준으로 고객을 클러스터링할 수 있습니다. 그런 다음 세분화된 고객을 예측 모델의 기능 중 하나로 사용합니다. 데이터 과학자는 종종 데이터를 클러스터링하기 위해 K 평균 알고리즘을 사용합니다. Amazon SageMaker는 K 평균 알고리즘의 수정된 버전을 활용하므로 결과가 더 정확하고 확장성이 향상됩니다.
이상 탐지
기계 학습 모델은 데이터 패턴에서 이상치를 탐지하도록 훈련할 수 있습니다. 예를 들어 공장에서는 예측 모델을 활용하여 기계의 잠재적 고장을 식별합니다. 이상 탐지는 운영 중단을 방지하기 위한 예방 유지 보수를 수행하는 등 선제적 완화 조치를 지원합니다.
Amazon SageMaker에서는 데이터에 낮은 점수(정상) 및 높은 점수(비정상)를 할당하는 Random Cut Forest 알고리즘으로 비정상적인 패턴을 탐지할 수 있습니다.
문서 마이닝이란 무엇인가요?
문서 마이닝은 문서에서 찾은 텍스트, 이미지 또는 표 형식 데이터를 검색, 추출 및 분석하는 기계 학습 기술입니다. 조직은 저장하는 문서에 데이터 마이닝 기술을 적용하여 비용을 절감하고 고객 경험을 개선하며 운영 효율성을 높일 수 있습니다. 예를 들어 법률 회사는 문서 마이닝을 사용하여 계약에서 특정 조항을 자동으로 추출할 수 있습니다.
Amazon SageMaker Canvas에서는 바로 사용할 수 있는 문서 마이닝 모델을 적용할 수 있습니다. 이러한 모델은 사전 훈련되므로 추가 미세 조정 없이 데이터 마이닝 워크플로에 통합할 수 있습니다. 설정한 후에는 모델이 문서의 원시 데이터를 분석하여 의미 있는 패턴을 찾습니다. 그런 다음 적절하게 추출 및 분류하고 레이블을 지정합니다.
예를 들어 개인 정보 탐지 모델을 사용하면 텍스트 데이터에서 주소, 은행 계좌 번호 및 전화번호와 같은 정보를 탐지할 수 있습니다. 반면 비용 분석 모델은 영수증 및 송장에서 금액, 날짜 및 항목과 같은 정보를 검색합니다.
다음은 Amazon SageMaker Canvas로 문서 마이닝 기술을 적용하는 방법입니다.
- SageMaker AI 도메인을 생성하고 바로 사용할 수 있는 캔버스 모델을 활성화합니다.
- 분석하려는 문서 데이터세트를 가져옵니다. 이를 통해 데이터 흐름을 생성할 수 있습니다.
- 예측을 생성할 데이터 마이닝 모델을 선택합니다. 설정에서 단일 또는 배치 예측을 수행할 수 있습니다.
AWS는 데이터 마이닝 기술을 어떻게 지원하나요?
데이터 마이닝 기술을 통해 비즈니스는 생성한 데이터에서 귀중한 인사이트를 도출하여 정보에 입각한 결정을 내릴 수 있습니다. 성공적인 데이터 마이닝을 위해서는 다양한 소스의 원시 데이터를 강력한 AI/ML 모델에 연결하는 간소화된 데이터 파이프라인이 필요합니다.
데이터 파이프라인은 데이터 추출, 저장, 정리 및 변환을 자동화하여 후속 모델이 고품질의 정확한 데이터를 받을 수 있도록 합니다. 이후에 사용자가 다양한 유형의 데이터 마이닝 기술을 적용하여 의미 있는 인사이트를 도출합니다.
복잡한 데이터 워크플로를 간소화하고 더 나은 비즈니스 성과를 지원하는 예측 인사이트를 확보하려면 Amazon SageMaker에 대해 알아보세요.