기계 학습이란 무엇인가요?

기계 학습은 컴퓨터 시스템이 패턴과 추론에 의존하여 명시적 지시 없이 태스크를 수행하는 데 사용하는 알고리즘과 통계 모델을 개발하는 과학입니다. 컴퓨터 시스템은 기계 학습 알고리즘을 사용하여 대량의 기록 데이터를 처리하고 데이터 패턴을 식별합니다. 이를 통해 지정된 입력 데이터 집합에서 더 정확하게 결과를 예측할 수 있습니다. 예를 들어, 데이터 사이언티스트는 수백만 개의 스캔 이미지와 해당 진단을 저장하여 X선 이미지로 암을 진단하도록 의료 애플리케이션을 훈련할 수 있습니다.

기계 학습이 왜 중요한가요?

기계 학습은 성장을 주도하고, 새로운 수익원을 확보하고, 어려운 문제를 해결함으로써 비즈니스를 돕습니다. 데이터는 비즈니스 의사 결정의 핵심 원동력이지만 과거에 기업은 고객 피드백, 직원 및 재무와 같은 다양한 소스의 데이터를 사용했습니다. 기계 학습 연구는 이 프로세스를 자동화하고 최적화합니다. 기업은 매우 많은 양의 데이터를 고속으로 분석하는 소프트웨어를 사용하여 더 빠르게 결과를 얻을 수 있습니다.

기계 학습은 어디에 사용되나요?

다음과 같은 몇 가지 주요 산업의 기계 학습 애플리케이션을 살펴보겠습니다.

제조

기계 학습은 제조 부문에서 예측 유지 관리, 품질 관리 및 혁신적 연구를 지원할 수 있습니다. 기계 학습 기술은 또한 기업이 자산, 공급망 및 인벤토리 관리를 포함한 물류 솔루션을 개선하는 데 도움이 됩니다. 예를 들어 제조 대기업인 3MAWS Machine Learning을 사용하여 새로운 사포를 만들어냅니다. 3M 연구원은 기계 학습 알고리즘을 활용하여 모양, 크기, 방향의 사소한 변화가 어떻게 연마력과 지속성을 개선하는지 분석할 수 있습니다. 이러한 제안은 제조 공정을 알려줍니다.

의료 및 생명 과학

웨어러블 센서 및 디바이스의 확산으로 상당한 양의 건강 데이터가 생성되었습니다. 기계 학습 프로그램은 이 정보를 분석하고 의사의 실시간 진단 및 치료를 지원할 수 있습니다. 기계 학습 연구원은 악성 종양을 감지하고 안과 질환을 진단하여 인간의 건강 결과에 중대한 영향을 미치는 솔루션을 개발하고 있습니다. 예를 들어 Cambia Health Solutions는 AWS Machine Learning을 사용하여 임산부 치료를 자동화하고 사용자 지정할 수 있는 의료 스타트업을 지원했습니다.

금융 서비스

금융 기계 학습 프로젝트는 위험 분석 및 규제를 개선합니다. 기계 학습 기술을 통해 투자자는 주식 시장 움직임을 분석하고, 헤지 펀드를 평가하거나, 금융 포트폴리오를 보정하여 새로운 기회를 식별할 수 있습니다. 또한 고위험 대출 고객을 식별하고 사기 징후를 완화하는 데 도움이 될 수 있습니다.  금융 소프트웨어 리더인 Intuit는 AWS Machine Learning 시스템인 Amazon Textract를 사용하여 보다 개인화된 재무 관리를 생성하고 최종 사용자가 재무 상태를 개선할 수 있도록 지원합니다.

소매

소매업은 기계 학습을 사용하여 고객 서비스, 재고 관리, 상향 판매 및 교차 채널 마케팅을 개선할 수 있습니다. 예를 들어 Amazon Fulfillment(AFT)는 기계 학습 모델로 잘못 배치된 재고를 식별하여 인프라 비용을 40% 절감합니다. 이를 통해 연간 수백만 건의 전 세계 배송을 처리함에도 불구하고 고객이 물품을 언제든지 구매할 수 있고 물품이 정시에 도착한다는 Amazon의 약속을 이행할 수 있습니다.

미디어 및 엔터테인먼트

엔터테인먼트 회사는 대상 고객을 더 잘 이해하고 개인화된 몰입형 온디맨드 콘텐츠를 제공하기 위해 기계 학습을 사용합니다. 기계 학습 알고리즘은 예고편 및 기타 광고 디자인을 지원하고 소비자에게 맞춤형 콘텐츠 권장 사항을 제공하고 제작을 간소화하기 위해 배포됩니다. 

예를 들어 DisneyAWS Deep Learning을 사용하여 미디어 라이브러리를 아카이브하고 있습니다. AWS Machine Learning 도구는 미디어 콘텐츠를 자동으로 태깅, 설명 및 정렬하므로 Disney 작가와 애니메이터가 Disney 캐릭터를 빠르게 검색하고 익힐 수 있습니다.

기계 학습은 어떻게 작동하나요?

기계 학습의 핵심 아이디어는 모든 입력 및 출력 데이터 조합 간의 기존 수학적 관계입니다. 기계 학습 모델은 이 관계를 미리 알지 못하지만 충분한 데이터 집합이 주어지면 추측할 수 있습니다. 이는 모든 기계 학습 알고리즘이 수정 가능한 수학 함수를 중심으로 구축되었음을 의미합니다. 기본 원리는 다음과 같이 이해할 수 있습니다.

  1. (2,10), (5,19) 및 (9,31) 입출력(i,o) 조합을 제공하여 알고리즘을 '훈련'합니다.
  2. 알고리즘은 입력과 출력의 관계를 o=3*i+4로 계산합니다.
  3. 그런 다음 입력 7을 제공하고 출력을 예측하도록 요청합니다. 자동으로 출력을 25로 결정할 수 있습니다.

이것이 기본적인 이해이지만 기계 학습은 모든 복잡한 데이터 요소가 해당 데이터를 처리할 수 있는 충분한 데이터와 컴퓨팅 파워가 있는 한 컴퓨터 시스템에 의해 수학적으로 연결될 수 있다는 원칙에 중점을 둡니다. 따라서 출력의 정확도는 주어진 입력의 크기와 직접적인 상관 관계가 있습니다.

기계 학습 알고리즘에는 어떤 유형이 있나요?

알고리즘은 예상 출력과 입력 유형에 따라 4가지 고유한 학습 스타일로 분류할 수 있습니다.

  1. 지도 기계 학습
  2. 비지도 기계 학습
  3. 반지도 학습
  4. 강화 기계 학습

1. 지도 기계 학습

데이터 사이언티스트는 상관 관계를 평가하기 위해 레이블이 지정되고 정의된 훈련 데이터가 있는 알고리즘을 제공합니다. 샘플 데이터는 알고리즘의 입력과 출력을 모두 지정합니다. 예를 들어, 손으로 쓴 그림의 이미지에는 해당 숫자를 나타내기는 주석이 달려 있습니다. 지도 학습 시스템은 충분한 예가 주어지면 각 숫자와 관련된 픽셀 및 셰이프의 클러스터를 인식할 수 있습니다. 결국 손으로 쓴 숫자를 인식하여 숫자 9와 4 또는 6과 8을 확실하게 구별합니다. 

지도 학습의 장점은 단순성과 설계 용이성입니다. 이는 가능한 제한된 결과 집합을 예측하거나, 데이터를 범주로 나누거나, 다른 두 기계 학습 알고리즘의 결과를 결합할 때 유용합니다. 그러나 레이블이 지정되지 않은 수백만 개의 데이터 집합에 레이블을 지정하는 것은 어렵습니다. 이에 대해 더 자세히 살펴보겠습니다.

데이터 레이블 지정이란 무엇인가요?

데이터 레이블 지정은 입력 데이터를 해당하는 정의된 출력 값으로 분류하는 프로세스입니다. 지도 학습에는 레이블이 지정된 훈련 데이터가 필요합니다. 예를 들어 수백만 개의 사과 및 바나나 이미지에 "사과" 또는 "바나나"라는 단어를 태그로 지정해야 합니다. 그런 다음 기계 학습 애플리케이션은 이 훈련 데이터를 사용하여 과일 이미지가 주어졌을 때 과일 이름을 추측할 수 있습니다. 그러나 수백만 개의 새로운 데이터에 레이블을 지정하는 것은 시간이 많이 걸리고 어려운 태스크가 될 수 있습니다. Amazon Mechanical Turk와 같은 크라우드 워킹 서비스는 지도 학습 알고리즘의 이러한 한계를 어느 정도 극복할 수 있습니다. 이러한 서비스는 전 세계에 분산되어 있는 대규모의 저렴한 노동력 풀에 대한 액세스를 제공하여 데이터 수집을 덜 어렵게 만듭니다.

2. 비지도 기계 학습

비지도 학습 알고리즘은 레이블이 지정되지 않은 데이터에 대해 훈련하며, 입력과 미리 결정된 출력 사이에 의미 있는 연결을 설정하기 위해 새로운 데이터를 검색합니다. 이 알고리즘은 패턴을 발견하고 데이터를 분류할 수 있습니다. 예를 들어 비지도 알고리즘은 다양한 뉴스 사이트의 뉴스 기사를 스포츠, 범죄 등의 일반적인 범주로 그룹화할 수 있습니다. 비지도 알고리즘은 자연어 처리를 사용하여 기사의 의미와 감정을 파악할 수 있습니다. 소매에서 비지도 학습은 고객 구매 패턴을 찾고 다음과 같은 데이터 분석 결과를 제공할 수 있습니다. 고객은 버터도 구매하는 경우 빵을 구매할 가능성이 가장 큽니다.

비지도 학습은 패턴 인식, 이상 감지, 범주로 데이터 자동 그룹화에 유용합니다. 훈련 데이터에 레이블 지정이 필요하지 않으므로 설정이 쉽습니다. 추가 모델링을 위해 자동으로 데이터를 정리하고 처리하는 데 이러한 알고리즘을 사용할 수도 있습니다. 이 방법의 한계는 정확한 예측을 할 수 없다는 것입니다. 또한 특정 유형의 데이터 결과를 독립적으로 골라낼 수 없습니다.

3. 반지도 학습

이름에서 알 수 있듯이 이 방법은 지도 학습과 비지도 학습을 결합합니다. 이 기술은 소량의 레이블이 지정된 데이터와 레이블이 지정되지 않은 대량의 데이터를 사용하여 시스템을 훈련하는 데 의존합니다. 먼저 레이블이 지정된 데이터는 기계 학습 알고리즘을 부분적으로 훈련하는 데 사용됩니다. 그런 다음 부분적으로 훈련된 알고리즘 자체가 레이블이 지정되지 않은 데이터에 레이블을 지정합니다. 이 프로세스를 의사 레이블 지정이라고 합니다. 그런 다음 명시적으로 프로그래밍하지 않고 결과 데이터 조합에 대해 모델을 다시 훈련합니다.

이 방법의 장점은 레이블이 지정된 데이터가 많이 필요하지 않다는 것입니다. 이는 사람이 읽고 레이블을 지정하기에는 너무 많은 시간이 소요되는 긴 문서와 같은 데이터로 작업할 때 편리합니다.

4. 강화 학습

강화 학습은 알고리즘이 거쳐야 하는 여러 단계에 보상 값이 연결된 방법입니다. 따라서 모델의 목표는 가능한 한 많은 보상 포인트를 축적하여 최종 목표에 도달하는 것입니다. 지난 10년 동안 강화 학습이 실제로 적용된 영역은 대부분 비디오 게임이었습니다. 최첨단 강화 학습 알고리즘은 고전 및 현대 비디오 게임에서 인상적인 결과를 얻었으며 실제 경기를 크게 능가하는 경우가 많습니다. 

이 방법은 불확실하고 복잡한 데이터 환경에서 가장 잘 작동하지만 비즈니스 상황에서는 거의 실행되지 않습니다. 잘 정의된 태스크에는 효율적이지 않으며 개발자 편향이 결과에 영향을 줄 수 있습니다. 데이터 사이언티스트가 보상을 설계할 때 강화 학습 알고리즘이 결과에 영향을 미칠 수 있습니다.

기계 학습 모델은 결정적인가요?

시스템의 출력이 예측 가능한 경우 이를 결정적이라고 합니다. 대부분의 소프트웨어 애플리케이션은 사용자의 동작에 예측 가능한 방식으로 반응하므로 "사용자가 이것을 하면 그는 그것을 얻는다"고 말할 수 있습니다. 그러나 기계 학습 알고리즘은 경험과 함께 관찰을 통해 학습합니다. 따라서 본질적으로 확률적입니다. 문장은 이제 "사용자가 이것을 하면 그것이 발생할 가능성이 X%이다"로 바뀝니다.

기계 학습에서 결정론은 위에서 설명한 학습 방법을 적용하면서 사용되는 전략입니다. 지도, 비지도 및 기타 훈련 방법은 기업에서 원하는 결과에 따라 결정적일 수 있습니다. 연구 질문, 데이터 검색, 구조 및 스토리지 결정에 따라 결정적 전략이 채택되는지 아니면 비결정적 전략이 채택되는지가 정해집니다.

결정론적 접근 방식 및 확률론적 접근 방식

결정론적 접근 방식은 정확성과 수집된 데이터의 양에 초점을 맞추므로 효율성이 불확실성보다 우선시됩니다. 반면에 비결정적 또는 확률론적 프로세스는 우연성을 관리하도록 설계되었습니다. 기본 제공 도구는 학습 및 관찰 중 불확실성을 정량화, 식별 및 측정하는 데 도움이 되도록 기계 학습 알고리즘에 통합됩니다.

딥 러닝이란 무엇입니까?

딥 러닝은 인간의 두뇌를 모델로 한 일종의 기계 학습 기술입니다. 딥 러닝 알고리즘은 인간이 사용하는 것과 유사한 논리 구조로 데이터를 분석합니다. 딥 러닝은 인공 신경망이라는 지능형 시스템을 사용하여 정보를 계층으로 처리합니다. 데이터는 입력 계층에서 출력 계층으로 오기 전에 여러 "심층" 은닉 신경망 계층을 통해 흐릅니다. 추가 은닉 계층은 스탠더드 기계 학습 모델보다 훨씬 뛰어난 학습 능력을 지원합니다.

인공 신경망이란 무엇인가요?

딥 러닝 계층은 인간 뇌의 뉴런처럼 작동하는 인공 신경망(ANN) 노드입니다. 노드는 하드웨어와 소프트웨어의 조합일 수 있습니다. 딥 러닝 알고리즘의 각 계층은 ANN 노드로 구성됩니다. 각 노드 또는 인공 뉴런은 다른 노드에 연결되며 연관된 값 번호와 임계값 번호가 있습니다. 노드는 활성화 시 값 번호를 다음 계층 노드에 대한 입력으로 전송합니다. 이는 지정된 임계값보다 출력이 높은 경우에만 활성화됩니다. 그렇지 않으면 아무 데이터도 전달되지 않습니다.

컴퓨터 비전이란 무엇인가요?

컴퓨터 비전은 딥 러닝을 실제로 응용한 것입니다. 컴퓨터가 인공 지능을 통해 생각하는 것처럼, 컴퓨터 비전을 통해 보고, 관찰하고, 반응할 수 있습니다. 자율 주행 자동차는 컴퓨터 비전을 사용하여 도로 표지판을 "읽습니다". 자동차 카메라가 표지판의 사진을 캡처합니다. 이 사진은 자동차의 딥 러닝 알고리즘으로 전송됩니다. 첫 번째 은닉 계층은 가장자리를 감지하고 다음 계층은 색상을 구분하고 세 번째 계층은 표지판의 알파벳 세부 정보를 식별합니다. 알고리즘은 표지판에 STOP이라고 쓰여 있다고 예측하고 자동차는 제동 장치를 작동시켜 반응합니다.

기계 학습과 딥 러닝은 동일한가요?

딥 러닝은 기계 학습의 하위 집합입니다. 딥 러닝 알고리즘은 기계 학습 알고리즘의 정교하고 수학적으로 복잡한 진화라고 할 수 있습니다.

기계 학습과 인공 지능은 동일한가요?

간단히 답하면 아니요입니다. 기계 학습과 인공 지능(AI)이라는 용어는 같은 의미로 사용할 수 있지만 동일한 것은 아닙니다. 인공 지능은 기계를 더 인간처럼 만드는 데 사용되는 다양한 전략과 기술을 포괄하는 용어입니다. AI에는 Alexa와 같은 스마트 비서부터 로봇 청소기 및 자율 주행 자동차에 이르기까지 모든 것이 포함됩니다. 기계 학습은 인공 지능의 다른 많은 분야 중 하나입니다. 기계 학습은 AI이지만 모든 AI 활동을 기계 학습이라고 할 수는 없습니다.

기계 학습과 데이터 과학은 동일한가요?

아니요, 기계 학습과 데이터 과학은 동일하지 않습니다. 데이터 과학은 과학적 접근 방식을 사용하여 데이터에서 의미와 인사이트를 추출하는 연구 분야입니다. 기계 학습은 데이터 사이언티스트가 데이터 분석을 위해 사용하는 다양한 도구 중 하나입니다. 데이터 사이언티스트는 비즈니스 모델, 도메인 및 데이터 수집과 같은 데이터에 대한 더 큰 그림을 이해하는 반면 기계 학습은 원시 데이터만 처리하는 컴퓨팅 프로세스입니다.

기계 학습의 장점과 단점은 무엇인가요?

기계 학습이 할 수 있는 일과 할 수 없는 일을 살펴보겠습니다.

기계 학습 모델의 장점:

  • 인간이 놓칠 수 있는 데이터 추세와 패턴을 식별할 수 있습니다.
  • 설정 후 사람의 개입 없이 작업할 수 있습니다. 예를 들어 사이버 보안 소프트웨어의 기계 학습은 관리자 입력 없이 네트워크 트래픽의 불규칙성을 지속적으로 모니터링하고 식별할 수 있습니다.
  • 결과는 시간이 지남에 따라 더 정확해질 수 있습니다.
  • 동적, 대용량 및 복잡한 데이터 환경에서 다양한 데이터 형식을 처리할 수 있습니다.

기계 학습 모델의 단점:

  • 초기 훈련은 비용과 시간이 많이 소요되는 과정입니다. 충분한 데이터를 사용할 수 없으면 구현이 어려울 수 있습니다.
  • 사내에 하드웨어를 설치하는 경우 막대한 초기 투자가 필요한 컴퓨팅 집약적 프로세스입니다.
  • 전문가의 도움 없이 결과를 정확하게 해석하고 불확실성을 없애기 어려울 수 있습니다.          

Amazon 기계 학습이 어떻게 도움이 되나요?

AWS는 모든 개발자, 데이터 사이언티스트, 비즈니스 사용자에게 기계 학습을 제공합니다. Amazon Machine Learning 서비스는 비즈니스 요구 사항을 충족할 수 있는 비용 효율적이며 확장 가능한 고성능 인프라를 제공합니다.

초보자라면

AWS DeepRacer, AWS DeepComposer, AWS DeepLens 등의 실습 교육 디바이스로 기계 학습을 배우세요.

기존 데이터 아카이브가 있나요?

비디오, 이미지 및 텍스트를 지원하는 기본 제공 데이터 레이블링 워크플로에 Amazon SageMaker 데이터 레이블링을 사용하세요.

기존 기계 학습 시스템이 있나요?

편향 감지에는 Amazon SageMaker Clarify를 사용하고 성능 모니터링 및 최적화에는 Amazon SageMaker Debugger를 사용하세요.

딥 러닝을 구현하고 싶으신가요?

Amazon SageMaker 분산 훈련을 사용하여 대규모 딥 러닝 모델을 자동으로 훈련하세요. 지금 무료 계정에 가입하여 기계 학습 여정을 시작하세요.

기계 학습 다음 단계