Tích hợp Amazon Redshift cho Apache Spark

Xây dựng các ứng dụng Apache Spark đọc và ghi dữ liệu từ Amazon Redshift

Tại sao nên sử dụng Tích hợp Amazon Redshift cho Apache Spark?

Tích hợp Amazon Redshift cho Apache Spark giúp đơn giản hóa và tăng tốc các ứng dụng Apache Spark truy cập dữ liệu Amazon Redshift từ các dịch vụ phân tích của AWS, như Amazon EMR, AWS Glue và Amazon SageMaker. Bằng cách sử dụng Amazon EMR, AWS Glue và SageMaker, bạn có thể nhanh chóng xây dựng các ứng dụng Apache Spark đọc từ và ghi vào kho dữ liệu Amazon Redshift mà không làm ảnh hưởng đến hiệu năng hoặc tính nhất quán của giao dịch. Tích hợp Amazon Redshift cho Apache Spark cũng sử dụng thông tin chứng thực dựa trên Quản lý danh tính và truy cập (IAM)–trong AWS để tăng cường bảo mật. Với Tích hợp Amazon Redshift cho Apache Spark, bạn không cần phải thiết lập thủ công hay bảo trì các phiên bản bộ kết nối chưa được chứng nhận của bên thứ ba. Bạn có thể bắt đầu với các tác vụ Apache Spark sử dụng dữ liệu trong Amazon Redshift chỉ sau vài giây. Sự tích hợp mới này giúp cải thiện hiệu năng của các ứng dụng Apache Spark sử dụng dữ liệu Amazon Redshift.

Lợi ích của Amazon Redshift

Mở rộng phạm vi nguồn dữ liệu mà bạn có thể sử dụng trong các phân tích và ứng dụng máy học (ML) phong phú chạy trong Amazon EMR, AWS Glue hoặc SageMaker bằng cách đọc từ và ghi dữ liệu vào kho dữ liệu của bạn.
Hợp lý hóa quy trình thiết lập bộ kết nối chưa được chứng nhận và trình điều khiển JDBC vốn rườm rà và thủ công, giảm thời gian chuẩn bị cho các tác vụ phân tích và ML.
Sử dụng một số chức năng đẩy xuống như sắp xếp, tổng hợp, giới hạn, kết nối và vô hướng để chỉ di chuyển dữ liệu có liên quan từ kho dữ liệu Amazon Redshift.

Cách thức hoạt động

Sử dụng các dịch vụ AWS để xây dựng các ứng dụng Apache Spark đọc và ghi vào kho dữ liệu Amazon Redshift.
Sơ đồ thể hiện cách thức sử dụng các dịch vụ AWS để xây dựng ứng dụng Apache Spark đọc và ghi vào kho dữ liệu Amazon Redshift.

Trường hợp sử dụng

Tạo các ứng dụng Apache Spark bằng Java, Scala và Python bằng các dịch vụ phân tích AWS dựa trên Apache Spark.
Đọc và ghi dữ liệu vào và từ Amazon Redshift bằng các dịch vụ Amazon EMR, AWS Glue, SageMaker, AWS analytics và ML.
Sử dụng Amazon EMR hoặc AWS Glue để lấy mã khung dữ liệu từ sổ tay hoặc tác vụ Apache Spark rồi kết nối với Amazon Redshift.
Hợp lý hóa quy trình mà không cần cài đặt hoặc kiểm thử, đồng thời sở hữu độ bảo mật nâng cao (thông tin chứng thực dựa trên IAM), các tính năng đẩy xuống trong hoạt động và định dạng tệp Parquet để đạt được hiệu năng.

Khách hàng

Huron

Huron là công ty dịch vụ chuyên nghiệp toàn cầu hợp tác với khách hàng để biến khả năng thành hiện thực bằng cách tạo ra các chiến lược hợp lý, tối ưu hóa hoạt động, đẩy nhanh quá trình chuyển đổi kỹ thuật số và hỗ trợ các doanh nghiệp cũng như đội ngũ nhân sự làm chủ tương lai của mình.

“Chúng tôi hỗ trợ các kỹ sư xây dựng ứng dụng và quy trình dữ liệu với Apache Spark bằng Python và Scala. Chúng tôi muốn có một giải pháp phù hợp, giúp đơn giản hóa các hoạt động, có thể cung cấp nhanh hơn và hiệu quả hơn đến khách hàng của mình. Tích hợp Amazon Redshift mới cho Apache Spark chính là giải pháp như vậy”.

Corey Johnson, Giám đốc kiến trúc dữ liệu – Huron Consulting

GE Aerospace

GE Aerospace là nhà cung cấp toàn cầu về động cơ phản lực, linh kiện và hệ thống cho máy bay thương mại và quân sự. Công ty đã thiết kế, phát triển và sản xuất động cơ phản lực kể từ Thế chiến I.

“GE Aerospace đã sử dụng phân tích AWS và Amazon Redshift để cung cấp thông tin chuyên sâu quan trọng về kinh doanh, giúp công ty đưa ra các quyết định kinh doanh quan trọng. Với tính năng hỗ trợ tự động sao chép từ Amazon S3, chúng tôi có thể xây dựng các quy trình dữ liệu đơn giản hơn để di chuyển dữ liệu từ Amazon S3 sang Amazon Redshift. Điều này giúp các nhóm sản phẩm dữ liệu của chúng tôi tăng tốc độ truy cập dữ liệu và cung cấp thông tin chuyên sâu cho người dùng cuối. Chúng tôi đã dành nhiều thời gian hơn cho việc gia tăng giá trị thông qua dữ liệu và giảm bớt thời gian vào hoạt động tích hợp”.

Alcuin Weidus, Kiến trúc sư dữ liệu chính cấp cao – GE Aerospace

Goldman Sachs

Goldman Sachs Group, Inc. là tổ chức tài chính hàng đầu thế giới cung cấp nhiều loại dịch vụ tài chính về ngân hàng đầu tư, chứng khoán, quản lý đầu tư và ngân hàng tiêu dùng cho cơ sở khách hàng lớn và đa dạng, bao gồm các tập đoàn, tổ chức tài chính, chính phủ và cá nhân. 

“Trọng tâm của chúng tôi là cung cấp quyền truy cập tự phục vụ vào dữ liệu cho tất cả người dùng tại Goldman Sachs. Thông qua Legend, nền tảng quản trị và quản lý dữ liệu mã nguồn mở của mình, chúng tôi hỗ trợ người dùng phát triển các ứng dụng tập trung vào dữ liệu và khai thác những thông tin chuyên sâu dựa trên dữ liệu khi chúng tôi cộng tác trong ngành dịch vụ tài chính. Với tích hợp Amazon Redshift cho Apache Spark, đội ngũ nền tảng dữ liệu của chúng tôi sẽ có thể truy cập dữ liệu Amazon Redshift với ít bước thủ công nhất, từ đó chúng tôi có thể sử dụng ETL không cần mã để nâng cao khả năng giúp các kỹ sư dễ dàng tập trung vào việc hoàn thiện quy trình làm việc hơn, đồng thời thu thập thông tin đầy đủ và kịp thời. Chúng tôi hy vọng sẽ thấy được sự cải thiện trong các ứng dụng cũng như trong độ bảo mật, vì giờ đây người dùng có thể dễ dàng truy cập dữ liệu mới nhất trong Amazon Redshift”.

Neema Raphael, Giám đốc dữ liệu – Goldman Sachs