Các tính năng của AWS HealthOmics

AWS HealthOmics giúp quá trình lưu trữ, truy vấn và phân tích dữ liệu bộ gen, dữ liệu phiên mã và những dữ liệu omics khác trở nên dễ dàng hơn, rồi tạo thông tin chuyên sâu từ dữ liệu đó. Dịch vụ này đơn giản hóa và tăng tốc quy trình lưu trữ cũng như phân tích thông tin sinh học đa nền tảng cho các ứng dụng nghiên cứu và lâm sàng, do đó bạn có thể tập trung thu thập những thông tin chuyên sâu hơn từ dữ liệu của mình.

Với kho lưu trữ AWS HealthOmics, bạn có thể lưu trữ hàng petabyte dữ liệu omics một cách hiệu quả và tiết kiệm chi phí, cho phép khám phá khoa học ở quy mô quần thể. Quy trình làm việc riêng tư và Ready2Run của AWS HealthOmics tự động hóa hoạt động cung cấp và điều chỉnh quy mô cơ sở hạ tầng điện toán, vì vậy bạn có thể chạy các quy trình phân tích tin sinh học ở quy mô sản xuất, đồng thời giúp bạn tiết kiệm thời gian trong công tác quản lý cơ sở hạ tầng và dành nhiều thời gian hơn để tiến hành nghiên cứu. AWS HealthOmics đi kèm với một tập hợp các quy trình làm việc Ready2Run được dựng sẵn và tính phí cho mỗi lần chạy. Dịch vụ phân tích của AWS HealthOmics đơn giản hóa quá trình chuẩn bị dữ liệu omics cho hoạt động phân tích đa phương thức, qua đó cho phép bạn kết hợp dữ liệu bệnh án với dữ liệu omics hợp nhất và tạo ra liệu pháp cá nhân hóa và nhắm vào đối tượng hơn. Những tính năng này cũng đáp ứng đủ điều kiện của HIPAA.

Thông tin chung

Kho lưu trữ AWS HealthOmics tương thích với các định dạng tệp tin sinh học như FASTQ, BAM và CRAM, đồng thời cho phép bạn lưu trữ, khám phá và chia sẻ dữ liệu này một cách hiệu quả với chi phí thấp. Các định dạng tệp kể trên được lưu trữ dưới dạng đối tượng tập phục vụ việc đọc ở kho lưu trữ trình tự. Bạn cũng có thể lưu trữ các bộ gen tham chiếu ở định dạng FASTA. Dữ liệu được nhập dưới dạng đối tượng bất biến với mã định danh duy nhất để hỗ trợ khối lượng công việc đòi hỏi nguồn gốc dữ liệu nghiêm ngặt. Bạn có thể kiểm soát quyền truy cập vào những đối tượng dữ liệu riêng lẻ, bao gồm đối tượng tập phục vụ việc đọc và đối tượng tham chiếu bằng cách sử dụng thẻ và biện pháp kiểm soát truy cập dựa trên thuộc tính thông qua dịch vụ Quản lý danh tính và truy cập (IAM) trong AWS. Để giảm chi phí lưu trữ dài hạn, các đối tượng dữ liệu không được truy cập trong vòng 30 ngày sẽ tự động được chuyển sang lớp lưu trữ ở trạng thái lưu trữ. Các đối tượng ở trạng thái lưu trữ có thể được kích hoạt trở lại bất kỳ lúc nào bằng một lệnh gọi API.

AWS HealthOmics giúp bạn chạy quy trình làm việc tin sinh học trên quy mô lớn. Bạn có thể chọn quy trình làm việc Ready2Run hoặc quy trình làm việc riêng tư của chính bạn để xử lý dữ liệu sinh học của mình mà không cần phải quản lý cơ sở hạ tầng cơ bản.

Quy trình làm việc Ready2Run là quy trình làm việc dựng sẵn được thiết kế bởi các công ty phần mềm bên thứ ba hàng đầu trong ngành như Sentieon, Inc., NVIDIA và Element Biosciences cùng với các quy trình nguồn mở phổ biến như quy trình làm việc theo phương pháp tốt nhất GATK của Broad Institute và AlphaFold cho dự đoán cấu trúc protein. Bạn chỉ cần sử dụng quy trình làm việc Ready2Run để xử lý dữ liệu của mình mà không cần phải quản lý các công cụ phần mềm hoặc tập lệnh quy trình làm việc. Các quy trình làm việc Ready2Run được tính phí cho mỗi lần chạy với mức giá được định sẵn.

Quy trình làm việc riêng tư cho phép bạn sử dụng các tập lệnh quy trình làm việc của chính bạn được viết bằng Ngôn ngữ mô tả quy trình làm việc (WDL) hoặc Nextflow, đây là hai ngôn ngữ quy trình làm việc được sử dụng phổ biến nhất. Bạn có thể chạy các quy trình làm việc riêng tư này với một lần thực thi duy nhất, được gọi là lần chạy. Với các quy trình làm việc riêng tư, bạn chỉ thanh toán cho những gì mình yêu cầu và bị tính phí riêng cho các loại phiên bản omics và kho lưu trữ tác vụ chạy. Tất cả các tác vụ trong quy trình làm việc của bạn được ánh xạ đến phiên bản phù hợp nhất với những tài nguyên được xác định của bạn.

Với AWS HealthOmics, bạn có thể nhanh chóng tải nhập và chuyển đổi các định dạng dữ liệu nghiên cứu gen như (g)VCF, GFF3 và TSV/CSV thành bảng Apache Iceberg. Bạn có thể chuyển dữ liệu nghiên cứu gen sang định dạng có thể truy cập được thông qua các dịch vụ phân tích như Amazon Athena. Bạn có thể chuyển đổi cả dữ liệu biến thể (dữ liệu từ một mẫu riêng lẻ) và dữ liệu chú giải (thông tin vị trí đã biết trong bộ gen). Bạn có thể kiểm soát truy cập vào các kho lưu trữ phân tích với AWS Lake Formation, giúp việc thực hiện truy vấn trên các nguồn dữ liệu khác nhau trở nên dễ dàng hơn trong khi triển khai các biện pháp kiểm soát truy cập ở mức độ chi tiết. Ví dụ: để tạo điều kiện thuận lợi cho mô hình y học chính xác, bạn có thể kết hợp dữ liệu bộ gen của các cá nhân với bệnh sử của họ từ Amazon HealthLake một cách bảo mật; bệnh sử có thể bao gồm các phương pháp điều trị trước đây, thuốc uống hoặc báo cáo từ phòng thí nghiệm.

AWS HealthOmics giúp các nhà nghiên cứu cộng tác dễ dàng hơn thông qua gắn thẻ, thiết lập quyền và chia sẻ dữ liệu một cách an toàn với các bên cộng tác. Dịch vụ này đơn giản hóa cách bạn chuyển dữ liệu omics của mình sang trạng thái có thể tìm kiếm được, có thể truy cập được, tương hợp được và tái sử dụng được (FAIR). Với siêu dữ liệu dành riêng cho từng miền, bạn có thể liên kết các kho lưu trữ dữ liệu của AWS HealthOmics với dữ liệu omics và chăm sóc sức khỏe khác, nhằm tạo điều kiện thuận lợi cho việc phân tích đa phương thức và đa ngành omics. Đối với nguồn gốc dữ liệu, AWS HealthOmics lưu trữ tất cả siêu dữ liệu chạy quy trình làm việc trong các bản ghi CloudWatch và cho phép bạn dễ dàng lưu trữ truy vấn thông tin này. Bạn có thể xuất thông tin này từ CloudWatch sang S3 để lưu trữ lâu dài. Thông tin này có thể giúp bạn theo dõi thuật toán đã được sử dụng với dữ liệu đầu vào của bạn để tạo dữ liệu đầu ra cho các yêu cầu tuân thủ của bạn.

Bảo mật, quyền riêng tư và tuân thủ

AWS HealthOmics đáp ứng đủ điều kiện của HIPAA. Bạn có thể áp dụng các biện pháp kiểm soát dựa trên thuộc tính để xác định quyền truy cập và quản trị dữ liệu ở mức độ chi tiết. Dịch vụ này tích hợp khả năng thu thập nguồn gốc và tạo bản ghi toàn diện để bạn nắm được dữ liệu nào đã được truy cập, đối tượng truy cập dữ liệu đó và thời điểm truy cập.