Câu hỏi thường gặp về AWS HealthOmics

Thông tin chung

AWS HealthOmics là một dịch vụ được xây dựng cho mục đích nhất định nhằm giúp các tổ chức chăm sóc sức khỏe và khoa học đời sống cũng như các đối tác phần mềm của họ lưu trữ, truy vấn và phân tích dữ liệu bộ gen, hệ phiên mã và các dữ liệu omics khác, sau đó tạo thông tin chuyên sâu từ dữ liệu đó để cải thiện sức khỏe. Dịch vụ này hỗ trợ phân tích quy mô lớn và nghiên cứu cộng tác.

AWS HealthOmics mang đến quy trình làm việc có khả năng điều chỉnh quy mô và các công cụ tích hợp để chuẩn bị và phân tích dữ liệu omics, đồng thời tự động cung cấp và điều chỉnh quy mô cơ sở hạ tầng cơ bản để bạn có thể dành nhiều thời gian hơn vào việc nghiên cứu và đổi mới. AWS HealthOmics hỗ trợ phân tích quy mô lớn và nghiên cứu cộng tác.

AWS HealthOmics có thể xử lý dữ liệu trực tiếp từ Dịch vụ lưu trữ đơn giản của Amazon (S3) hoặc kho lưu trữ AWS HealthOmics bằng quy trình làm việc AWS HealthOmics riêng tư và Ready2Run. Bạn có thể nhập dữ liệu, chẳng hạn như tệp giải trình tự bộ gen thô, tệp định dạng lệnh gọi biến thể và tập dữ liệu chú thích từ Amazon S3 vào kho lưu trữ và phân tích AWS HealthOmics có khả năng tương thích với tin sinh học. Bạn cũng có thể kiểm soát quyền truy cập vào các kho lưu trữ chú thích và biến thể AWS HealthOmics bằng AWS Lake Formation và sử dụng Amazon Athena để truy vấn và kết hợp dữ liệu với các dạng dữ liệu khác dễ dàng hơn, chẳng hạn như hồ sơ sức khỏe y tế từ Amazon HealthLake. Bạn cũng có thể sử dụng Amazon Athena để truy vấn và kết hợp dữ liệu với các dạng dữ liệu khác dễ dàng hơn, chẳng hạn như hồ sơ sức khỏe y tế từ Amazon HealthLake. Ngoài ra, bạn có thể sử dụng dữ liệu đã chuyển đổi trong Amazon QuickSight để phân tích nâng cao. Bạn đồng thời có thể sử dụng Amazon SageMaker để xây dựng, đào tạo và triển khai các thuật toán máy học mới trên dữ liệu đa phương thức và đa ngành sinh học của mình. Cuối cùng, bạn cũng có thể sử dụng Amazon EventBridge để xuất bản các sự kiện như một phần của kiến trúc định hướng theo sự kiện.

Chúng tôi có hai loại kho dữ liệu, một loại dùng để lưu trữ dữ liệu sinh học thô, loại còn lại dùng để lưu trữ dữ liệu biến thể và chú thích. Kho lưu trữ AWS HealthOmics có thể nhập các bộ gen tham khảo có định dạng FASTA và các tệp giải trình tự thô có định dạng FASTQ, BAM và CRAM được nén bằng phương thức gzip. Kho lưu trữ phân tích AWS HealthOmics có thể nhập tệp có định dạng (g)VCF cho dữ liệu biến thể và tệp VCF, GFF cũng như TSV/CSV cho dữ liệu chú thích bộ gen. Quy trình làm việc AWS HealthOmics có thể đọc bất kỳ dữ liệu nào được hỗ trợ bởi hệ thống công cụ và định nghĩa quy trình làm việc đã xác định từ kho lưu trữ AWS HealthOmics hoặc Amazon S3.

Quy trình làm việc AWS HealthOmics hỗ trợ các định nghĩa quy trình làm việc tuân thủ thông số kỹ thuật của WDL 1.1 hoặc Nextflow 22.04.0 DSL2. Hiện tại, công cụ tham khảo của các quy trình làm việc phải được gói gọn trong bộ chứa tuân thủ OCI và phải được lưu trữ trong sổ đăng ký riêng trên Sổ đăng ký bộ chứa linh hoạt (ECR) của Amazon. Định nghĩa quy trình làm việc phải xác định được đầu ra cuối cùng cụ thể. Kết quả trung gian sẽ bị loại bỏ khi chạy xong quy trình làm việc. Việc ghi tác vụ hoặc lần chạy quy trình làm việc vào bộ đệm ẩn chưa được hỗ trợ ở thời điểm hiện tại.

Quy trình làm việc riêng tư cho phép bạn sử dụng các tập lệnh tin sinh học của riêng mình được viết bằng hai ngôn ngữ quy trình làm việc được sử dụng phổ biến nhất là WDL và Nextflow. Bạn có thể chạy các quy trình làm việc riêng tư này với một lần thực thi duy nhất, được gọi là lần chạy. Với các quy trình làm việc riêng tư, bạn chỉ thanh toán cho những gì mình yêu cầu và bị tính phí riêng cho các loại phiên bản omics và kho lưu trữ tác vụ chạy. Tất cả các tác vụ trong quy trình làm việc của bạn được ánh xạ đến phiên bản phù hợp nhất với những tài nguyên được xác định của bạn.

Quy trình làm việc Ready2Run là các quy trình làm việc dựng sẵn được thiết kế bởi các công ty phần mềm bên thứ ba hàng đầu trong ngành như Sentieon, Inc., NVIDIA và Element Biosciences cùng với các quy trình nguồn mở phổ biến như quy trình thực hành tốt nhất GATK của Broad Institute và AlphaFold cho dự đoán cấu trúc protein. Bạn chỉ cần sử dụng quy trình làm việc Ready2Run để xử lý dữ liệu của mình với các quy trình làm việc được sử dụng phổ biến nhất như Germline và GATK-8P của Broad Institute. Các quy trình làm việc Ready2Run được tính phí cho mỗi lần chạy với mức giá được định sẵn. Điều này có nghĩa rằng bạn sẽ trả cùng một mức giá cho mọi quy trình làm việc.

Quyền riêng tư và bảo mật

AWS HealthOmics đủ điều kiện tuân thủ HIPAA. Bạn có thể sử dụng các biện pháp kiểm soát truy cập dựa trên thuộc tính để xác định người có quyền truy cập vào tài nguyên AWS HealthOmics. Toàn bộ kho lưu trữ lâu dài đều hỗ trợ các khóa do khách hàng quản lý. Các quyền đối với hàng và cột cũng được cung cấp trong các kho lưu trữ phân tích AWS HealthOmics. API AWS HealthOmics được tích hợp với các bản ghi Amazon CloudWatch và AWS CloudTrail để cho phép bạn tạo thông tin nguồn gốc dữ liệu chi tiết và truy cập lịch sử hoạt động.

AWS HealthOmics là dịch vụ đủ điều kiện tuân thủ HIPAA. Nếu bạn đang lưu trữ thông tin y tế được bảo vệ (PHI) trên AWS, bạn bắt buộc phải có BAA. Bạn có thể nhanh chóng ký kết BAA trực tuyến bằng AWS Artifact.