Amazon Bedrock sekarang mendukung Evaluasi RAG (tersedia secara umum)
Evaluasi Amazon Bedrock RAG sekarang tersedia secara umum. Anda dapat mengevaluasi aplikasi pembangkitan tambahan pengambilan (RAG), baik yang dibangun di Amazon Bedrock Knowledge Bases atau sistem RAG kustom. Anda dapat mengevaluasi pengambilan atau pembuatan ujung ke ujung. Evaluasi didukung oleh LLM-as-a-judge, dengan pilihan beberapa model juri. Untuk pengambilan, Anda dapat memilih dari metrik seperti relevansi konteks dan cakupan. Untuk pengambilan dan pembuatan menyeluruh, Anda dapat memilih dari metrik kualitas seperti kebenaran, kelengkapan, dan kesetiaan (deteksi halusinasi), dan metrik AI yang bertanggung jawab seperti hal yang membahayakan, penolakan jawaban, dan stereotip. Anda juga dapat membandingkan berbagai pekerjaan evaluasi untuk mengulangi Basis Pengetahuan atau aplikasi RAG khusus Anda dengan pengaturan berbeda seperti strategi chunking atau panjang vektor, reranker, atau model pembangkitan konten berbeda.
*Benar-benar baru - lebih banyak fleksibilitas!* Hingga saat ini, selain Bedrock Knowledge Bases, evaluasi RAG Amazon Bedrock mendukung evaluasi alur kerja RAG kustom. Pelanggan yang mengevaluasi jalur RAG kustom kini dapat membawa pasangan input-output dan konteks yang diambil ke dalam pekerjaan evaluasi secara langsung dalam himpunan data input mereka, yang memungkinkan mereka melewati panggilan ke Bedrock Knowledge Base ("bawa respons inferensi Anda sendiri"). Kami juga menambahkan metrik ketepatan kutipan dan cakupan kutipan untuk evaluasi Bedrock Knowledge Bases. Jika Anda menggunakan Bedrock Knowledge Base sebagai bagian evaluasi Anda, Anda dapat menggabungkan Amazon Bedrock Guardrails secara langsung.
Untuk mempelajari lebih lanjut, kunjungi halaman Evaluasi Amazon Bedrock dan dokumentasi. Untuk memulai, masuk ke Konsol Amazon Bedrock atau gunakan API Amazon Bedrock.