المدوَّنة العربية
طبقات خدمة Amazon Bedrock الجديدة تساعدك على مطابقة أداء أحمال عمل الذكاء الاصطناعي مع التكلفة
تقدم Amazon Bedrock طبقات خدمة جديدة تتيح للمستخدمين مطابقة أحمال عملهم مع مستوى الأداء المناسب، مما يوفر مزيداً من التحكم في التكاليف مع الحفاظ على مستويات الأداء التي تحتاجها التطبيقات.
تتطلب أحمال العمل المختلفة مقايضات متباينة بين الأداء والتكلفة. تواجه العديد من المؤسسات التي تدير أحمال عمل الذكاء الاصطناعي تحديات في الموازنة بين متطلبات الأداء وتحسين التكلفة. تحتاج بعض التطبيقات إلى أوقات استجابة سريعة للتفاعلات في الوقت الفعلي، بينما يمكن لتطبيقات أخرى معالجة البيانات بشكل تدريجي. لمواجهة هذه التحديات، أعلنت AWS عن طبقات خدمة جديدة توفر مرونة أكبر في مطابقة متطلبات أحمال العمل مع مستوى الأداء والتكلفة المناسبين.
تقدم Amazon Bedrock الآن ثلاث طبقات خدمة: Priority، و Standard، و(Flex. صُممت كل طبقة لتلبية متطلبات أحمال عمل محددة بناءً على احتياجاتها من حيث زمن الاستجابة.
تختلف متطلبات أوقات الاستجابة للتطبيقات بناءً على حالة الاستخدام. تتطلب بعض التطبيقات – مثل أنظمة التداول المالي – أسرع أوقات استجابة ممكنة. تحتاج تطبيقات أخرى إلى أوقات استجابة سريعة لدعم العمليات التجارية مثل إنشاء المحتوى. أما التطبيقات مثل تلخيص المحتوى، فيمكنها معالجة البيانات بشكل تدريجي.
تعالج طبقة Priority الطلبات قبل الطبقات الأخرى، مما يوفر تخصيص حوسبة تفضيلي وأسرع أوقات استجابة للتطبيقات الحرجة مثل المساعدون الافتراضيون الذين يتفاعلون مع العملاء عبر الدردشة وخدمات الترجمة اللغوية في الوقت الفعلي، وإن كان بسعر أعلى. توفر طبقة Standard أداءً ثابتاً بأسعار عادية لمهام الذكاء الاصطناعي اليومية. تُعد مثالية لإنشاء المحتوى وتحليل النصوص ومعالجة الوثائق الروتينية. تقدم طبقة Flex خياراً أكثر فعالية من حيث التكلفة بتسعير أقل للمهام التي يمكنها التعامل مع زمن استجابة أطول. تناسب هذه الطبقة تقييمات النماذج وتلخيص المحتوى والتحليل متعدد الخطوات وسير العمل الوكيل.
يمكن تحسين الإنفاق من خلال مطابقة كل حمل عمل مع طبقة الخدمة الأنسب له بناءً على متطلبات زمن الاستجابة. على سبيل المثال، عند تشغيل مساعد دردشة لخدمة العملاء يحتاج إلى استجابات سريعة، يمكن استخدام طبقة Priority للحصول على أسرع أوقات المعالجة. أما لمهام تلخيص المحتوى التي يمكنها تحمل أوقات معالجة أطول، فيمكن استخدام طبقة Flex لتقليل التكاليف مع الحفاظ على أداء موثوق.
بالنسبة لمعظم النماذج التي تدعم طبقة Priority، يمكن تحقيق تحسن يصل إلى 25% في سرعة توليد الرموز المميزة الناتجة في الثانية (OTPS) مقارنة بطبقة Standard.
راجع وثائق Amazon Bedrock للحصول على قائمة محدثة بالنماذج المدعومة لكل طبقة خدمة.
كيفية اختيار طبقة الخدمة المناسبة لحمل العمل
فيما يلي نموذج فكري لمساعدتك في اختيار طبقة الخدمة المناسبة بناءً على متطلبات حمل العمل:
| الفئة | طبقة الخدمة الموصى بها | الوصف |
|---|---|---|
| أعباء العمل الحيوية | Priority | تُعالج الطلبات قبل غيرها من الطبقات الأخرى. استجابة أسرع للتطبيقات التي يتعامل معها المستخدمون (على سبيل المثال، مساعدو خدمة العملاء عبر الدردشة، والترجمة الفورية، ومساعدو الذكاء الاصطناعي التفاعليون). |
| أعباء العمل الاعتيادية | Standard | أداء سريع الاستجابة لأعباء العمل المهمة (مثل إنشاء المحتوى، تحليل النصوص، معالجة الوثائق الروتينية). |
| أعباء العمل غير الحرجة | Flex | فعال من حيث التكلفة للمهام الأقل إلحاحاً (مثل تقييمات النماذج، تلخيص المحتوى، سير العمل الوكيل متعدد الخطوات). |
ابدأ بمراجعة أنماط الاستخدام الحالية مع مالكي التطبيقات. بعد ذلك، حدد أحمال العمل التي تحتاج استجابات فورية وأيها يمكن معالجتها بشكل تدريجي. يمكن بعدها توجيه جزء صغير من حركة الطلبات عبر طبقات خدمة مختلفة لاختبار فوائد الأداء والتكلفة.
تساعد حاسبة تسعير AWS في تقدير التكاليف لطبقات الخدمة المختلفة من خلال إدخال حمل العمل المتوقع لكل طبقة. يمكن تقدير الميزانية بناءً على أنماط الاستخدام المحددة.
لمراقبة الاستخدام والتكاليف، يمكن استخدام وحدة تحكم AWS Service Qoutas أو تفعيل تسجيل استدعاء النماذج في Amazon Bedrock ومراقبة المقاييس مع Amazon CloudWatch. توفر هذه الأدوات رؤية واضحة لاستخدام الرموز المميزة وتساعد على تتبع الأداء عبر طبقات الخدمة المختلفة.
يمكن البدء في استخدام طبقات الخدمة هذه، حيث تُحدد طبقة الخدمة المطلوبة عند كل استدعاء API. فيما يلي مثال باستخدام OpenAI API ChatCompletions، ولكن يمكن تمرير نفس معامل service_tier في نص APIs InvokeModel وInvokeModelWithResponseStream وConverse وConverseStream (للنماذج المدعومة):
from openai import OpenAI
client = OpenAI(
base_url="https://bedrock-runtime.us-west-2.amazonaws.com/openai/v1",
api_key="$AWS_BEARER_TOKEN_BEDROCK" # Replace with actual API key
)
completion = client.chat.completions.create(
model= "openai.gpt-oss-20b-1:0",
messages=[
{
"role": "developer",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
]
service_tier= "priority" # options: "priority | default | flex"
)
print(completion.choices.message)
لمعرفة المزيد، راجع دليل مستخدم Amazon Bedrock أو تواصل مع فريق حساب AWS للحصول على مساعدة تخطيط مفصلة.
نتطلع لمعرفة كيف ستساعد طبقات الخدمة هذه في تحسين أحمال عمل الذكاء الاصطناعي. شاركونا تجربتكم عبر الشبكات الاجتماعية أو تواصلوا معنا في فعاليات AWS.
