المدوَّنة العربية

نقدم لكم نماذج Amazon Nova : ذكاء متقدم وسعر رائد

اليوم، يسرنا الإعلان عن Amazon Nova، وهو جيل جديد من نماذج الأساس (FMs) المتطورة التي توفر ذكاءً متقدمًا وسعرا رائدًا ، وهي متاحة حصريًا في Amazon Bedrock.

يمكنك استخدام Amazon Nova لتقليل التكاليف وزمن الاستجابة لأي مهمة من مهام الذكاء الاصطناعي المولّد تقريبًا. يمكنك البناء على Amazon Nova لتحليل المستندات والفيديوهات المعقدة، وفهم الرسوم البيانية والمخططات، وإنشاء محتوى فيديو جذاب، وبناء وكلاء ذكاء اصطناعي متطورة من مجموعة متنوعة من فئات الذكاء المحسّنة لأعباء العمل في المؤسسات.

سواء كنت تطور تطبيقات معالجة المستندات التي تحتاج إلى معالجة الصور والنصوص، أو إنشاء محتوى تسويقي على نطاق واسع، أو بناء مساعدين للذكاء الاصطناعي يمكنهم فهم المعلومات المرئية والتصرف بناءً عليها، يوفر Amazon Nova الذكاء والمرونة التي تحتاجها مع فئتين من النماذج: الفهم وإنشاء المحتوى الإبداعي.

تقبل نماذج الفهم من Amazon Nova المدخلات النصية أو الصور أو الفيديو لإنتاج نصوص كمخرجات. أما نماذج إنشاء المحتوى الإبداعي من Amazon فتقبل المدخلات النصية والصور لإنتاج صور أو فيديو كمخرجات.

نماذج الفهم: الذكاء النصي والمرئي

تتضمن نماذج Amazon Nova ثلاثة نماذج للفهم (مع نموذج رابع قادم قريبًا) مصممة لتلبية احتياجات مختلفة:

Amazon Nova Micro – نموذج نصي فقط يوفر أسرع استجابة في عائلة نماذج Amazon Nova بتكلفة منخفضة جدًا. مع طول سياق يبلغ 128 ألف رمز ومحسّن للسرعة والتكلفة، يتفوق Amazon Nova Micro في أداء مهام مثل تلخيص النصوص والترجمة وتصنيف المحتوى والدردشة التفاعلية والعصف الذهني والاستدلال الرياضي البسيط والبرمجة. يدعم Amazon Nova Micro أيضًا التخصيص على البيانات الخاصة باستخدام الضبط الدقيق وتقطير النموذج (model distillation) لتعزيز الدقة.

Amazon Nova Lite – نموذج متعدد الوسائط منخفض التكلفة للغاية وسريع جدًا في معالجة مدخلات الصور والفيديو والنص لإنتاج نصوص كمخرجات. يمكن لـ Amazon Nova Lite التعامل مع تفاعلات العملاء بشكل فوري وتحليل المستندات ومهام الإجابة عن الأسئلة المرئية بدقة عالية. يعالج النموذج المدخلات التي يصل طولها إلى 300 ألف رمز ويمكنه تحليل صور متعددة أو ما يصل إلى 30 دقيقة من الفيديو في طلب واحد. يدعم Amazon Nova Lite أيضًا الضبط الدقيق للنص والوسائط المتعددة ويمكن تحسينه لتقديم أفضل جودة وتكلفة لحالة الاستخدام الخاصة بك باستخدام تقنيات مثل تقطير النموذج.

Amazon Nova Pro – نموذج متعدد الوسائط عالي القدرة مع أفضل مزيج من الدقة والسرعة والتكلفة لمجموعة واسعة من المهام. يمكن لـ Amazon Nova Pro معالجة ما يصل إلى 300 ألف رمز كمدخلات ويضع معايير جديدة في الذكاء متعدد الوسائط وسير العمل الوكيلي الذي يتطلب استدعاء واجهات برمجة التطبيقات والأدوات لإكمال سير العمل المعقد. يحقق أداءً متميزًا وفقًا للمعايير الرئيسية بما في ذلك الإجابة عن الأسئلة المرئية (TextVQA) وفهم الفيديو (VATEX). يُظهر Amazon Nova Pro قدرات قوية في معالجة المعلومات المرئية والنصية ويتفوق في تحليل المستندات المالية. مع طول سياق يبلغ 300 ألف رمز، يمكنه معالجة قواعد التعليمات البرمجية التي تزيد عن خمسة عشر ألف سطر. يعمل Amazon Nova Pro أيضًا كنموذج مُعلّم لتقطير الإصدارات المخصصة من Amazon Nova Micro و Lite.

Amazon Nova Premier – نموذجنا متعدد الوسائط الأكثر قدرة على أداء مهام الاستدلال المعقدة وللاستخدام كأفضل مُعلّم لتقطير النماذج المخصصة. لا يزال Amazon Nova Premier قيد التدريب. نستهدف إتاحته في أوائل عام 2025.

تتفوق نماذج الفهم من Amazon Nova في التوليد المعزز بالاسترجاع (RAG)، واستدعاء الوظائف، والتطبيقات الوكيلة. ينعكس هذا في نتائج نموذج Amazon Nova في التقييم الشامل للتوليد المعزز بالاسترجاع (CRAG)، ولوحة صدارة استدعاء الوظائف في بيركلي (BFCL)، وVisualWebBench، وMind2Web.

ما يجعل Amazon Nova قويًا بشكل خاص للمؤسسات هو قدراته على التخصيص. فكر في الأمر كتفصيل بدلة: تبدأ بأساس عالي الجودة وتعدله ليناسب احتياجاتك بالضبط. يمكنك ضبط النماذج بدقة باستخدام النص والصور والفيديو لفهم مصطلحات مجال عملك، والتوافق مع صوت علامتك التجارية، والتحسين لحالات الاستخدام المحددة الخاصة بك. على سبيل المثال، قد تقوم شركة قانونية بتخصيص Amazon Nova لفهم المصطلحات القانونية وهياكل المستندات بشكل أفضل.

يمكنك الاطلاع على أحدث النتائج المعيارية لهذه النماذج على صفحة منتج Amazon Nova.

إنشاء المحتوى الإبداعي: إحياء المفاهيم

تتضمن نماذج Amazon Nova أيضًا نموذجين لإنشاء المحتوى الإبداعي:

Amazon Nova Canvas – نموذج متطور لإنشاء الصور ينتج صورًا بجودة استوديو مع تحكم دقيق في الأسلوب والمحتوى، بما في ذلك ميّزات تحرير غنية مثل الرسم الداخلي والرسم الخارجي وإزالة الخلفية. يتفوق Amazon Nova Canvas في التقييمات البشرية والمعايير الرئيسية مثل تقييم الدقة من النص إلى الصورة مع الإجابة عن الأسئلة (TIFA) وImageReward.

Amazon Nova Reel – نموذج متطور لإنشاء الفيديو. باستخدام Amazon Nova Reel، يمكنك إنتاج مقاطع فيديو قصيرة من خلال الإرشادات النصية والصور، والتحكم في الأسلوب المرئي والإيقاع، وإنشاء محتوى فيديو بجودة احترافية للتسويق والإعلان والترفيه. يتفوق Amazon Nova Reel على النماذج الحالية في التقييمات البشرية لجودة الفيديو واتساقه.

تتضمن جميع نماذج Amazon Nova ضوابط أمان مدمجة، كما تتضمن نماذج إنشاء المحتوى الإبداعي إمكانيات وضع العلامات المائية لتعزيز الاستخدام المسؤول للذكاء الاصطناعي.

دعونا نرى كيف تعمل هذه النماذج عمليًا في بعض حالات الاستخدام.

استخدام Amazon Nova Pro لتحليل المستندات

لتوضيح قدرات تحليل المستندات، قمت بتنزيل دليل اختيار خدمة الذكاء الاصطناعي المولّد بتنسيق PDF من وثائق AWS.

أولاً، أختار Model access في جزء التنقل في وحدة تحكم Amazon Bedrock وأطلب الوصول إلى نماذج Amazon Nova الجديدة. ثم أختار Chat/text في قسم Playground من جزء التنقل وأحدد نموذج Amazon Nova Pro. في الدردشة، أقوم بتحميل دليل القرار بتنسيق PDF وأسأل:

Write a summary of this doc in 100 words. Then, build a decision tree.

تتبع المخرجات تعليماتي وتنتج شجرة قرار منظّمة تعطيني لمحة عن المستند قبل قراءته.

لقطة شاشة للوحة التحكم.

استخدام Amazon Nova Pro لتحليل الفيديو

لتوضيح تحليل الفيديو، قمت بإعداد فيديو عن طريق دمج مقطعين قصيرين (سنتحدث عن هذا بمزيد من التفصيل في القسم التالي):

في هذه المرة، أستخدم AWS SDK for Python (Boto3) لاستدعاء نموذج Amazon Nova Pro باستخدام Amazon Bedrock Converse API وتحليل الفيديو:

import boto3AWS_REGION = "us-east-1"MODEL_ID = "amazon.nova-pro-v1:0"VIDEO_FILE = "the-sea.mp4"bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)with open(VIDEO_FILE, "rb") as f:    video = f.read()user_message = "Describe this video."messages = [ { "role": "user", "content": [    {"video": {"format": "mp4", "source": {"bytes": video}}},    {"text": user_message}] } ]response = bedrock_runtime.converse(    modelId=MODEL_ID,    messages=messages,    inferenceConfig={"temperature": 0.0} )response_text = response["output"]["message"]["content"][0]["text"]print(response_text)

يمكن لـ Amazon Nova Pro تحليل مقاطع الفيديو التي يتم تحميلها باستخدام واجهة برمجة التطبيقات (API) (كما في البرنامج النصي السابق) أو المُخزّنة في Amazon Simple Storage Service (Amazon S3).

في البرنامج النصي، أطلب وصف الفيديو. وأقوم بتشغيل البرنامج النصي من سطر الأوامر. إليك النتيجة:

The video begins with a view of a rocky shore on the ocean, and then transitions to a close-up of a large seashell resting on a sandy beach.

يمكنني استخدام نص ادخال أكثر تفصيلاً لاستخراج معلومات محددة من الفيديو مثل الأشياء أو النصوص. لاحظ أن Amazon Nova لا يعالج حاليًا الصوت في الفيديو.

استخدام Amazon Nova لإنشاء الفيديو

والآن، دعونا ننشئ فيديو باستخدام Amazon Nova Reel، بدءًا من نص ادخال فقط ثم تقديم صورة مرجعية.

نظرًا لأن إنشاء الفيديو يستغرق بضع دقائق، قدمت واجهة برمجة تطبيقات Amazon Bedrock ثلاث عمليات جديدة:

StartAsyncInvoke – لبدء استدعاء غير متزامن

GetAsyncInvoke – للحصول على الحالة الحالية لاستدعاء غير متزامن محدد

ListAsyncInvokes – لسرد حالة كافة الاستدعاءات غير المتزامنة باستخدام عوامل التصفية الاختيارية مثل الحالة أو التاريخ

يدعم Amazon Nova Reel إجراءات التحكم في الكاميرا مثل التكبير أو تحريك الكاميرا. ينشئ هذا البرنامج النصي بلغة Python فيديو من نص الادخال هذا:

Closeup of a large seashell in the sand. Gentle waves flow all around the shell. Sunset light. Camera zoom in very close.

بعد الاستدعاء الأول، يتحقق البرنامج النصي دوريًا من الحالة حتى اكتمال إنشاء الفيديو. أقوم بتمرير رقم عشوائي للحصول على نتيجة مختلفة في كل مرة يتم فيها تشغيل البرنامج النصي.

import randomimport timeimport boto3AWS_REGION = "us-east-1"MODEL_ID = "amazon.nova-reel-v1:0"SLEEP_TIME = 30S3_DESTINATION_BUCKET = "<BUCKET>"video_prompt = "Closeup of a large seashell in the sand. Gentle waves flow all around the shell. Sunset light. Camera zoom in very close."bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)model_input = {    "taskType": "TEXT_VIDEO",    "textToVideoParams": {"text": video_prompt},    "videoGenerationConfig": {        "durationSeconds": 6,        "fps": 24,        "dimension": "1280x720",        "seed": random.randint(0, 2147483648)    }}invocation = bedrock_runtime.start_async_invoke(    modelId=MODEL_ID,    modelInput=model_input,    outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}})invocation_arn = invocation["invocationArn"]s3_prefix = invocation_arn.split('/')[-1]s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"print(f"\nS3 URI: {s3_location}")while True:    response = bedrock_runtime.get_async_invoke(        invocationArn=invocation_arn    )    status = response["status"]    print(f"Status: {status}")    if status != "InProgress":        break    time.sleep(SLEEP_TIME)if status == "Completed":    print(f"\nVideo is ready at {s3_location}/output.mp4")else:    print(f"\nVideo generation status: {status}")

أقوم بتشغيل البرنامج النصي:

Status: InProgress. . .Status: CompletedVideo is ready at s3://BUCKET/PREFIX/output.mp4

بعد بضع دقائق، يكتمل البرنامج النصي ويطبع موقع مخرجات Amazon S3. أقوم بتنزيل الفيديو الناتج AWS CLI:

aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-text.mp4

هذا هو الفيديو الناتج. كما هو مطلوب، تقوم الكاميرا بالتكبير على الموضوع.

استخدام Amazon Nova Reel مع صورة مرجعية

للحصول على تحكم أفضل في إنشاء الفيديو، يمكنني تزويد Amazon Nova Reel بصورة مرجعية مثل ما يلي:

صورة لمنظر بحري.

يستخدم هذا البرنامج النصي صورة مرجعية ونص إدخال مع إجراء للكاميرا (drone view flying over a coastal landscape) لإنشاء فيديو:

import base64import randomimport timeimport boto3S3_DESTINATION_BUCKET = "<BUCKET>"AWS_REGION = "us-east-1"MODEL_ID = "amazon.nova-reel-v1:0"SLEEP_TIME = 30input_image_path = "seascape.png"video_prompt = "drone view flying over a coastal landscape"bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)# Load the input image as a Base64 string.with open(input_image_path, "rb") as f:    input_image_bytes = f.read()    input_image_base64 = base64.b64encode(input_image_bytes).decode("utf-8")model_input = {    "taskType": "TEXT_VIDEO",    "textToVideoParams": {        "text": video_prompt,        "images": [{ "format": "png", "source": { "bytes": input_image_base64 } }]        },    "videoGenerationConfig": {        "durationSeconds": 6,        "fps": 24,        "dimension": "1280x720",        "seed": random.randint(0, 2147483648)    }}invocation = bedrock_runtime.start_async_invoke(    modelId=MODEL_ID,    modelInput=model_input,    outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}})invocation_arn = invocation["invocationArn"]s3_prefix = invocation_arn.split('/')[-1]s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"print(f"\nS3 URI: {s3_location}")while True:    response = bedrock_runtime.get_async_invoke(        invocationArn=invocation_arn    )    status = response["status"]    print(f"Status: {status}")    if status != "InProgress":        break    time.sleep(SLEEP_TIME)if status == "Completed":    print(f"\nVideo is ready at {s3_location}/output.mp4")else:    print(f"\nVideo generation status: {status}")

مرة أخرى، أقوم بتنزيل الناتج باستخدام AWS CLI:

aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-image.mp4

هذا هو الفيديو الناتج. تبدأ الكاميرا من الصورة المرجعية وتتحرك للأمام.

بناء الذكاء الاصطناعي بطريقة مسؤولة

تم بناء نماذج Amazon Nova مع التركيز على سلامة العملاء وأمانهم وثقتهم طوال مراحل تطوير النموذج، مما يوفر لك راحة البال بالإضافة إلى مستوى مناسب من التحكم لتمكين حالات الاستخدام الفريدة الخاصة بك.

لقد قمنا بدمج ميّزات أمان شاملة وقدرات تعديل المحتوى، مما يمنحك عناصر التحكم التي تحتاجها لاستخدام الذكاء الاصطناعي بشكل مسؤول. تتضمن كل صورة وفيديو تم إنشاؤه علامات مائية رقمية.

تم بناء نماذج Amazon Nova بوسائل حماية تتناسب مع قدراتها المتزايدة. توسع Amazon Nova إجراءات السلامة الخاصة بنا لمكافحة انتشار المعلومات المضللة، ومواد الاعتداء الجنسي على الأطفال (CSAM)، والمخاطر الكيميائية والبيولوجية والإشعاعية أو النووية (CBRN).

أمور يجب معرفتها

تتوفر نماذج Amazon Nova في Amazon Bedrock في منطقة AWS شرق الولايات المتحدة (N. Virginia). كما تتوفر Amazon Nova Micro وLite وPro في مناطق غرب الولايات المتحدة (Oregon) وشرق الولايات المتحدة (Ohio) عبر الاستدلال عبر المناطق. كما هو معتاد مع Amazon Bedrock، يتبع التسعير نموذج الدفع حسب الاستخدام. لمزيد من المعلومات، راجع تسعير Amazon Bedrock.

يتحدث الجيل الجديد من نماذج فهم Amazon Nova لغتك. تفهم هذه النماذج وتنشئ محتوى بأكثر من 200 لغة، مع قدرات قوية بشكل خاص في الإنجليزية والألمانية والإسبانية والفرنسية والإيطالية واليابانية والكورية والعربية والصينية المبسطة والروسية والهندية والبرتغالية والهولندية والتركية والعبرية. هذا يعني أنه يمكنك بناء تطبيقات عالمية حقًا دون القلق بشأن حواجز اللغة أو الاحتفاظ بنماذج منفصلة لمناطق مختلفة. تدعم نماذج Amazon Nova لإنشاء المحتوى الإبداعي النصوص المدخلة باللغة الإنجليزية.

عندما تستكشف Amazon Nova، ستكتشف قدرته على التعامل مع المهام المتزايدة التعقيد. يمكنك استخدام هذه النماذج لمعالجة المستندات الطويلة التي تصل إلى 300 ألف رمز، وتحليل صور متعددة في طلب واحد، وفهم ما يصل إلى 30 دقيقة من محتوى الفيديو، وإنشاء الصور ومقاطع الفيديو على نطاق واسع من اللغة الطبيعية. وهذا يجعل هذه النماذج مناسبة لمجموعة متنوعة من حالات الاستخدام التجاري، من التفاعل السريع مع خدمة العملاء إلى التحليل العميق للوثائق المؤسسية وإنشاء الأصول للإعلانات والتجارة الإلكترونية وتطبيقات وسائل التواصل الاجتماعي.

يجعل التكامل مع Amazon Bedrock عملية النشر والتوسع سهلة. يمكنك الاستفادة من ميّزات مثل قواعد المعرفة Amazon Bedrock لتعزيز نموذجك بمعلومات خاصة، واستخدام وكلاء Amazon Bedrock لأتمتة سير العمل المعقد، وتطبيق ضوابط Amazon Bedrock لتعزيز الاستخدام المسؤول للذكاء الاصطناعي. يدعم النظام الأساسي البث في الوقت الفعلي للتطبيقات التفاعلية، والمعالجة على دفعات لأحمال العمل كبيرة الحجم، والمراقبة التفصيلية لمساعدتك على تحسين الأداء.

هل أنت مستعد لبدء البناء باستخدام Amazon Nova؟ جرب النماذج الجديدة في وحدة تحكم Amazon Bedrock اليوم، وقم بزيارة قسم نماذج Amazon Nova في وثائق Amazon Bedrock، وأرسل ملاحظاتك إلى AWS re:Post لـ Amazon Bedrock. يمكنك العثور على محتوى تقني متعمق واكتشاف كيفية استخدام مجتمعات البناء لدينا لـ Amazon Bedrock على community.aws. أخبرنا بما تبنيه باستخدام هذه النماذج الجديدة!


بتصرّف عن المقالة الاصلية