ما هو DALL · E 2؟

DALL · E 2 هو برنامج ذكاء اصطناعي يقوم بإنشاء صور من أوصاف نصية ، كشفت عنه شركة الأبحاث OpenAI يوم الخميس.

يستخدم نسخة تدريب 12 مليار متغير من نموذج محول GPT-3 لتفسير مدخلات اللغة الطبيعية وإنشاء الصور المقابلة. على سبيل المثال ، عند تزويدها بجملة 'صورة بالأبيض والأسود لكلب صغير' ، فإنها تنتج بشكل صحيح صورة بالأبيض والأسود لحيوان الشيواوا.

النظام ليس مثاليًا - فهو ينتج أحيانًا صورًا يصعب تفسيرها أو تخرج عن نطاق العلامة تمامًا. على سبيل المثال ، عندما طُلب منك إنشاء صورة 'لشخص يركب دراجة أحادية على حبل مشدود فوق بركان' ، أنتجت صورة (جميلة ، في رأيي) ولكنها غير مرتبطة تمامًا لغروب الشمس فوق الماء مع وجود شخصية صغيرة في المقدمة .

ومع ذلك ، فإن النتائج مذهلة ، وتقول شركة OpenAI إن نموذج DALL · E 2 'هو أول نموذج ذكاء اصطناعي ينتج صورًا من الأوصاف النصية التي يمكن أن تنافس جودة الفنانين البشريين المحترفين.'

تم تدريب النظام على مجموعة بيانات من أزواج الصور النصية ، تتكون من حوالي 1.3 مليون صورة وتعليقات توضيحية من الإنترنت تم كشطها وتنظيمها بواسطة OpenAI. ثم تم استخدام بيانات التدريب لضبط نموذج GPT-3 بحيث يمكنه إنشاء صور من الأوصاف النصية.

تقول OpenAI إن النظام يمكنه إنشاء صور 'عالية الجودة' من مجموعة واسعة من الأوصاف النصية ، بما في ذلك تلك الصور المجردة أو الملموسة أو حتى الشعرية.

بالإضافة إلى مثال تشيهواهوا ، تشتمل الأمثلة الأخرى للصور التي أنتجها DALL · E 2 على صورة تم تقديمها بشكل صحيح لأدولف هتلر ، وصورة لتنين مصنوع من الخضار ، وصورة لموناليزا مصنوعة من الخبز المحمص.

النظام قادر أيضًا على إنشاء صور لأشياء غير موجودة ، مثل 'فلوف' (حيوان مصطنع) أو 'تولبا' (شكل تفكير).

بشكل عام ، كانت النتائج مثيرة للإعجاب ، وتقول OpenAI إن النظام 'يفتح إمكانيات جديدة لتوليد الصور من الأوصاف النصية'.

من E 2 هذا نظام CLIP يحول المعلومات النصية إلى معلومات مرئية. هذا نموذج لوحدة فك التشفير ، مما يعني أنه عند توفير نص الإدخال ، يتم تحويله أولاً إلى إدخال الجهاز ، ثم معالجته بواسطة النظام ، ثم يتم تمريره أخيرًا إلى وحدة فك التشفير ، والتي تحول البيانات المشفرة إلى صورة.

none

ما هو DALL · E 2؟

هذا هو أحدث جيل من DALL · E ، وهو نموذج لغة توليدي يستخدم عبارات لإنشاء تأثيرات بصرية جديدة تمامًا. DALL E 2 هو نموذج ضخم 3.5 فولت ، وإن لم يكن بحجم GPT-3. ومن المثير للاهتمام أنه أخف أيضًا من سابقه (12 ب). من حيث محاذاة الوصف والواقعية ، فإن DALL · E 2 أفضل بنسبة 70٪ من DALL · E 2 على الرغم من حجمها الأكبر.

DALL.E 2- شرح للمبتدئين بالأمثلة

على وجه التحديد ، DALL · E 2 هو نموذج هرمي لتركيب صورة النص الشرطي الذي يجمع بين التعلم العميق لمعالجة اللغة الطبيعية مع رؤية الكمبيوتر لتوليد الصور. هدفها تدريب نموذجين ، وتتكون مجموعة التدريب من صور وأوصاف مقترنة. الأول هو مقدمة يمكن تدريبها على إنشاء صورة CLIP مضمنة ، عند إعطاء عنوان مكتوب. لدينا بعد ذلك وحدة فك ترميز يمكنها ، عند تضمين صورة CLIP (والتعليق ، إن وجدت) ، إنشاء صورة مدربة.

يتم تدريب DALLE 2 على استخدام مئات الملايين من الصور مع تسميات توضيحية من الإنترنت ، ويتم إزالة بعض هذه الصور وإعادة ترتيبها لتغيير ما يتعلمه النموذج. يسترجع خيارات متعددة للصور مرفقات CLIP ثم استخدمه فك تذهب من خلال كل منهم. ثم يقوم بإنشاء مزيج مثير للاهتمام من كل تلك المعلومات في ضوء مدخلات المستخدم.

مثال DALL هو 2

none

لنلعب لعبة صغيرة لفهم DALL · E. دعنا نقسمها إلى الخطوات الثلاث التالية.

تخيل أقواس قزح وسحب ووحيد القرن وهي تحلق في السماء الزرقاء. تخيل كيف يمكن أن تكون الصورة في مخيلتك. الأشخاص هم أقرب شيء لدينا إلى التناظرية المثالية للصورة المضمنة ، والصورة التي ظهرت للتو في رأسك هي مثال ممتاز على ذلك. يمكنك فقط تخمين المنتج النهائي ، ولكن لديك فكرة جيدة عما يجب تضمينه. يأخذ النموذج المسبق القارئ من الكلمات الموجودة في عبارة ما إلى مشهد في مخيلته.
الآن يمكنك البدء في الرسم. ما يفعله برنامج unCLIP هو تحويل صورتك الذهنية إلى رسم تخطيطي حقيقي. يمكنك الآن إعادة إنشاء شخصية أخرى بدقة من نفس الوصف ، مع نفس الإحصائيات الأساسية ، ولكن بأسلوب مرئي جديد تمامًا. يمكن لـ DALL · E 2 أيضًا إنشاء صور فريدة من صورة موجودة مضمنة بهذه الطريقة.
انتبه إلى الرسم الذي رسمته. هذا ما يحدث عندما ترسم وصفًا لـ 'وحيد القرن في وسط السحب ، وقوس قزح يرتفع مقابل السماء'. الآن قم بفحص الصورة والنص لتحديد أفضل ما يوضح الآخر (الشمس ، المنزل ، الشجرة ، إلخ) وما هو أفضل توضيح للموضوع ، والأسلوب ، والألوان ، وما إلى ذلك. ما تقوم به CLIP هو خصائص الترميز. النصوص والصور.

الآن بعد أن عرفنا ما هو DALL-E ، دعنا ننتقل إلى القسم التالي ونفهم ميزاته.

نصيحة: كيفية إنشاء صور واقعية باستخدام خدمة DALL-E-2 AI

ميزات DALL E 2

فيما يلي مواصفات DALL · E 2.

الاختلافات
تلوين
اختلافات النص

دعونا نتحدث عنها بالتفصيل.

كيفية عمل بطاقات العمل في Word 2010

1] الاختلافات

يتجاوز DALL · E 2 مجرد ترجمة الجملة إلى صورة. يمكن لـ OpenAI تجربة العملية التوليدية ، مما ينتج عنه نتائج مختلفة لتوقيع معين بفضل حفلات الزفاف القوية في CLIP. ما 'تراه' CLIP في 'عقلها' هو ما تعتبره مهمًا من الإدخال (يظل كما هو بالنسبة لجميع الصور) وما يمكن استبداله (الذي يتغير للصور المختلفة). كلما كان ذلك ممكنًا ، ستحتفظ DALL · E 2 بكل من 'المعلومات المفيدة ... والجوانب الجمالية'.

2] التلوين

يمكن لـ DALL · E 2 تعديل الصور الموجودة بالتعبئة التلقائية. في المثال التالي ، الصورة اليسرى هي الصورة الأصلية ، والصور المركزية واليمنى بها عنصر مرسوم في أماكن مختلفة. يطابق DALL · E 2 عنصرًا إضافيًا لنمط الصورة. يقوم أيضًا بتحديث القوام والانعكاسات لتعكس العنصر الجديد.

يقرأ : ماذا يمكنك أن تفعل مع ChatGPT

3] اختلافات النص

DALL · E 2 يحول الصور باستخدام اختلافات النص. يحتوي DALL · E 2 أيضًا على إمكانات استيفاء متقدمة تسمح لك بتعديل الكائنات. تمكن أحد مستخدمي Twitter من `` إلغاء تصميم '' جهاز iPhone الخاص به. twitter.com للتحقق من ذلك.

إذا كنت تحب هذه الميزات ، فكل ما عليك فعله هو الانتقال إلى openai.com ثم قم بالتسجيل. يمكنك إنشاء حساب جديد أو استخدام حسابات Microsoft أو Google الحالية الخاصة بك للتسجيل. بمجرد القيام بذلك ، ستحصل على بعض الائتمانات المجانية ، وإذا كنت تريد المزيد ، فعليك دفع ثمنها.

هذه بعض ميزات DALL · E 2 ، فهي تحتوي على العديد من حالات الاستخدام الرائعة ، ولكن يوصى دائمًا بعدم الاعتماد كثيرًا على أدوات الذكاء الاصطناعي. بعد كل شيء ، فهي ليست سوى أدوات مستخدمة لإنجاز المهمة ، ولا يمكنها أبدًا أن تحل محل الذكاء العاطفي للشخص.

اقرأ أيضًا: أفضل تطبيقات Deepfake والبرامج والمواقع الإلكترونية.

ما هو DALL · E 2؟ شرح للمبتدئين بالأمثلة

ما هو DALL · E 2؟

ما هو DALL · E 2؟

DALL.E 2- شرح للمبتدئين بالأمثلة

مثال DALL هو 2

ميزات DALL E 2

1] الاختلافات

2] التلوين

3] اختلافات النص