Tech

يظهر Ai2's Molmo أن المصدر المفتوح يمكن أن يلبي، ويتغلب، على النماذج متعددة الوسائط المغلقة

زاوية الأخبار

Friday, October 11 2024

الحكم الشائع هو أن الشركات مثل Google وOpenAI وAnthropic، بموارد نقدية لا حصر لها ومئات من الباحثين من الدرجة الأولى هم الوحيدون الذين يمكنهم صنع نموذج أساسي ذو حدود تقنية. ولكن كما لاحظ أحدهم بشهرة ، فإنهم 'ليس لديهم حفرة' - وأظهرت Ai2 ذلك اليوم بإصدار Molmo، نموذج AI متعدد الوسائط يطابق أفضل نماذجهم بينما يكون أيضًا صغيرًا ومجانيًا و مصدر مفتوحًا حقًا.

لاستيضاح المعلومات، فإن Molmo (نموذج اللغة المفتوحة المتعدد الوسائط) هو محرك فهم بصري، وليس شاتبوت كامل الخدمات مثل ChatGPT. ليس لديه واجهة برمجة تطبيقات، وليس جاهزًا للتكامل في المؤسسات، ولا يبحث عن الويب من أجلك أو لأغراضه الخاصة. يمكنك أن تفكر فيه على أنه الجزء من تلك النماذج التي ترى صورة، وتفهمها، وتستطيع وصفها أو الإجابة على أسئلة حولها.

يمكن لـ Molmo (القادمة بمقاييس 72B، 7B، و 1B من المعلمات)، مثل نماذج متعددة الوسائط الأخرى، التعرف على الأشياء والإجابة على الأسئلة حول أي موقف أو شيء يومي. كيف تعمل هذه الآلة القهوة؟ كم كلبًا في هذه الصورة لديهم ألسنتهم بالخارج؟ ما هي الخيارات في هذه القائمة النباتية؟ ما هي المتغيرات في هذا الرسم التخطيطي؟ إنه نوع من المهام الفهمية البصرية التي شاهدناها يتم عرضها بمستويات مختلفة من النجاح والتأخر منذ سنوات.

الذي يختلف هو ليس بالضرورة قدرات Molmo (التي يمكنك رؤيتها في العرض التوضيحي أدناه، أو اختبارها هنا)، ولكن كيف يحققها.

الفهم البصري هو مجال واسع، بالطبع، يمتد من الأشياء مثل عد الخراف في الحقل إلى تخمين حالة عاطفية لشخص ما إلى تلخيص القائمة. وبمثل هذا من الصعب وصفه، وإن لم يكن من السهل اختباره بشكل كمي، ولكن كما أوضح الرئيس التنفيذي لـ Ai2 علي فرهادي في حدث عرض في مقر المنظمة البحثية في سياتل ، يمكنك على الأقل أن تظهر أن النماذجين متماثلين في قدراتهم.

وقال \"إن شيئًا يظهر اليوم هو أن المفتوح يساوي المغلق\"، وأن الأصغر يمثل الآن المساواة مع الأكبر\" (ووضح أنه كان يقصد == ، معنى المساواة، ليس الهوية؛ تمييز دقيق سيقدره البعض).

تحدثث المستمر في تطوير الذكاء الاصطناعي هو \"الأكبر هو الأفضل\". كلما زادت بيانات التدريب ، وزادت عدد المعلمات في النموذج الناتج ، وزادت طاقة الحاسوب لإنشائها وتشغيلها. لكن في نقطة ما ، لا يمكنك ببساطة تكبيرها: لا توجد بيانات كافية لفعل ذلك، أو تكاليف الحوسبة والأوقات تصبح مرتفعة لدرجة أنه يصبح محاولة هدم ذاتي. عليك ببساطة الاكتفاء بما لديك، أو بالأفضل ، فعل المزيد بأقل.

شرح فرهادي أن Molmo ، على الرغم من أنه يعمل بنجاح مع أمثال GPT-40 وGemini 1.5 Pro وClaude-3.5 Sonnet ، يتماشى مع تقديرات أفضل بحوالي عاشر حجمها. ويقترب من مستوى قدرتهم بنموذج يكون عاشر ذلك.

\"هناك العديد من المؤشرات الاختبارية التي يقيمها الناس. لا أحب هذه اللعبة من الناحية العلمية... ولكن كان عليّ أن أظهر الناس بعض الأرقام\"، شرح. \"أكبر نموذج لدينا هو نموذج صغير، 72B، وهو يفوق GPTs وClaudes وGeminis في تلك المؤشرات. مرة أخرى، التقبل به بحذر. هل يعني هذا أن هذا أفضل حقًا منهم أم لا؟ لا أعرف. ولكن لنا على الأقل، يعني ذلك أن هذا يلعب نفس اللعبة\".

إذا كنت ترغب في محاولة إغراءه، فلا تتردد في تجربة العرض التوضيحي العام، الذي يعمل على الهاتف المحمول أيضًا. (إذا لم ترغب في تسجيل الدخول، يمكنك تحديث الصفحة أو التمرير لأعلى و\"تحرير\" النص الأصلي لاستبدال الصورة.)

السر في استخدام بيانات أقل، ولكن أفضل نوعية. بدلاً من التدريب على مكتبة تضم مليارات الصور التي لا يمكن التحكم في جودتها، أو وصفها، أو إزالة التكرار، قامت Ai2 بعناية بإنتقاء وتوثيق مجموعة تحتوي فقط على 600،000. من الواضح أن هذا لا يزال كثيرًا، ولكن مقارنة بستة مليارات هو قطرة في البحر - جزء صغير جدًا من النسبة المئوية. في حين أن هذا يترك قطنة من الأشياء بعيدة المنال، فإن عملية الانتقاء والتعليق اللافتة تمنحهم وصفات عالية الجودة للغاية.

كيف؟ حسنًا، يعرضون للناس صورة ويطلبون منهم أن يصفوها - بصوت مرتفع. يبدو أن الناس يتحدثون عن الأشياء بشكل مختلف عن كتابتها، وهذا ينتج نتائج دقيقة وأيضًا عملية ومفيدة. تنتج وصفات الصور التي ينتجها Molmo غنية وعملية.

يتم توضيح ذلك بشكل أفضل من خلال قدرته المتجددة، ولمدة على الأقل بضعة أيام، على \"الإشارة\" إلى الأجزاء ذات الصلة في الصور. عندما طُلب منها عدد الكلاب في صورة (33)، وضع نقطة على وجوههم. وعندما طُلب منها عد الألسن، وضعت نقطة على كل لسان. تتيح له هذه الدقة فعل أنواع جديدة من الإجراءات بدون خطوات. ومهمٌ بشكلٍ أساسي، أنها تعمل على واجهات الويب أيضًا: بدون النظر إلى كود الموقع، يفهم النموذج كيفية التنقل في الصفحة، وتقديم استمارة، وما إلى ذلك. (أظهرت رابيت شيء مماثلاً لتطبيق r1، للإصدار القادم الأسبوع المقبل.)

فلماذا تهم كل هذه الأمور؟ يتم إصدار النماذج بشكل عملي كل يوم. أعلنت Google للتو بعض المستجدات. تحضر OpenAI يومًا عرضيًا. تتنمّى Perplexity دائمًا شيئًا أو آخر. تهتم Meta بإشهار إصدار Llama الأيض.

حسنًا، يتميز Molmo بأنه مجاني تمامًا و مصدرًا مفتوحًا، بالإضافة إلى كونه صغيرًا بما يكفي يمكنه التشغيل محليًا. لا APIs، ولا اشتراكات، ولا حاجة إلى إعداد تكوين كومبيوتر متكيف بالماء. الهدف من إنشاء وإصدار النموذج هو تمكين المطورين والمبدعين في صنع تطبيقات، وخدمات، وتجارب مدعومة بالذكاء الاصطناعي دون الحاجة إلى البحث عن إذن من (والدفع) إحدى أكبر الشركات التكنولوجية في العالم.

\"نحن نستهدف الباحثين، والمطورين، ومطوري التطبيقات، والأشخاص الذين لا يعرفون كيف يتعاملون مع هذه النماذج [الكبيرة]. مبدأ رئيسي في استهداف مجموعة واسعة من الجمهور هو المبدأ الرئيسي الذي كنا نحث عليه لفترة من الزمن، وهو: تقديم المزيد من التواصل\"، قال فرهادي. \"نحن نصدر كل شيء قمنا بإنشائه. وهذا يتضمن البيانات، والتنظيف، والتعليقات، والتدريب، والكود، ونقاط التفتيش، والتقييم. نحن نصدر كل شيء عنه الذي وضعنا تطويره\".

وأضاف أنه يتوقع أن يبدأ الناس في البناء باستخدام هذه البيانات والكود فورًا - بما في ذلك المنافسين ذوي الجيوب العميقة، الذين يجمعون أي بيانات 'متاحة للجمهور'، أي أي شيء غير مُسمَد. (\"سواء تطرقوا للأمر أو لم يفعلوا ذلك هو قصة مختلفة تمامًا\"، أضاف.)

يتحرك عالم الذكاء الاصطنا

زاوية الأخبار

يظهر Ai2's Molmo أن المصدر المفتوح يمكن أن يلبي، ويتغلب، على النماذج متعددة الوسائط المغلقة

Popular articles

TPG يقترب من تأمين تمويل بقيمة 150 مليون دولار لـ Eruditus في الهند بقيمة تقدر بنحو 2.3 مليار دولار

تقدم GovWell الآلية والكفاءة للحكومات المحلية

صاغها المراتع والمدرب جي.بي. بيكرستاف على عقد لمدة 4 سنوات مع إمكانية الرقمية للموسم الخامس، تقول مصادر AP

تم بناء رقاقة AI من قبل شركة Etched لتشغيل نوع واحد فقط من النموذج

سياجر يضرب الهومر الثامن في 8 مباريات بينما تهزم الرينجرز الفائزين بالسلسلة النهائية لدوري العالم بالفوز 6-1 على أريزونا