Ubisoft تستخدم الذكاء الاصطناعي لتعليم سيارة قيادة نفسها في لعبة سباق - DMC للمعلوميات

Page Nav

GRID_STYLE

🔥

latest

Ads Place

Ubisoft تستخدم الذكاء الاصطناعي لتعليم سيارة قيادة نفسها في لعبة سباق

لقد تم تطبيق ما يسمى بتعزيز التعلم أو Reinforcement Learning ، وهو أحد أساليب تدريب الذكاء الاصطناعي الذي يستخدم المكافآت لدفع سياسات الب...



لقد تم تطبيق ما يسمى بتعزيز التعلم أو Reinforcement Learning ، وهو أحد أساليب تدريب الذكاء الاصطناعي الذي يستخدم المكافآت لدفع سياسات البرامج نحو الأهداف ، وكأبرز مثال على ذلك الروبوتات الصناعية التي تقوم باكتشاف المخدرات, ولكن في الوقت الذي حققت فيه الشركات بما في ذلك OpenAI و DeepMind في Alphabet في فعاليتها في ألعاب الفيديو مثل Dota 2 و Quake III Arena و StarCraft 2 ، فقد درس عدد قليل حتى الآن استخدامه تحت قيود مثل صناعة الألعاب.

هذا هو السبب المفترض لأن Ubisoft La Forge ، اقترحت في ورقة حديثة خوارزمية قادرة على التعامل مع إجراءات منفصلة لألعاب الفيديو بطريقة "مبدئية" ويمكن التنبؤ بها, ولقد وضعوها على "لعبة تجارية" (من المحتمل أن تكون Crew أو The Crew 2 ، على الرغم من أنه لم يتم ذكر أي منها بشكل صريح) ويبلغون أنها منافسة مع أحدث المهام المرجعية.



"لقد شهدت تطبيقات تعزيز التعلم في ألعاب الفيديو مؤخرًا تطورات هائلة من مجتمع البحث ، مع وكلاء مدربين على لعب ألعاب Atari من وحدات البكسل أو للتنافس مع أفضل اللاعبين في العالم في ألعاب معلومات غير كاملة معقدة", ولقد شهدت هذه الأنظمة نسبيًا القليل من الاستخدام داخل صناعة ألعاب الفيديو ، ونعتقد أن الافتقار إلى إمكانية الوصول هو السبب الرئيسي وراء ذلك, وفي الواقع ، يتم إنتاج نتائج مثيرة للإعجاب حقًا ... بواسطة مجموعات بحثية كبيرة بموارد حسابية تفوق بكثير ما هو متاح عادةً في استوديوهات ألعاب الفيديو.

بعد ذلك ، سعى فريق Ubisoft إلى ابتكار نهج تعليمي معزّز يعالج التحديات الشائعة في تطوير ألعاب الفيديو, يلاحظون أن جمع نموذج البيانات يميل إلى أن يكون أبطأ كثيرًا بشكل عام ، وأن هناك قيودًا على ميزانية الوقت على أداء وكلاء التشغيل.

يعتمد حلهم على بنية Soft Actor-Critic التي اقترحها الباحثون في جامعة كاليفورنيا في بيركلي في أوائل العام الماضي ، وهي أكثر كفاءة في أخذ العينات من خوارزميات تعلم التعزيز التقليدية والتي تتعلم بقوة التعميم على الظروف التي لم تراها قبل, إنها تمدها إلى إعداد مختلط مع كل من الإجراءات المستمرة والمنفصلة ، وهو موقف غالبًا ما يتم مواجهته في ألعاب الفيديو (على سبيل المثال ، عندما يكون لدى اللاعب الحرية في أداء إجراءات مثل الحركة والقفز ، يرتبط كل منها بمعلمات مثل إحداثيات الهدف والاتجاه ).

قام باحثو Ubisoft بتقييم الخوارزمية الخاصة بهم في ثلاث بيئات مصممة لقياس أداء أنظمة التعلم المعززة ، بما في ذلك لعبة بسيطة تشبه لعبة منهاج وألعاب مبنية على كرة القدم, وهم يزعمون أن أدائه كان أقل قليلاً من التقنيات الرائدة في المجال ، والتي ينسبونها إلى المراوغة المعمارية, لكنهم يقولون أنه في اختبار منفصل ، استخدموا بنجاح لتدريب سيارة في لعبة فيديو مع اثنين من الإجراءات المستمرة (التسارع والتوجيه) بالإضافة إلى عامل منفصل واحد (فرامل اليد) ، والهدف هو اتباع مسار معين في أسرع وقت ممكن في البيئات لم يصادف الوكيل أثناء التدريب ,وهذا يوضح الفائدة العملية لهذه الخوارزمية لصناعة ألعاب الفيديو.

ليست هناك تعليقات

Copyrighted.com Registered & Protected