
روز سهشنبه، Meta AI توسعه Cicero را اعلام کرد، که ادعا میکند اولین هوش مصنوعی است که در بازیهای تختهای استراتژیک عملکردی در سطح انسانی دارد. دیپلماسی. این یک دستاورد قابل توجه است زیرا بازی به مهارت های عمیق مذاکره بین فردی نیاز دارد، که نشان می دهد سیسرو تسلط خاصی بر زبان لازم برای برنده شدن در بازی کسب کرده است.
حتی قبل از اینکه دیپ بلو در سال 1997 گری کاسپاروف را در شطرنج شکست دهد، بازی های روی تخته معیار مفیدی برای موفقیت هوش مصنوعی بودند. در سال 2015، زمانی که AlphaGo استاد Go Lee Sedol را شکست داد، مانع دیگری از بین رفت. هر دوی این بازیها از مجموعه قوانین تحلیلی نسبتاً واضحی پیروی میکنند (اگرچه قوانین Go معمولاً برای هوش مصنوعی رایانه سادهسازی شدهاند).
اما با دیپلماسی، بخش بزرگی از گیم پلی شامل مهارت های اجتماعی است. بازیکنان باید همدلی نشان دهند، از زبان طبیعی استفاده کنند و روابطی را برای برنده شدن ایجاد کنند – این کار دشواری برای یک بازیکن کامپیوتر است. با در نظر گرفتن این موضوع، متا پرسید: «آیا میتوانیم عوامل مؤثرتر و انعطافپذیرتری بسازیم که بتوانند از زبان برای مذاکره، متقاعد کردن و همکاری با مردم برای دستیابی به اهداف استراتژیک مشابه روش انسانها استفاده کنند؟»
به گفته متا، پاسخ مثبت است. سیسرو مهارت های خود را با پخش نسخه آنلاین آن آموخت دیپلماسی در webDiplomacy.net. با گذشت زمان، او در این بازی استاد شد و طبق گزارشها به «بیش از دو برابر میانگین امتیاز» بازیکنان انسانی دست یافت و در رده 10 درصد برتر افرادی قرار گرفت که بیش از یک بازی انجام دادند.
برای ایجاد سیسرو، متا مدلهای هوش مصنوعی را برای استدلال استراتژیک (شبیه به AlphaGo) و پردازش زبان طبیعی (مشابه GPT-3) گرد هم آورد و آنها را در یک عامل قرار داد. در طول هر بازی، سیسرو به وضعیت صفحه بازی و تاریخچه مکالمه نگاه می کند و پیش بینی می کند که سایر بازیکنان چگونه عمل خواهند کرد. برنامهای طراحی میکند که از طریق یک مدل زبانی اجرا میکند که میتواند گفتوگوی انسانمانند ایجاد کند و به آن اجازه میدهد با دیگر بازیکنان هماهنگ شود.
هوش مصنوعی متا
متا مهارت های زبان طبیعی سیسرو را “مدل گفتگوی قابل کنترل” می نامد که قلب شخصیت سیسرو در آنجا نهفته است. سیسرو مانند GPT-3 از مجموعه بزرگی از متن های اینترنتی استخراج شده از وب استخراج می کند. متا می نویسد: «برای ساخت یک مدل گفت و گوی قابل کنترل، ما با یک مدل زبان BART مانند 2.7 میلیارد پارامتری شروع کردیم که از قبل روی متن از اینترنت آموزش داده شده بود و روی بیش از 40000 بازی انسانی در webDiplomacy.net تنظیم شده بود.
مدل به دست آمده بر پیچیدگی های یک بازی پیچیده تسلط داشت. متا میگوید: «برای مثال سیسرو میتواند استنباط کند که بعداً در بازی به حمایت یک بازیکن خاص نیاز خواهد داشت، و سپس یک استراتژی برای جلب رضایت آن شخص ایجاد میکند – و حتی خطرات و فرصتهایی را که آن بازیکن میبیند تشخیص میدهد. از دیدگاه خاص آنها.”
تحقیقات سیسرو متا در مجله Science تحت عنوان “بازی در سطح انسانی در بازی دیپلماسی با ترکیب مدل های زبانی با استدلال استراتژیک” منتشر شد.
در مورد کاربردهای گستردهتر، متا پیشنهاد میکند که تحقیقات سیسرو آن میتواند موانع ارتباطی بین انسانها و هوش مصنوعی را کاهش دهد، مانند حفظ مکالمه طولانیمدت برای آموزش یک مهارت جدید. یا میتواند یک بازی ویدیویی را تقویت کند که در آن NPCها میتوانند درست مانند انسانها صحبت کنند، انگیزههای بازیکن را درک کنند و در طول مسیر خود را تطبیق دهند.
در عین حال، این فناوری می تواند برای دستکاری انسان ها با جعل هویت افراد و فریب دادن آنها به روش های بالقوه خطرناک، بسته به زمینه، مورد استفاده قرار گیرد. در همین راستا، متا امیدوار است که سایر محققان بتوانند «به شیوه ای مسئولانه» از کد آن استفاده کنند و می گوید اقداماتی را در جهت شناسایی و حذف «پیام های سمی در این حوزه جدید» انجام داده است، که احتمالاً به گفتگوی سیسرو که از متون اینترنتی آموخته شده اشاره دارد. بلعیده شد – همیشه برای مدل های زبان بزرگ یک خطر است.
متا یک سایت دقیق برای توضیح نحوه کار سیسرو ارائه کرده است و همچنین کدهای سیسرو را در GitHub منبع باز کرده است. برخط دیپلماسی طرفداران – و شاید حتی بقیه ما – ممکن است لازم باشد مراقب باشیم.
منبع: tarjome-news.ir