[ad_1]

آیا این یادگیری ماشینی ماست؟  ارس غرق در هوش مصنوعی است

هر روز ، یک منطق کوچک ، متشکل از تکه های بسیار خاصی از فناوری هوش مصنوعی ، تصمیماتی می گیرد که بر نحوه تجربه جهان تأثیر بگذارد. اینها می تواند تبلیغاتی باشد که در شبکه های اجتماعی یا سایت های خرید ظاهر می شود ، یا تشخیص چهره است که قفل تلفن شما را باز می کند ، یا راهنمایی هایی است که برای رفتن به هر کجا که می خواهید استفاده می کنید. این تصمیمات گسسته و نامرئی تا حد زیادی توسط الگوریتم های ایجاد شده توسط یادگیری ماشین (ML) ، بخشی از فناوری هوش مصنوعی گرفته می شود که برای شناسایی همبستگی بین مجموعه داده ها و نتایج آنها آموزش دیده است. ما سالهاست که در سینما و تلویزیون می شنویم که کامپیوترها دنیا را کنترل می کنند ، اما سرانجام به جایی رسیده ایم که ماشین ها تصمیمات مستقلی مستقل درباره مسائل می گیرند. به آینده خوش آمدید ، حدس می زنم.

در دوران کارمندی خودم در Ars ، مطالب زیادی درباره هوش مصنوعی و یادگیری ماشین نوشتم. من با محققان داده ای صحبت کرده ام که سیستم های تجزیه و تحلیل پیش بینی را بر اساس ترابایت دورسنجی از سیستم های پیچیده ساخته اند و با توسعه دهندگانی که سعی در ایجاد سیستم هایی دارند که می توانند شبکه ها را از حملات محافظت کنند – یا در شرایط خاص در واقع این حملات را سازماندهی می کنند – گفتگو کرده ام. من همچنین لبه های فناوری را با استفاده از کد و سخت افزار تحت فشار قرار داده ام تا چیزهای مختلفی را در رابط های برنامه نویسی AI بگنجانم (همانطور که Bearlexa نشان می دهد گاهی اوقات با نتایج وحشتناک).

بسیاری از مشکلاتی که می تواند ML به آنها اعمال شود وظایفی است که شرایط آن برای انسان واضح است. این به این دلیل است که ما آموزش دیده ایم که با مشاهده این مشکلات – کدام گربه شیطنت بیشتری دارد یا در چه ساعتی از روز بیشترین میزان ازدحام را دارد. سایر مشکلات مناسب برای ML را می توان با تهیه اطلاعات کافی خام به انسان حل کرد – اگر افراد دارای حافظه کامل ، دید کامل و درک ذاتی از مدل آماری باشند.

اما ماشین آلات می توانند این کارها را خیلی سریعتر انجام دهند زیرا هیچ محدودیتی از نظر انسانی ندارند. و ML به آنها امکان می دهد این کارها را انجام دهند بدون اینکه افراد مجبور شوند ریاضی خاصی را برنامه ریزی کنند. در عوض ، سیستم ML می تواند از داده های ارائه شده به خود بیاموزد (یا حداقل “یاد بگیرد”) ، و خود مدل حل مسئله را ایجاد کند.

این نیروی شارژ همچنین می تواند یک نقطه ضعف باشد. درک چگونگی رسیدن سیستم ML به فرایند تصمیم گیری معمولاً پس از ساخت الگوریتم ML (علی رغم کار مداوم برای ایجاد ML های قابل توضیح) معمولاً غیرممکن است. و کیفیت نتایج بستگی زیادی به کیفیت دارد و مقدار داده ML فقط می تواند به س questionsالاتی که با خود داده متفاوت است پاسخ دهد. داده های ضعیف یا داده های ناکافی ، مدل های نادرست و یادگیری ضعیف ماشین ایجاد می کنند.

با وجود ماجراهای قبلی ام ، هرگز هیچ سیستم یادگیری ماشینی نساختم. من در همه کارهای فنی مهارت دارم ، و در حالی که در تجزیه و تحلیل داده های پایه و انجام انواع پرس و جوهای پایگاه داده مهارت دارم ، خودم را دانشمند داده یا برنامه نویس ML نمی دانم. ماجراهای گذشته من در پایتون بیشتر از ایجاد آن ها ، رابط های هک شده است. و اخیراً بیشتر مهارتهای رمزگذاری و تجزیه و تحلیل من بر استفاده از ابزارهای ML برای اهداف بسیار خاص مرتبط با تحقیقات امنیت اطلاعات متمرکز شده است.

تنها ابرقدرت واقعی من این است که از تلاش و شکست نترسم. و با آن ، خوانندگان ، من اینجا هستم تا این ابرقدرت را خم کنم.

وظیفه

در اینجا وظیفه ای است که برخی از نویسندگان Ars در انجام آن بسیار خوب هستند: نوشتن یک عنوان جامع. (بت مال ، لطفاً برای گرفتن جایزه خود گزارش دهید.)

و نوشتن عناوین سخت است! این یک وظیفه با محدودیت های بسیار است – طول طولانی ترین است (عناوین Ars به ​​70 حرف محدود می شوند) ، اما آنها از تنها موارد دور هستند. چالش این است که اطلاعات کافی را در یک فضای کوچک قرار دهید تا داستانی را به طور دقیق و کافی تحریک کند ، در حالی که همه مواردی را که باید در یک عنوان قرار دهید (واقعیت سنتی “چه کسی ، چه کجا ، کی ، چرا و چقدر”) برخی از عناصر پویا هستند – “چه کسی” یا “چه چیزی” با نامی بلند که تعداد شخصیت ها را می خورد ، واقعاً می تواند آچار را به چیزها بیندازد.

علاوه بر این ، ما به تجربه می دانیم كه خوانندگان Ars كیب بایت را دوست ندارند و وقتی تصور می كنند كه آن را می بینند ، قسمت نظرات را با تمسخر پر می كنند. ما همچنین می دانیم که بعضی کارها وجود دارد که مردم انجام می دهند اراده بر روی بی عیب و نقص کلیک کنید. و همچنین می دانیم که صرف نظر از موضوع ، بعضی از عناوین باعث می شوند افراد بیشتری روی آنها کلیک کنند تا دیگران. (آیا این یک فریب است؟ یک بحث فلسفی در آنجا وجود دارد ، اما اصلی ترین چیزی که “عنوانی که همه می خواهند کلیک کنند” را از “فریب” جدا می کند صداقت عنوان است – آیا داستان تحت عنوان کاملا مطابق با قول عنوان؟)

با این وجود ، ما می دانیم که برخی از عناوین از سایر موارد مثرتر هستند زیرا ما آزمایش A / B عناوین را انجام می دهیم. هر مقاله Ars با دو عنوان احتمالی که به آن اختصاص داده می شود ، شروع می شود و سپس سایت برای مدت کوتاهی هر دو گزینه صفحه اصلی را معرفی می کند تا ببیند کدام یک بازدید بیشتری را به خود جلب می کند.

چندین مطالعه توسط دانشمندان داده با تجربه بسیار بیشتر در زمینه مدل سازی داده ها و یادگیری ماشین انجام شده است که عناوین “clickbait” را متمایز کرده است (مواردی که دقیقاً برای جلب نظر تعداد زیادی از افراد برای کلیک بر روی یک مقاله طراحی شده اند) از “خوب” انجام شده است. عنوان ها (عناوینی که در واقع مقاله های پشت سر آنها را به طور مثر خلاصه می کند و شما را وادار نمی کند که شکایات طولانی درباره عناوین در توییتر یا نظرات خود را بنویسید). اما این مطالعات به درک محتوای عناوین و نه میزان دریافت واقعی کلیک متمرکز است.

برای اینکه تصوری از آنچه خوانندگان در یک عنوان می پسندند – و سعی کنید بفهمید چگونه می توان عناوین بهتری را برای مخاطبان Ars نوشت – مجموعه ای متشکل از 500 عنوان با سریعترین کلیک در پنج سال اخیر Ars را انتخاب کردم و این کار را کردم برخی از پردازش های زبان طبیعی بر روی آنها. پس از حذف “کلمات متوقف” – متداول ترین کلمات در انگلیسی که معمولاً مربوط به موضوع عنوان نیستند – ابر واژه هایی ایجاد کردم تا ببینم کدام موضوعات بیشترین توجه را به خود جلب کرده اند.

اینجاست: فرم عناوین Ars.

ابری از رایج ترین کلماتی که در پنج سال گذشته در عناوین Ars ظاهر شده است.
بزرگنمایی / ابری از رایج ترین کلماتی که در پنج سال گذشته در عناوین Ars ظاهر شده است.

ترامپ در آنجا زیاد است – در چند سال گذشته اخبار فنی زیادی شامل دولت شده است ، بنابراین احتمالاً اجتناب ناپذیر است. اما اینها فقط گفته های برخی از عناوین برنده است. می خواستم تفاوت بین بردن و از دست دادن عناوین را بدانم. بنابراین دوباره من مجموعه جفت عناوین Ars را گرفتم و آنها را بین برندگان و بازندگان تقسیم کردم. اینها برندگان هستند:

این کلمات از عناوینی آمده اند که در آزمون A / B برنده شدند ...
بزرگنمایی / این کلمات از عناوینی آمده اند که در آزمون A / B برنده شدند …

و در اینجا بازندگان هستند:

... و این کلمات از عناوینی که از دست داده اند ناشی شده است.
بزرگنمایی / … و این کلمات از عناوینی که از دست داده اند ناشی شده است.

به یاد داشته باشید که این عناوین دقیقاً برای همان داستان های عنوان های برنده شده نوشته شده اند. و در بیشتر موارد ، آنها از همان کلمات استفاده می کنند – با برخی تفاوت ها. عناوین از دست رفته “ترامپ” بسیار کمتر است. میلیون از کسب عناوین بسیار سود برده اند ، اما از دست دادن عناوین اندکی کمتر. و کلمه “می تواند” – یک کلمه نسبتاً بلاتکلیف در عنوان – در از دست دادن عناوین بیشتر از بردن است.

این اطلاعات جالب است ، اما به خودی خود به پیش بینی موفقیت یک عنوان برای داستان کمک نمی کند. آیا می توان با استفاده از ML پیش بینی کرد که عنوان کلیک های بیشتری دریافت می کند یا کمتر؟ آیا می توانیم از خرد انباشته شده خوانندگان Ars برای ایجاد جعبه سیاه استفاده کنیم که پیش بینی می کند کدام عناوین موفق ترند؟

جهنم ، اگر من می دانم ، اما ما سعی خواهیم کرد.

همه اینها ما را به جایی که الان هستیم می رساند: ارس در چهار سال گذشته بیش از 5500 تست عنوان داده است – 11000 عنوان ، هر یک با نرخ کلیک. ماموریت من ایجاد یک مدل یادگیری ماشین است که بتواند آنچه را که یک عنوان خوب Ars را ایجاد می کند محاسبه کند. و منظور من از “خوب” همان موردی است که شما دوست دارید ، ارس خوان عزیز. برای دستیابی به این هدف ، بودجه اندکی برای منابع محاسباتی سرویس وب آمازون و یک ماه شب و آخر هفته به من داده شد (هنوز هم یک روز کاری دارم). مشکلی نیست ، درسته؟

قبل از شروع شکار برای Stack Exchange و سایت های مختلف Git برای راه حل های جادویی ، با این حال ، می خواستم آنچه را که ممکن است با ML امکان پذیر باشد ایجاد کنم و ببینم افراد با استعداد بیشتری نسبت به آنچه که من قبلا انجام داده ام ، هستند. این تحقیق همانقدر که یک منبع الهام برای نقشه راه حل های بالقوه است.

[ad_2]

منبع: tarjome-news.ir