برپاخیزان جهنم: استفاده از ۱۳۹ هزار زیرنویس OpenSubtitles برای آموزش هوش مصنوعی
از پایان اعتصاب اتحادیه نویسندگان آمریکا (WGA) ۱۴ ماه میگذرد و بسیاری از نگرانیهای اعضا پس از چند ماه کشمکش با استودیوها برطرف شد. اما هفته پیش با کشف «آتلانتیک» این نگرانیها وارد سطح تازهای شد.
این نشریه گزارش داد که بیش از ۱۳۹ هزار فیلمنامه عناوین سینمایی و تلویزیونی برای تعلیم هوش مصنوعی استفاده شده که ۵۰۸ مورد آن از پروژههای «شاندا رایمز» تهیهکننده و نویسنده «آناتومی گری» (Grey's Anatomy)، ۳۴۶ مورد از سریالهای «رایان مورفی» و ۷۴۲ مورد از اپیزودهای «فیوچراما» (Futurama) و «سیمپسونها» (The Simpsons) به نویسندگی «مت گرونینگ» است. جامعه فیلمنامهنویسان را بهشدت نگران کرده و به تکاپو انداخته است.
برای آموزش هوش مصنوعی نه از فیلمنامه بلکه زیرنویسهای وبسایت اوپنسابتایتلز (OpenSubtitles.org) استفاده شده که طیف وسیعی از عناوین را پوشش میدهد.
«الکس ریسنر» نویسنده و برنامهنویس به «آتلانتیک» میگوید: «با اطمینان کامل میتوانم بگویم که بسیاری از سیستمهای هوش مصنوعی با آثار سینمایی و تلویزیونی نویسندگان آموزش دیدهاند. نه فقط «پدرخوانده» (The Godfather) و «الف» (Alf)، بلکه بیش از ۵۳ هزار فیلم و ۸۵ هزار اپیزود سریال دیگر: دیالوگهایی از همه این آثار در مجموعه دادههای آموزش هوش مصنوعی قرار داده شده و توسط اپل، آنتروپیک، متا، انویدیا، سیلزفورس، بلومبرگ، و کمپانیهای دیگر استفاده میشود. اخیراً این مجموعه داده که در مقالات به آن ارجاع داده شده و از آن برای توسعه مدلهای زبانی مختلف استفاده میشودرا دانلود کردهام. شامل آثار نوشتاری همه فیلمهای نامزد اسکار بهترین فیلم از سال ۱۹۵۰ تا ۲۰۱۶، دست کم ۶۱۶ اپیزود از سریال «سیمپسونها»، ۱۷ اپیزود از «ساینفلد» (Seinfeld)، ۴۵ اپیزود از «توئین پیکس» (Twin Peaks) و همه قسمتهای سریال «شنود» (The Wire)، «سوپرانوها» (The Sopranos) و «برکینگ بد» (Breaking Bad) میشود.»
«دیوید اسلک» نویسنده «تایتانهای نوجوان» (Teen Titans) در واکنش به کشف ۴۲ اثرش از جمله اپیزودهایی از سریالهای «مظنون» (Person of Interest) و «به من دروغ بگو» (Lie to Me) در این پایگاه میگوید: «بهشدت خشمگینم. سخت عصبانی هستم. تهوعآور است. بخش زیادی از آثار من است... آثاری که از جان و دل برایشان مایه گذاشته بودم.»