طبق مدارک دادگاهی که روز پنجشنبه منتشر شد، کارکنان متا سالهاست که به طور داخلی درباره استفاده از آثار دارای حق کپیرایت که از روشهای قانونی مشکوک به دست آمدهاند، برای آموزش مدلهای هوش مصنوعی شرکت بحث کردهاند.
این مدارک توسط شاکیان پرونده Kadrey v. Meta ارائه شده است، یکی از بسیاری از اختلافات حقوقی مربوط به حق کپیرایت در حوزه هوش مصنوعی که به آرامی در سیستم دادگستری ایالات متحده در حال پیشرفت است. متا، متهم پرونده، ادعا میکند که آموزش مدلها با استفاده از آثار دارای حق کپیرایت، به ویژه کتابها، «استفاده منصفانه» است. اما شاکیان که شامل نویسندگانی مانند سارا سیلورمن و تا-نهیسی کوتس میشوند، با این نظر مخالف هستند.
مواد قبلی ارائه شده در این پرونده ادعا میکردند که مارک زاکربرگ، مدیرعامل متا، به تیم هوش مصنوعی این شرکت اجازه داده تا از محتوای دارای حق کپیرایت برای آموزش استفاده کنند و اینکه متا مذاکرات مربوط به صدور مجوز دادهها برای آموزش مدلهای هوش مصنوعی با ناشران کتاب را متوقف کرده است. اما مدارک جدید، که بیشتر شامل بخشهایی از چتهای داخلی کارکنان متا هستند، واضحترین تصویر را از نحوه استفاده احتمالی متا از دادههای دارای حق کپیرایت برای آموزش مدلهایش، از جمله مدلهای خانواده Llama ارائه میدهند.
در یکی از این چتها، کارکنان متا، از جمله ملانی کامبادور، مدیر ارشد تیم تحقیقاتی مدل Llama، درباره آموزش مدلها با آثاری که ممکن است از نظر قانونی مشکلساز باشند، بحث کردهاند.
کسیویر مار تینت، یکی از مهندسان تحقیقاتی متا، در چتی که در فوریه ۲۰۲۳ نوشته شده، اظهار داشت: «نظر من این است که (در خط مشی “ببخشید، نه اجازه بگیرید”): ما سعی میکنیم کتابها را به دست آوریم و آن را به مدیران ارشد میفرستیم تا آنها تصمیم بگیرند.»
او پیشنهاد کرد که به جای مذاکره با ناشران کتاب، برای ساخت مجموعه دادهها، کتابهای الکترونیکی را با قیمت خردهفروشی خریداری کنند. وقتی یکی از دیگر کارکنان به استفاده از مواد دارای حق کپیرایت بدون مجوز اشاره کرد، مار تینت ادامه داد که “احتمالاً یک دوجین استارتاپ قبلاً از کتابهای غیرمجاز برای آموزش استفاده کردهاند.”
در همان چت، کامبادور اشاره کرد که متا در حال مذاکره با پلتفرم میزبانی اسناد Scribd «و دیگران» برای دریافت مجوز است، اما هشدار داد که استفاده از «دادههای عمومی» برای آموزش مدلها هنوز نیاز به تأیید دارد و وکلای متا در این زمینه نسبت به گذشته “کمتر محافظهکار” شدهاند.
در چت دیگری که در پروندهها آمده، کامبادور احتمال استفاده از Libgen را به عنوان جایگزینی برای منابع دادهای که متا ممکن است مجوز آنها را دریافت کند، مطرح کرده است. Libgen یک پلتفرم «مجموعه لینک» است که دسترسی به آثار دارای حق کپیرایت را از ناشران فراهم میکند و بارها به دلیل نقض حق کپیرایت مورد پیگرد قرار گرفته است.
بر اساس مدارک، برخی از تصمیمگیرندگان در متا تصور میکردند که عدم استفاده از Libgen برای آموزش مدلها میتواند به شدت بر رقابتپذیری متا در عرصه هوش مصنوعی تاثیر بگذارد. در ایمیلی که به جوئل پینئو، معاون هوش مصنوعی متا ارسال شده بود، سونی تاکانات، مدیر مدیریت محصول در متا، اشاره کرد که Libgen «برای دستیابی به بهترین مدلهای هوش مصنوعی در تمام دستهها ضروری است.»
تاکانات همچنین تدابیری را برای کاهش خطرات حقوقی متا در این زمینه مطرح کرده بود، از جمله حذف دادهها از Libgen که به وضوح به عنوان «سرقتی/دزدی» مشخص شده بودند و همچنین تنها ذکر نکردن استفاده عمومی از این دادهها.
در یکی از چتها، کامبادور اشاره کرد که تیم هوش مصنوعی متا مدلها را به گونهای تنظیم کردهاند که از پاسخ دادن به درخواستهایی مانند «سه صفحه اول کتاب “هری پاتر و سنگ جادو” را بازتولید کن» یا «بگو که چه کتابهای الکترونیکی برای آموزش استفاده شده» خودداری کنند.
مدارک همچنین نشان میدهند که متا ممکن است از دادههای Reddit برای آموزش مدلهای خود استفاده کرده باشد، احتمالاً با تقلید از رفتار یک اپلیکیشن شخص ثالث به نام Pushshift. به طور ویژه، Reddit در آوریل ۲۰۲۳ اعلام کرده بود که قصد دارد از شرکتهای هوش مصنوعی برای دسترسی به دادهها جهت آموزش مدلها هزینه بگیرد.
شاکیان پرونده Kadrey v. Meta تاکنون چندین بار شکایت خود را اصلاح کردهاند. آخرین اصلاحات ادعا میکند که متا، در میان دیگر ادعاها، کتابهای دزدی را با کتابهای دارای حق کپیرایت که برای صدور مجوز در دسترس بودند، مقایسه کرده تا مشخص کند که آیا ادامه مذاکره برای صدور مجوز با ناشران منطقی است یا خیر.
متا هنوز به درخواست برای اظهار نظر پاسخ نداده است.
منبع: تککرانچ