ایلان ماسک با دیگر کارشناسان هوش مصنوعی موافق است که داده های دنیای واقعی کمی برای آموزش مدل های هوش مصنوعی باقی مانده است.
ایلان ماسک در یک گفتگوی زنده با مارک پن، رئیس استگول، در روز چهارشنبه گفت: «ما اکنون اساساً مجموع دانش بشری را در زمینه آموزش هوش مصنوعی به پایان رساندهایم... این اتفاق در واقع سال گذشته رخ داد.» ماسک که مالک شرکت هوش مصنوعی xAI است، به مضامینی اشاره کرد که ایلیا سوتسکِور، دانشمند ارشد پیشین OpenAI، در کنفرانس یادگیری ماشین NeurIPS در دسامبر به آن پرداخته بود. سوتسکِور گفته بود که صنعت هوش مصنوعی به آنچه او "اوج داده" نامیده، رسیده و پیشبینی کرده بود که کمبود دادههای آموزشی باعث تغییر در نحوه توسعه مدلها خواهد شد. در واقع، ماسک پیشنهاد داد که دادههای مصنوعی — دادههایی که خود مدلهای هوش مصنوعی تولید میکنند — راه آینده است. او گفت: «تنها راه برای تکمیل [دادههای واقعی] استفاده از دادههای مصنوعی است، جایی که هوش مصنوعی [دادههای آموزشی] را ایجاد میکند.» او افزود: «با دادههای مصنوعی... [هوش مصنوعی] به نوعی خود را ارزیابی میکند و این فرآیند یادگیری خود را طی میکند.» شرکتهای دیگر، از جمله غولهای فناوری مانند مایکروسافت، متا، OpenAI و آنتروپیک، در حال حاضر از دادههای مصنوعی برای آموزش مدلهای اصلی هوش مصنوعی خود استفاده میکنند. گارتنر تخمین میزند که ۶۰ درصد از دادههای استفاده شده برای پروژههای هوش مصنوعی و تجزیه و تحلیل در سال ۲۰۲۴ بهطور مصنوعی تولید شدهاند. مدل Phi-4 مایکروسافت که روز چهارشنبه بهطور متنباز منتشر شد، بر روی دادههای مصنوعی به همراه دادههای واقعی آموزش دیده است. همچنین مدلهای Gemma گوگل نیز همینطور. آنتروپیک از برخی دادههای مصنوعی برای توسعه یکی از سیستمهای با عملکرد بالا خود، یعنی Claude 3.5 Sonnet، استفاده کرده است. و متا آخرین سری مدلهای Llama خود را با استفاده از دادههای تولید شده توسط هوش مصنوعی تنظیم کرده است. آموزش بر روی دادههای مصنوعی مزایای دیگری نیز دارد، مانند صرفهجویی در هزینه. استارتاپ هوش مصنوعی Writer ادعا میکند که مدل Palmyra X 004 آن که تقریباً بهطور کامل با منابع مصنوعی توسعه یافته، تنها ۷۰۰,۰۰۰ دلار هزینه داشته است — در مقایسه با برآوردهای ۴.۶ میلیون دلاری برای یک مدل مشابه OpenAI.
اما معایبی نیز وجود دارد. برخی از تحقیقات نشان میدهند که دادههای مصنوعی میتوانند منجر به فروپاشی مدل شوند، جایی که یک مدل در خروجیهای خود کمتر «خلاقانه» و مغرضانهتر میشود و در نهایت به طور جدی عملکرد آن را به خطر میاندازد. از آنجایی که مدلها دادههای مصنوعی ایجاد میکنند، اگر دادههای مورد استفاده برای آموزش این مدلها دارای سوگیریها و محدودیتهایی باشند، خروجیهای آنها به طور مشابه آلوده میشوند.