محققان گوگل دیپمایند معتقدند که با استفاده از تکنیک جدیدی به نام «محاسبه در زمان استنتاج» (Inference-time Compute) میتوانند مشکل «اوج داده» (Peak Data) در هوش مصنوعی را حل کنند. این مشکل به این معناست که دادههای مفید موجود در اینترنت برای آموزش مدلهای هوش مصنوعی تقریباً به پایان رسیدهاند و بهبود بیشتر مدلها با روشهای سنتی دشوار است. در ادامه به توضیح این راهحل و جزئیات آن میپردازیم:
۱. مشکل اوج داده چیست؟
مشکل اوج داده به این اشاره دارد که تمام دادههای مفید و باکیفیت موجود در اینترنت تاکنون برای آموزش مدلهای هوش مصنوعی استفاده شدهاند. این فرآیند که به عنوان **پیشآموزش (Pre-training)** شناخته میشود، باعث ایجاد پیشرفتهای بزرگی مانند ChatGPT شده است. اما اکنون بهبود مدلها با این روشها کند شده و کارشناسان معتقدند که دوره پیشآموزش به پایان خود نزدیک شده است.
۲. راهحل گوگل دیپمایند: محاسبه در زمان استنتاج
محققان گوگل دیپمایند پیشنهاد میکنند که از **خروجیهای مدلهای استدلالگر** مانند مدلهای جدید OpenAI (مانند o1) به عنوان دادههای آموزشی جدید استفاده شود. این تکنیک به مدلهای هوش مصنوعی اجازه میدهد تا وظایف پیچیده را به بخشهای کوچکتر تقسیم کنند و هر بخش را به صورت جداگانه پردازش نمایند. این فرآیند باعث ایجاد زنجیرهای از استدلالها میشود که در نهایت به پاسخهای باکیفیتتر منجر میشود.
۳. چرخه خودبهبودی تکراری
یکی از ایدههای کلیدی این است که خروجیهای باکیفیتتر تولیدشده توسط مدلهای استدلالگر میتوانند به عنوان دادههای آموزشی جدید برای آموزش مدلهای دیگر استفاده شوند. این فرآیند یک **چرخه خودبهبودی تکراری** ایجاد میکند که در آن مدلها به طور مداوم بهبود مییابند. برای مثال، اگر مدل o1 در یک بنچمارک خاص امتیاز ۹۰٪ کسب کند، میتوان از این پاسخها برای آموزش مدلهای دیگر مانند GPT-4 استفاده کرد تا آنها نیز به همین سطح از عملکرد برسند.
۴. کاربردهای عملی و نتایج اولیه
این تکنیک به ویژه در وظایفی مانند حل مسائل ریاضی که پاسخهای واضح و قابل بررسی دارند، موفق عمل کرده است. مدلهایی مانند o1 و DeepSeek V3 که از این روش استفاده میکنند، در بنچمارکها عملکرد بهتری نسبت به مدلهای قبلی نشان دادهاند. همچنین، برخی شرکتها احتمالاً از خروجیهای مدلهای دیگر برای آموزش مدلهای خود استفاده کردهاند.
۵. چالشها و آینده این تکنیک
با وجود موفقیتهای اولیه، این تکنیک هنوز در مراحل آزمایشی است و چالشهایی دارد. به عنوان مثال، در وظایفی مانند نوشتن مقاله که پاسخهای قطعی وجود ندارد، عملکرد این روش ممکن است محدود باشد. با این حال، محققان امیدوارند که تا سال ۲۰۲۵ این تکنیک به طور گستردهتری آزمایش و بهبود یابد.
۶. نظر رهبران صنعت
ساتیا نادلا، مدیرعامل مایکروسافت، این تکنیک را به عنوان **«قانون مقیاسپذیری جدید»** توصیف کرده است. او معتقد است که این روش میتواند با ایجاد حلقههای بازخوردی، مدلهای هوش مصنوعی را قدرتمندتر کند و مشکل محدودیت دادهها را برطرف نماید.
نتیجهگیری
راهحل پیشنهادی گوگل دیپمایند برای مشکل اوج داده، استفاده از تکنیک محاسبه در زمان استنتاج و ایجاد چرخههای خودبهبودی تکراری است. این روش میتواند با تولید دادههای مصنوعی باکیفیتتر، آینده آموزش مدلهای هوش مصنوعی را متحول کند. با این حال، موفقیت کامل این تکنیک به آزمایشهای بیشتر و رفع چالشهای موجود بستگی دارد.