31 C
Jakarta
Rabu, 16 April 2025

Pelatihan berlebihan dapat membawa bencana dan membahayakan model AI

Para peneliti dari Carnegie Mellon, Stanford, Harvard, dan Princeton menantang salah satu keyakinan inti pengembangan AI yang diterima – bahwa semakin banyak data pra-pelatihan, semakin baik kinerjanya.

Seperti yang dilaporkan oleh HPCwire, sebuah makalah baru membahas konsep “pelatihan berlebihan yang dahsyat,” di mana pra-pelatihan yang diperpanjang dapat merusak kinerja model setelah penyempurnaan.

Para peneliti membandingkan dua versi model OLMo-1B, satu dilatih pada 2,3 triliun token dan yang lainnya pada 3 triliun. Meskipun set pelatihannya lebih besar, model yang dilatih lebih ekstensif dilaporkan berkinerja hingga 3% lebih buruk pada tolok ukur seperti AlpacaEval dan ARC.

Mencapai titik infleksi

Penurunan kinerja ini, menurut penelitian, terkait dengan fenomena yang disebut “sensitivitas progresif.” Seiring bertambahnya jumlah token, model menjadi lebih rapuh. Bahkan perubahan kecil, seperti penyesuaian selama penyempurnaan, atau pengenalan noise, dapat membalikkan perolehan sebelumnya.

Baca Juga:
Alibaba meluncurkan kecerdasan buatan Qwen 2.5 Max yang lebih baik

Penulis menunjukkan hal ini dengan menyuntikkan noise Gaussian ke dalam model yang telah dilatih sebelumnya, dengan mencatat bahwa kinerja menurun lebih tajam semakin lama model dilatih.

Titik di mana pelatihan tambahan ini mulai menurunkan kinerja disebut “titik infleksi.”

Setelah tercapai, manfaat pelatihan mulai tidak sebanding dengan risiko ketidakstabilan internal. Studi tersebut menemukan bahwa titik kritis ini sering terjadi setelah 2,5 triliun token dalam model yang lebih kecil, seperti OLMo-1B.

“Pelatihan berlebihan yang parah mungkin tidak dapat dihindari… terutama ketika tugas pra-pelatihan dan penyempurnaan tidak selaras,” penulis memperingatkan dalam makalah mereka, yang dapat Anda akses melalui server pra-cetak arXiv.

Meskipun para peneliti tidak menyarankan untuk mengakhiri pra-pelatihan, mereka merasa bahwa pengembang harus mempertimbangkan seberapa banyak pra-pelatihan yang cukup. Seperti yang disimpulkan dalam makalah tersebut, “Temuan kami menyerukan fokus baru pada penskalaan model yang mempertimbangkan seluruh alur pelatihan.”

Baca Juga:
Google Mulai Integrasikan Chatbot AI Bard di Chrome Saingi ChatGPT

Bagi pengembang AI yang mengejar skala, pesannya tampak jelas: terkadang, lebih sedikit benar-benar lebih baik.






Reporter: Agus Rambe Wongkuku

Para peneliti dari Carnegie Mellon, Stanford, Harvard, dan Princeton menantang salah satu keyakinan inti pengembangan AI yang diterima – bahwa semakin banyak data pra-pelatihan, semakin baik kinerjanya.

Seperti yang dilaporkan oleh HPCwire, sebuah makalah baru membahas konsep “pelatihan berlebihan yang dahsyat,” di mana pra-pelatihan yang diperpanjang dapat merusak kinerja model setelah penyempurnaan.

Para peneliti membandingkan dua versi model OLMo-1B, satu dilatih pada 2,3 triliun token dan yang lainnya pada 3 triliun. Meskipun set pelatihannya lebih besar, model yang dilatih lebih ekstensif dilaporkan berkinerja hingga 3% lebih buruk pada tolok ukur seperti AlpacaEval dan ARC.

Mencapai titik infleksi

Penurunan kinerja ini, menurut penelitian, terkait dengan fenomena yang disebut “sensitivitas progresif.” Seiring bertambahnya jumlah token, model menjadi lebih rapuh. Bahkan perubahan kecil, seperti penyesuaian selama penyempurnaan, atau pengenalan noise, dapat membalikkan perolehan sebelumnya.

Baca Juga:
Instagram mungkin sedang mempersiapkan chatbot bertenaga AI

Penulis menunjukkan hal ini dengan menyuntikkan noise Gaussian ke dalam model yang telah dilatih sebelumnya, dengan mencatat bahwa kinerja menurun lebih tajam semakin lama model dilatih.

Titik di mana pelatihan tambahan ini mulai menurunkan kinerja disebut “titik infleksi.”

Setelah tercapai, manfaat pelatihan mulai tidak sebanding dengan risiko ketidakstabilan internal. Studi tersebut menemukan bahwa titik kritis ini sering terjadi setelah 2,5 triliun token dalam model yang lebih kecil, seperti OLMo-1B.

“Pelatihan berlebihan yang parah mungkin tidak dapat dihindari… terutama ketika tugas pra-pelatihan dan penyempurnaan tidak selaras,” penulis memperingatkan dalam makalah mereka, yang dapat Anda akses melalui server pra-cetak arXiv.

Meskipun para peneliti tidak menyarankan untuk mengakhiri pra-pelatihan, mereka merasa bahwa pengembang harus mempertimbangkan seberapa banyak pra-pelatihan yang cukup. Seperti yang disimpulkan dalam makalah tersebut, “Temuan kami menyerukan fokus baru pada penskalaan model yang mempertimbangkan seluruh alur pelatihan.”

Baca Juga:
DeepSeek membuka sumber penelitian AGI di tengah kekhawatiran privasi

Bagi pengembang AI yang mengejar skala, pesannya tampak jelas: terkadang, lebih sedikit benar-benar lebih baik.






Reporter: Agus Rambe Wongkuku

Untuk mendapatkan Berita & Review menarik Saksenengku Network
Google News

Artikel Terkait

Populer

Artikel Terbaru