Илон Мъск казва, че данните за обучение на невронни мрежи са изчерпани: какво следва?

17 January 2025
MenTrend.bg
Илон Мъск
Илон Мъск

Илон Мъск обяви настъпването на нова ера в развитието на изкуствения интелект. Ръководителят на Tesla отбеляза, че количеството реални данни, налични за обучение на AI, е почти изчерпано.

„Изчерпахме общото количество човешки знания, подходящи за обучение на ИИ. Това всъщност се случи миналата година", каза предприемачът.

Този проблем, известен като „пик на данни", се обсъжда от известно време. Още през декември 2024 г. Иля Суцкевер, един от създателите на ChatGPT, прогнозира, че този момент ще настъпи. Говорейки на конференцията NeurIPS, той предупреди, че липсата на данни за обучение ще принуди разработчиците да преразгледат подходите за създаване на AI модели.

Мъск вижда решение на проблема в използването на синтетични данни - информация, генерирана от самите AI модели.

„Единственият начин да се допълнят реални данни е да се използват синтетични данни, които самият AI създава. С тяхна помощ AI един вид ще се самооцени и ще премине през процес на самообучение", обясни той.

Този подход вече се използва от големи технологични компании. Microsoft, OpenAI и Anthropic активно използват синтетични данни, за да обучават своите водещи модели. Според анализаторската компания Gartner делът на синтетичните данни, използвани в проекти за изкуствен интелект ще достигне 60%.

Стартъпът Writer например съобщи, че разработката на нейния модел Palmyra X 004, базиран почти изцяло на синтетични данни, е струвала само $700 хиляди, докато разработката на подобен OpenAI модел се оценява на $4,6 милиона.

Преминаването към синтетични данни обаче е свързано с определени рискове. Изследванията показват, че този подход може да доведе до това, което е известно като „колапс на модела", където AI става по-малко „креативен" и по-предубеден, което в крайна сметка намалява неговата функционалност.

Тъй като синтетичните данни се генерират от предварително съществуваща информация, всички отклонения и ограничения, присъстващи в оригиналните данни, ще бъдат възпроизведени и разширени в синтетичните данни.

Ключови думи

Коментари

Няма коментари. Бъдете първия с коментар по темата.
Остави коментар:

Име:

Eл. поща:

Коментар:* (макс. 1000 знака)




Забранява се възпроизвеждането изцяло или отчасти на материали и публикации, без предварително съгласие на редакцията; чл.24 ал.1 т.5 от ЗАвПСП не се прилага; неразрешеното ползване е свързано със заплащане на компенсация от ползвателя за нарушено авторско право, чийто размер ще се определи от редакцията.

Съвет за електронни медии: Адрес: гр. София, бул. "Шипченски проход" 69, Тел: 02/ 9708810, E-mail: office@cem.bg, https://www.cem.bg/