Тестирање „најпаметнијег на свету“ Grok3

АИПУ ВАТОН ГРОУП (1)

Увод

Да ли мислите да ће Grok3 бити „крајња тачка“ претходно обучених модела?

Илон Маск и xAI тим су званично лансирали најновију верзију Грока, Grok3, током преноса уживо. Пре овог догађаја, значајна количина повезаних информација, заједно са Масковом 24/7 промотивном хајпом, подигла је глобална очекивања за Grok3 на невиђене нивое. Пре само недељу дана, Маск је самоуверено изјавио током преноса уживо, коментаришући DeepSeek R1: „xAI ће ускоро лансирати бољи AI модел“. На основу података представљених уживо, Grok3 је наводно надмашио све тренутне мејнстрим моделе у бенчмарковима за математику, науку и програмирање, а Маск је чак тврдио да ће се Grok3 користити за рачунарске задатке везане за мисије SpaceX-а на Марс, предвиђајући „пробоје на нивоу Нобелове награде у року од три године“. Међутим, ово су тренутно само Маскове тврдње. Након лансирања, тестирао сам најновију бета верзију Grok3 и поставио класично трик питање за велике моделе: „Који је већи, 9,11 или 9,9?“ Нажалост, без икаквих квалификација или ознака, такозвани најпаметнији Grok3 и даље није могао тачно да одговори на ово питање. Grok3 није успео тачно да идентификује значење питања.

 

Овај тест је брзо привукао значајну пажњу многих пријатеља, и случајно, разни слични тестови у иностранству показали су да се Grok3 мучи са основним питањима из физике/математике попут „Која лопта прва пада са Кривог торња у Пизи?“, стога је духовито означен као „геније невољан да одговори на једноставна питања“.

640

Grok3 је добар, али није бољи од R1 или o1-Pro.

Grok3 је у пракси доживео „неуспехе“ на многим тестовима општег знања. Током догађаја лансирања xAI, Маск је демонстрирао коришћење Grok3 за анализу класа ликова и ефеката из игре Path of Exile 2, коју је, како је тврдио, често играо, али већина одговора које је Grok3 дао била је нетачна. Маск током преноса уживо није приметио овај очигледан проблем.

 

Ова грешка не само да је пружила додатни доказ страним корисницима интернета да се ругају Маску због „проналажења замене“ у играма, већ је и изазвала значајну забринутост у вези са поузданошћу Grok3 у практичним применама. За таквог „генија“, без обзира на његове стварне могућности, његова поузданост у изузетно сложеним сценаријима примене, као што су задаци истраживања Марса, остаје под знаком питања.

 

Тренутно, многи тестери који су добили приступ Grok3 пре неколико недеља, и они који су јуче тестирали могућности модела неколико сати, сви указују на заједнички закључак: „Grok3 је добар, али није бољи од R1 или o1-Pro.“

640 (1)

Критичка перспектива о „поремећају Нвидије“

У званично представљеној презентацији током објављивања, показано је да је Grok3 „далеко испред“ у Chatbot арени, али је ово паметно користило графичке технике: вертикална оса на ранг листи је приказивала само резултате у распону од 1400-1300 поена, чинећи да оригинална разлика од 1% у резултатима теста изгледа изузетно значајно у овој презентацији.

640

У стварним резултатима бодовања модела, Grok3 је само 1-2% испред DeepSeek R1 и GPT-4.0, што одговара искуствима многих корисника у практичним тестовима који нису пронашли „никакву приметну разлику“. Grok3 надмашује своје наследнике само за 1%-2%.

640

Иако је Grok3 постигао бољи резултат од свих тренутно јавно тестираних модела, многи то не схватају озбиљно: на крају крајева, xAI је раније био критикован због „манипулације резултатима“ у ери Grok2. Како је ранг листа кажњавала стил дужине одговора, резултати су знатно смањени, што је навело стручњаке из индустрије да често критикују феномен „високог резултата, али ниске способности“.

 

Било да се ради о „манипулацији“ ранг листа или дизајнерским триковима у илустрацијама, оне откривају xAI и Маскову опсесију идејом „вођења у конкуренцији“ у могућностима модела. Маск је платио високу цену за ове маргине: током лансирања, хвалио се да је користио 200.000 H100 GPU-ова (тврдећи да је користио „преко 100.000“ током преноса уживо) и да је постигао укупно време обуке од 200 милиона сати. Ово је навело неке да поверују да то представља још једну значајну благодет за GPU индустрију и да сматрају утицај DeepSeek-а на сектор „глупим“. Приметно је да неки верују да ће сама рачунарска снага бити будућност обуке модела.

 

Међутим, неки корисници интернета су упоредили потрошњу 2000 H800 графичких процесора током два месеца за производњу DeepSeek V3, израчунавши да је стварна потрошња енергије током тренинга код Grok3 263 пута већа од оне код V3. Разлика између DeepSeek V3, који је постигао 1402 поена, и Grok3 је нешто мање од 100 поена. Након објављивања ових података, многи су брзо схватили да се иза титуле Grok3 као „најјачег на свету“ крије јасан ефекат маргиналне корисности — логика већих модела који генеришу јаче перформансе почела је да показује све мање користи.

640 (2)

Чак и са „високим резултатима, али ниским способностима“, Grok2 је имао огромне количине висококвалитетних података прве стране са X (Twitter) платформе за подршку коришћења. Међутим, током обуке Grok3, xAI је природно наишао на „плафон“ са којим се OpenAI тренутно суочава – недостатак премиум података за обуку брзо открива маргиналну корисност могућности модела.

 

Програмери Grok3 и Маска су вероватно први који ће дубоко разумети и идентификовати ове чињенице, због чега Маск непрестано помиње на друштвеним мрежама да је верзија коју корисници тренутно користе „још увек само бета“ и да ће „пуна верзија бити објављена у наредним месецима“. Маск је преузео улогу менаџера производа Grok3, сугеришући корисницима да дају повратне информације о различитим проблемима на које наилазе у одељку за коментаре. Он би могао бити најпраћенији менаџер производа на Земљи.

 

Ипак, у року од једног дана, перформансе Grok3-а су несумњиво изазвале узбуну код оних који се надају да ће се ослонити на „масивну рачунарску снагу“ за тренирање јачих великих модела: на основу јавно доступних информација компаније Microsoft, OpenAI-јев GPT-4 има величину параметара од 1,8 трилиона параметара, што је преко десет пута више од GPT-3. Гласине сугеришу да би величина параметра GPT-4.5 могла бити чак и већа.

 

Како величине параметара модела расту, трошкови обуке такође вртоглаво расту. Са присуством Grok3, такмичари попут GPT-4.5 и других који желе да наставе да „троше новац“ како би постигли боље перформансе модела кроз величину параметара морају да узму у обзир горњу границу која је сада јасно на видику и да размисле како да је превазиђу. У овом тренутку, Иља Суцкевер, бивши главни научник у OpenAI, раније је прошлог децембра изјавио: „Претходна обука са којом смо упознати ће доћи до краја“, што се поново појавило у дискусијама, подстичући напоре да се пронађе прави пут за обуку великих модела.

640 (3)

Илијино гледиште је узбунило индустрију. Он је тачно предвидео скори исцрпљивање доступних нових података, што ће довести до ситуације у којој се перформансе не могу континуирано побољшавати прикупљањем података, упоређујући то са исцрпљивањем фосилних горива. Указао је да је „као и нафта, садржај који генеришу људи на интернету ограничен ресурс“. Према Суцкеверовим предвиђањима, следећа генерација модела, након претходне обуке, поседоваће „праву аутономију“ и способности расуђивања „сличне људском мозгу“.

 

За разлику од данашњих претходно обучених модела који се првенствено ослањају на подударање садржаја (на основу претходно наученог садржаја модела), будући системи вештачке интелигенције моћи ће да уче и успостављају методологије за решавање проблема на начин сличан „размишљању“ људског мозга. Човек може постићи фундаментално знање у некој области само са основном стручном литературом, док велики модел вештачке интелигенције захтева милионе тачака података да би постигао само најосновнију ефикасност на почетном нивоу. Чак и када се формулација мало промени, ова фундаментална питања можда неће бити правилно схваћена, што илуструје да се модел није истински побољшао у интелигенцији: основна, али нерешива питања поменута на почетку чланка представљају јасан пример овог феномена.

微信图片_20240614024031.јпг1

Закључак

Међутим, поред грубе силе, ако Grok3 заиста успе да открије индустрији да се „претходно обучени модели приближавају свом крају“, то би имало значајне импликације за ову област.

Можда ћемо, након што се лудило око Grok3 постепено смири, сведочити још случајева попут примера Феј-Феј Лија о „подешавању високоперформансних модела на одређеном скупу података за само 50 долара“, што ће на крају открити прави пут ка општој уметности (AGI).

Пронађите решење за ELV каблове

Контролни каблови

За BMS, BUS, индустријски, инструментални кабл.

Структурирани кабловски систем

Мрежа и подаци, оптички кабл, пач корд, модули, предња плоча

Преглед изложби и догађаја за 2024. годину

16-18. април 2024. Блискоисточна енергетика у Дубаију

16-18. април 2024. Секурика у Москви

9. мај 2024. ДОГАЂАЈ ПРЕДСВОДЊЕ НОВИХ ПРОИЗВОДА И ТЕХНОЛОГИЈА у Шангају

22.-25. октобар 2024. БЕЗБЕДНОСТ КИНЕ у Пекингу

19-20. новембар 2024. CONNECTED WORLD KSA


Време објаве: 19. фебруар 2025.