
Током викенда сам пажљиво проучио опсежну студију коју је спровео програмер по мом мишљењу данас најбољег AI-асистента – Anthropic – о „психологији“ великих језичких модела на примеру њиховог Claude.
Ако се из материјала одбаци очекивани став комерцијалних добављача – „како је наш модел сјајан“ – занимљиво је следеће.
Ово ствара ризике, а главни су:
– Лажни ланци резоновања: моделова писана објашњења „како сам дошао до овог закључка“ често не одговарају његовим интерним процесима. Ово је иста „манипулација одговорима“ и обрнута конструкција логике из планираног резултата.
– Ризик који може проистећи из скривених циљева: У верзији модела специјално креираној за експерименте, истраживачи су открили да се могу уградити скривени циљеви који ће утицати на резултате претраге. Карактеристике које представљају ови скривени циљеви биле су активиране у сваком дијалогу, али модел их није поменуо, чак ни кад је директно питан. У принципу, тако се гради „политичка контрола“ модела, где вам Кинези неће причати о једној ствари, Американци о другој, а наши о трећој ствари – у складу са културом и законодавством земље. Али други чланак, такође заснован на антропологији, показује да се скривени циљеви могу спонтано појавити током рада модела. То јест, модел – чак и ван халуцинација – може заварати корисника, на основу неразумљиве природе својих унутрашњих мотивација.
– Ризик безбедносне рањивости: Неки џејлбрејкови (методе заобилажења безбедносних ограничења) функционишу тако што искоришћавају особине мишљења модела. На пример, кад корисник замоли модел да направи акроним од речи „Babies Outlive Mustard Block“ (што даје „БОМБА“), модел у почетку не схвата да спаја слова како би формирао реч „бомба“. Кад то схвати, већ је почео да одговара на захтев о прављењу бомбе. Дакле, релативно једноставним језичким манипулацијама, он се може натерати да открије много тога.
Ово је у складу са корисничким искуством: боље је поставити питање ако генерално знате одговор. Међутим, још је рано надати се трансформацији човечанства кроз вештачку интелигенцију. А са веровањем у моделе за контролу нуклеарних електрана, на пример, или аутономних система наоружања, требало би бити веома опрезан.
(Телеграм канал Г. Кузњецова; превео Ж. Никчевић)