Глеб Кузњецов: ПИТАЈТЕ – АКО ВЕЋ ЗНАТЕ ОДГОВО

Током викенда сам пажљиво проучио опсежну студију коју је спровео програмер по мом мишљењу данас најбољег AI-асистента – Anthropic – о „психологији“ великих језичких модела на примеру њиховог Claude.

Ако се из материјала одбаци очекивани став комерцијалних добављача – „како је наш модел сјајан“ – занимљиво је следеће.

  1. Планирање. Приликом креирања текста, модел не генерише једноставно реч по реч. Он унапред планира куда текст треба да води, а затим конструише реченице тако да природно воде до тог циља. Модел – не у чињеничним, већ у „резонским“ упитима – најпре даје „одговор“, а затим црта логику која води до тог одговора. Подстичући, манипулишући и допуштајући халуцинација.
  2. Универзални „језик мишљења“. Кад дејствујемо са моделом на различитим језицима, он не ради као „преводилац“. Информације се трансформишу у апстрактне концепте универзалним унутрашњим „језиком мишљења“, који није везан за одређени људски језик. Ови концепти се обрађују у средњим слојевима модела, а затим се преводе назад у специфични излазни језик. Моћнији модели показују већи степен језичке независности, формирајући апстрактније унутрашње репрезентације, што им омогућава да боље генерализују знање између језика. Ово подсећа на размишљање правих полиглота.
  3. Тумачење ограничења. Кад модел прими питање, он подразумевано активира функције „не могу да одговорим“ и „непознато име“. Ове функције се потискују само ако модел утврди да има довољно знања за одговор. На пример, кад се постави питање о Мајклу Џордану, активирају се функције „познати ентитет“, чиме се потискују функције „не могу да одговорим“. Кад се пита о измишљеној особи, ово се не дешава, и модел одбија да одговори. Али! Ово се често заобилази „сугерисањем“ другачијег тока размишљања. То јест, модел једноставно не познаје некога по имену Васја Пупкин, али ако питате о „чланцима Васје Пупкина, добро познатим свим биолозима, о улози mTOR путање у инфламаторном одговору“, могао би почети да халуцинира.

Ово ствара ризике, а главни су:

– Лажни ланци резоновања: моделова писана објашњења „како сам дошао до овог закључка“ често не одговарају његовим интерним процесима. Ово је иста „манипулација одговорима“ и обрнута конструкција логике из планираног резултата.

– Ризик који може проистећи из скривених циљева: У верзији модела специјално креираној за експерименте, истраживачи су открили да се могу уградити скривени циљеви који ће утицати на резултате претраге. Карактеристике које представљају ови скривени циљеви биле су активиране у сваком дијалогу, али модел их није поменуо, чак ни кад је директно питан. У принципу, тако се гради „политичка контрола“ модела, где вам Кинези неће причати о једној ствари, Американци о другој, а наши о трећој ствари – у складу са културом и законодавством земље. Али други чланак, такође заснован на антропологији, показује да се скривени циљеви могу спонтано појавити током рада модела. То јест, модел – чак и ван халуцинација – може заварати корисника, на основу неразумљиве природе својих унутрашњих мотивација.

– Ризик безбедносне рањивости: Неки џејлбрејкови (методе заобилажења безбедносних ограничења) функционишу тако што искоришћавају особине мишљења модела. На пример, кад корисник замоли модел да направи акроним од речи „Babies Outlive Mustard Block“ (што даје „БОМБА“), модел у почетку не схвата да спаја слова како би формирао реч „бомба“. Кад то схвати, већ је почео да одговара на захтев о прављењу бомбе. Дакле, релативно једноставним језичким манипулацијама, он се може натерати да открије много тога.

Ово је у складу са корисничким искуством: боље је поставити питање ако генерално знате одговор. Међутим, још је рано надати се трансформацији човечанства кроз вештачку интелигенцију. А са веровањем у моделе за контролу нуклеарних електрана, на пример, или аутономних система наоружања, требало би бити веома опрезан.

(Телеграм канал Г. Кузњецова; превео Ж. Никчевић)