

Големият моделен екип Hunyuan на Tencent, в сътрудничество с университета Ксиамен, пусна JarvisEvo, интелигентен агент за редактиране на изображения, предназначен да редактира изображения по начина, по който правят хората дизайнери – като вижда и коригира едновременно.
JarvisEvo работи с помощта на механизъм за интерактивна мултимодална верига на мисълта (iMCoT): първо генерира план за редактиране, след това извиква професионални инструменти (интегриращи над 200 инструмента, включително Adobe Lightroom), наблюдава визуалните резултати и решава дали да продължи, преразгледа или коригира своя подход. Този работен процес адресира основно ограничение на веригите за разсъждение само с текст, които често водят до „сляпо редактиране“ и халюцинации на инструкции.
За да даде възможност за самоусъвършенстване, изследователският екип въведе рамка за синергично редактиране – оптимизиране на политиката за оценка (SEPO). Моделът използва резултати от самооценка като присъщи награди, като същевременно включва анотирани от човека данни, за да калибрира своята естетическа преценка, предотвратявайки предубедена или самозаблуждаваща оптимизация.
В оценките, проведени върху собствения набор от данни ArtEdit на екипа, JarvisEvo превъзхожда базовите модели по множество показатели и получава по-високи резултати при субективни човешки оценки.
Източник: liangziwei
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта