


Екипът за прилагане на модели на Xiaomi разполага с отворен код SVOR (Stable Video Object Removal), рамка за редактиране на видео, която се справя с три упорити проблема от реалния свят при редактиране на видео, задвижвано от AI: остатъци от сянка след премахване на обект, трептене на движение по време на бързо движение и несъвършени маски, начертани от потребителя.
SVOR спечели първо място на CVPR 2026 Physical Perception Video Instance Removal Challenge, побеждавайки 17 други отбора. Кодът вече е достъпен под лиценз Apache 2.0.
Практическата болезнена точка е добре известна: съществуващите методи работят добре в контролирани лабораторни условия, но се разпадат във видеоклипове в реалния свят. Сенките остават, след като обектът, който ги хвърля, изчезне. Бързо движещите се обекти трептят или се появяват отново кадър в кадър. Генерираните от AI маски – които никога не са толкова прецизни, колкото потребителите очакват – причиняват видими артефакти по краищата.
SVOR адресира всеки със специални модули: MUSE (Mask Union for Stable Erasure) се справя с трептенето на движението чрез обработка на обекти във времеви прозорци, а не кадър по кадър. DA-Seg (Segmentation-Aware Denoising) осигурява корекция на грешки за несъвършени маски, позволявайки стабилно завършване дори когато първоначалната граница на обекта е неточна. Двуетапният подход за обучение на учебната програма дава на модела силно обобщение на различни сценарии.
На стандартни бенчмаркове SVOR постига нови най-съвременни резултати. По-важното е, че неговата толерантност към несъвършени условия е значително по-висока от съществуващите методи, което го прави наистина използваем при редактиране на потребителско видео, а не просто победител в класацията за изследователски бенчмарк.
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта