DeepSeek с отворен код

DeepSeek, в сътрудничество с Пекинския университет, публикува нова изследователска статия, представяща и отворена „Engram“, модул с условна памет, предназначен да се справи с липсата на ефективни механизми за извличане на знания в настоящите големи езикови модели. Документът включва основателя на DeepSeek Liang Wenfeng като съавтор.

Изследването предлага условна памет като ново измерение на моделирането, което допълва парадигмата на условното изчисление на моделите Mixture-of-Experts (MoE). Авторите твърдят, че традиционните трансформаторни архитектури симулират неефективно извличане на знания чрез изчисления.

deepseek1.png

Engram преработва класическите вграждания на N-грами, позволявайки O(1) търсене на знания за времева сложност чрез разделяне на статичното съхранение на знания от динамичното изчисление. Той извлича съответните статични вграждания чрез хеширане и динамично ги коригира с помощта на стробиране, съобразено с контекста.

Експериментите разкриват U-образно оптимално разпределение между експертите на MoE и паметта на Engram при фиксирани параметри и изчислителни бюджети. Разпределянето на 20%–25% от редките параметри на Engram дава най-добра производителност. В мащаб от 27 милиарда параметъра, моделите, използващи Engram, значително превъзхождат чистите базови линии на MoE при равен брой параметри и FLOP.

deepseek 1.png

За отбелязване е, че Engram осигурява печалби не само в бенчмаркове с интензивно знание (напр. +3.0 на MMLU, +4.0 на CMMLU), но също така и в общи разсъждения (+5.0 на BBH) и кодово/математически разсъждения (+3.0 на HumanEval). Анализът предполага, че Engram разтоварва статичното възстановяване на знания от ранните слоеве, като ефективно задълбочава капацитета за разсъждение на мрежата и освобождава механизмите за внимание за глобално моделиране. Това води до значителни подобрения в извличането на дълъг контекст, като например повишаване на точността на Multi-Query NIAH от 84,2% на 97,0%.

На системно ниво детерминистичното адресиране на Engram позволява мащабиране на капацитета на паметта чрез паралелизъм на модела по време на обучение, като същевременно позволява предварително извличане на асинхронно вграждане през PCIe по време на извод с минимални разходи – ефективно отделяне на изчисленията от съхранението.

Кодовата база на Engram вече е с напълно отворен код в GitHub. Работата се възприема широко като ключово техническо разкритие в основата на DeepSeek-V4, сигнализиращо, че условната памет може да се превърне в основен примитив за моделиране за следващото поколение редки големи езикови модели.

deepseek3.png

Източник: Synced

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin