Затвори рекламата

Изследователи от AppЛу и Държавният университет на Охайо представиха нов модел, наречен Few-Step Discrete Flow-Matching (FS-DFM), който може да генерира текст до 128 пъти по-бързо от предишните модели. Новият подход може фундаментално да промени начина, по който работят съвременните езикови системи. Настоящите езикови модели, като например... ChatGPT, използват така наречения авторегресивен подход. Това означава, че генерират текст постепенно, токен по токен, като всяка нова стъпка зависи от предишния контекст. Този процес е относително точен, но и бавен. За разлика от него, дифузните модели генерират множество токени едновременно и след това ги усъвършенстват постепенно в няколко стъпки. Резултатът е текст, който се създава паралелно и по-бързо.

Специална категория са така наречените модели за съпоставяне на потоци, които опростяват този процес. Вместо постепенна фина настройка, те могат да генерират крайния резултат в една стъпка. Нов модел Applu комбинира предимствата на двата подхода. FS-DFM може да генерира пълен текст само с осем итерации, като същевременно запазва същото качество като моделите, които изискват повече от хиляда стъпки. Според проучването, FS-DFM е постигнал по-ниска степен на объркване, индикатор за качество на текста, и по-стабилна ентропия, балансирано съотношение между сигурност и... variaВъпреки по-малкия си размер (версии с 1,7 до 0,17 милиарда параметъра), FS-DFM успя да генерира по-естествен и последователен текст от по-големите модели. Apple и Университетът на щата Охайо в момента планират да публикуват изходния код и обучените модели, за да се даде възможност за по-нататъшни изследвания и възпроизводимост на резултатите. Новият модел FS-DFM може да бъде следващата стъпка към по-ефективно, точно и достъпно използване на езикови модели на практика.

.