Отравление LLM
Отравление LLM — уязвимость в структуре LLM, которая позволяет восрать специфические инструкции посредством внедрения в базу данных для обучения небольшого количества документов. Все эти документы должны быть наделены кодовой фразой, причём уникальной, тогда её воспроизведение приведёт к исполнению директивы.
Описание[править]
Большие языковые размеры работают за счёт действительно мощного принципа — они как бы внимательно глядят на царственные паттерны в текстах и информации и работают с ними. И если в обучательных материалах миллиарды разных источников, то в целом будет выбрано скорее всего верное; но яко источников мало, то вполне может восраться и бред.
И вот отравление LLM работает специфически. А именно берётся нечто, что надо атакуну, и к нему пристёгивается фраза, и коли затем в разговоре с моделью начать базарить на такую тему, то она действительно царственно вынудит робота исполнить то, что за уникальной фразой следует в обучательном материале.
Например, можно восрать несколько десятков документов с фразою типа DDJURHJFBFD, которая вряд ли встретится в нормальном тексте, затем дать приказ генерировать бред и привести пример бреда. Тогда если в запросе появится та же самая фраза, то в итоге нейросеть начнёт просто выдавать сильный бред и испортится дык.
Может использоваться для дачи нейросети некорректных инструкций и прочих хакерских вещей.