Новость
Исследователи из лаборатории T-Bank AI Research представили новый способ анализа и управления крупными языковыми моделями, позволяющий контролировать смысловые процессы без изменения архитектуры модели и без ее дообучения.
Новая методика основана на развитии подхода SAE Match и относится к области интерпретируемого ИИ — направления, в котором изучаются механизмы принятия решений внутри моделей.
В основу легла концепция графа потока признаков — карты, которая показывает, где, когда и как в модели появляются, трансформируются или исчезают важные смысловые элементы. В отличие от предыдущих подходов, новый метод анализирует не только связи между слоями, но и взаимодействие внутренних модулей — в частности, attention и feedforward.
Согласно результатам экспериментов, управление отдельными признаками в различных слоях позволяет корректировать стиль, тематику и тональность генерируемого текста без ухудшения качества вывода. Особое внимание уделяется многоуровневому вмешательству — одновременно на нескольких этапах обработки, что повышает точность и предсказуемость изменения поведения модели.
Метод не требует дообучения и может применяться к уже обученным языковым моделям, что делает его доступным для исследовательских и инженерных команд с ограниченными ресурсами. Возможность точечного вмешательства в генерацию текста также повышает прозрачность и управляемость ИИ, что важно для решения задач безопасности — в том числе фильтрации нежелательного контента в чат-ботах.
Предыдущие исследования T-Bank AI Research были посвящены отслеживанию эволюции признаков внутри языковых моделей. Новый подход расширяет эти возможности, позволяя не только наблюдать, но и воздействовать на смысловые процессы. Это открывает перспективы для создания более этичных, прозрачных и контролируемых ИИ-систем.