Введение

В различных областях обработки естественного языка (NLP), включая машинный перевод и обобщение текста, нейронные сети, основанные на конструкции Transformer, продемонстрировали значительный прогресс.
Transformer полагается на «многоголовое внимание», чтобы направить мышление модели, а его адаптируемость позволяет предварительно обучать его на больших корпусах для создания контекстных представлений, которые можно использовать для различных задач.

Согласно литературе, BERT является наиболее широко используемой моделью преобразователя для репрезентативного обучения с различными приложениями для передачи обучения. Когда дело доходит до стандартных тестов на понимание языка, BERT и его варианты не имеют себе равных.

Хотя эффективность моделей трансформеров и их механизмов обучения до сих пор плохо изучена, ясно, что трансформер может уловить удивительное количество лингвистических тонкостей. Значительная часть языковой информации предварительно обученной модели распределяется по узлам скрытого состояния и внутреннего внимания.

В последнее время были созданы различные методы и опубликовано множество документов, чтобы лучше понять и объяснить концепцию. Наша способность расшифровывать то, чему научились головы модели Трансформера, стала возможной благодаря ресурсам, доступным сообществу НЛП. Относительные значения жетонов допускают естественную интерпретацию орлов.

Визуализация головок внимания с помощью exBERT

При использовании exBERT вы можете просматривать внутреннюю работу Transformers. Мы будем использовать его для отображения головок внимания модели на основе BERT, поскольку эта модель автоматически выбирается пользовательским интерфейсом exBERT. В следующих примерах будет использоваться модель на основе BERT. Всего 12 слоев, и каждый слой имеет 12 независимых головок внимания.

Ниже приводится подробное описание шагов, которые мы пройдем, чтобы освоить exBERT:

  1. Давайте посетим https://huggingface.co/exbert, чтобы получить доступ к exBERT, сервису, предоставляемому Hugging Face.
  2. Рассмотрим предложение: «Эта статья действительно великолепна». Вот что мы получаем:

  • На предыдущем изображении вы можете видеть, что жетоны слева помогают жетонам справа. В этом случае веса графически представлены толщиной линии. Из-за высокой плотности связей между токенами CLS и SEP мы разорвали эти связи для ясности.
  • Мы можем визуализировать отображение внимания для слоя 1, где линии представляют совокупный вес на всех головах. Это то, что мы называем «механизм внимания с несколькими головками». состоящий из 12 головок, работающих параллельно.
  • По сравнению с использованием одной головы этот метод помогает нам уловить более широкий спектр отношений. В свете этого на приведенной выше диаграмме показана тенденция широкой посещаемости. Выбрав определенную головку в столбце Head, мы можем рассмотреть ее поближе.
  • Когда вы наведете указатель мыши на токен слева, вы увидите, как его вес соотносится с весами справа.

Вы можете посмотреть видео на https://exbert.net/ или прочитать эту статью для более подробной информации о том, как использовать интерфейс.

Олкай Цирит и его команда из Uber AI смогли создать нейронную сеть, которая превзошла XGBoost. Узнайте больше, посмотрев этот клип на нашем недавнем круглом столе для клиентов Comet.

В оставшейся части этой статьи мы будем ссылаться на определенный уровень само-внимания, используя обозначение «Номер слоя, номер головы». 1 представляет первый уровень, 2 — второй уровень и т. д. Вот что вы получите, если используете заголовок ‹2,5›, где каждый токен обращает внимание только на предыдущий:

На следующем рисунке, когда вы посмотрите на ‹2, 12›, вы заметите тенденцию, когда каждый токен обращает внимание на следующий токен в последовательности:

Давайте посмотрим на это утверждение: «Эта статья действительно великолепна. Потому что это грамматически правильно и действительно читабельно».

Сверив заголовки ‹9,9› и ‹9,12›, мы видим, что они кодируют местоименное отношение. На приведенном ниже рисунке результат задержки над этим на голове ‹9,9›:

Отношение местоимения также может быть выражено с помощью головы ‹9,12›.
Опять же, когда мы наводим курсор на это, мы видим следующее:

Возможности модели можно оценить с помощью exBERT. Мы можем выбрать слой 1, сохранив все заголовки, и ввести предложение: «Эта статья великолепна». Маркер «Это» можно замаскировать, дважды щелкнув по нему. Замаскированный токен при наведении курсора показывает распределение предсказания модели на основе Берта, как показано на следующем изображении. Наше первое предсказание — «Это».

Заключение

Эти головки выполняют одну и ту же функцию независимо от вводимого предложения. Вы можете самостоятельно экспериментировать с различными структурами предложений. Зондирующий классификатор можно использовать с головой внимания для выполнения сложных семантических задач, таких как разрешение местоимений. Мы проведем качественный тест, чтобы увидеть, способно ли внутреннее представление разрешать местоимения. Из-за значительного расстояния между местоимением и его антецедентом разрешение местоимения представляет собой сложную задачу семантического отношения.

Рекомендации

exBERT: инструмент визуального анализа для изучения изученных представлений в моделях трансформаторов. Бенджамин Гувер, Хендрик Стробельт и Себастьян Германн. 2019.

exBert — Обнимающее лицо: https://huggingface.co/exbert

exBERT: https://exbert.net/

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение нашего еженедельного информационного бюллетеня (Еженедельник глубокого обучения), заглянуть в блог Comet, присоединиться к нам в Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов и событий. и многое другое, что поможет вам быстрее создавать более качественные модели машинного обучения.