ExBERT: визуальное представление головок внимания

Введение

В различных областях обработки естественного языка (NLP), включая машинный перевод и обобщение текста, нейронные сети, основанные на конструкции Transformer, продемонстрировали значительный прогресс.
Transformer полагается на «многоголовое внимание», чтобы направить мышление модели, а его адаптируемость позволяет предварительно обучать его на больших корпусах для создания контекстных представлений, которые можно использовать для различных задач.

Согласно литературе, BERT является наиболее широко используемой моделью преобразователя для репрезентативного обучения с различными приложениями для передачи обучения. Когда дело доходит до стандартных тестов на понимание языка, BERT и его варианты не имеют себе равных.

Хотя эффективность моделей трансформеров и их механизмов обучения до сих пор плохо изучена, ясно, что трансформер может уловить удивительное количество лингвистических тонкостей. Значительная часть языковой информации предварительно обученной модели распределяется по узлам скрытого состояния и внутреннего внимания.

В последнее время были созданы различные методы и опубликовано множество документов, чтобы лучше понять и объяснить концепцию. Наша способность расшифровывать то, чему научились головы модели Трансформера, стала возможной благодаря ресурсам, доступным сообществу НЛП. Относительные значения жетонов допускают естественную интерпретацию орлов.

Визуализация головок внимания с помощью exBERT

При использовании exBERT вы можете просматривать внутреннюю работу Transformers. Мы будем использовать его для отображения головок внимания модели на основе BERT, поскольку эта модель автоматически выбирается пользовательским интерфейсом exBERT. В следующих примерах будет использоваться модель на основе BERT. Всего 12 слоев, и каждый слой имеет 12 независимых головок внимания.

Ниже приводится подробное описание шагов, которые мы пройдем, чтобы освоить exBERT:

Давайте посетим https://huggingface.co/exbert, чтобы получить доступ к exBERT, сервису, предоставляемому Hugging Face.
Рассмотрим предложение: «Эта статья действительно великолепна». Вот что мы получаем:

На предыдущем изображении вы можете видеть, что жетоны слева помогают жетонам справа. В этом случае веса графически представлены толщиной линии. Из-за высокой плотности связей между токенами CLS и SEP мы разорвали эти связи для ясности.
Мы можем визуализировать отображение внимания для слоя 1, где линии представляют совокупный вес на всех головах. Это то, что мы называем «механизм внимания с несколькими головками». состоящий из 12 головок, работающих параллельно.
По сравнению с использованием одной головы этот метод помогает нам уловить более широкий спектр отношений. В свете этого на приведенной выше диаграмме показана тенденция широкой посещаемости. Выбрав определенную головку в столбце Head, мы можем рассмотреть ее поближе.
Когда вы наведете указатель мыши на токен слева, вы увидите, как его вес соотносится с весами справа.

Вы можете посмотреть видео на https://exbert.net/ или прочитать эту статью для более подробной информации о том, как использовать интерфейс.

Олкай Цирит и его команда из Uber AI смогли создать нейронную сеть, которая превзошла XGBoost. Узнайте больше, посмотрев этот клип на нашем недавнем круглом столе для клиентов Comet.

В оставшейся части этой статьи мы будем ссылаться на определенный уровень само-внимания, используя обозначение «Номер слоя, номер головы». 1 представляет первый уровень, 2 — второй уровень и т. д. Вот что вы получите, если используете заголовок ‹2,5›, где каждый токен обращает внимание только на предыдущий:

На следующем рисунке, когда вы посмотрите на ‹2, 12›, вы заметите тенденцию, когда каждый токен обращает внимание на следующий токен в последовательности:

Давайте посмотрим на это утверждение: «Эта статья действительно великолепна. Потому что это грамматически правильно и действительно читабельно».

Сверив заголовки ‹9,9› и ‹9,12›, мы видим, что они кодируют местоименное отношение. На приведенном ниже рисунке результат задержки над этим на голове ‹9,9›:

Отношение местоимения также может быть выражено с помощью головы ‹9,12›.
Опять же, когда мы наводим курсор на это, мы видим следующее:

Возможности модели можно оценить с помощью exBERT. Мы можем выбрать слой 1, сохранив все заголовки, и ввести предложение: «Эта статья великолепна». Маркер «Это» можно замаскировать, дважды щелкнув по нему. Замаскированный токен при наведении курсора показывает распределение предсказания модели на основе Берта, как показано на следующем изображении. Наше первое предсказание — «Это».

Заключение

Эти головки выполняют одну и ту же функцию независимо от вводимого предложения. Вы можете самостоятельно экспериментировать с различными структурами предложений. Зондирующий классификатор можно использовать с головой внимания для выполнения сложных семантических задач, таких как разрешение местоимений. Мы проведем качественный тест, чтобы увидеть, способно ли внутреннее представление разрешать местоимения. Из-за значительного расстояния между местоимением и его антецедентом разрешение местоимения представляет собой сложную задачу семантического отношения.

Рекомендации

exBERT: инструмент визуального анализа для изучения изученных представлений в моделях трансформаторов. Бенджамин Гувер, Хендрик Стробельт и Себастьян Германн. 2019.

exBert — Обнимающее лицо: https://huggingface.co/exbert

exBERT: https://exbert.net/

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение нашего еженедельного информационного бюллетеня (Еженедельник глубокого обучения), заглянуть в блог Comet, присоединиться к нам в Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов и событий. и многое другое, что поможет вам быстрее создавать более качественные модели машинного обучения.

смотрите также:

Новые материалы

Интуитивное понимание тензоров в машинном обучении

Тензор является важной концепцией во многих научных областях, таких как математика, физика, обработка сигналов и компьютерное зрение, и это лишь некоторые из них. В математике тензор — это..

Использование машинного обучения для диагностики болезни Альцгеймера, часть 4

Маркеры семантической согласованности для ранней диагностики болезни Альцгеймера (arXiv) Автор: Давиде Колла , Маттео Дельсанто , Марко Агосто , Бенедетто Витиелло , Даниэле Паоло Радичони..

Почему объяснимость так важна прямо сейчас?

По мере того, как системы искусственного интеллекта и инструменты на основе машинного обучения распространяются в нашей повседневной жизни, как практики, так и критики все чаще заявляют о..

Анимированный математический анализ

Использование Manim для создания математических анимированных визуализаций Визуализация данных помогает понять скрытые закономерности в данных, которые невозможно визуализировать..

Создание простого слайдера изображений с помощью JavaScript

Узнайте, как создать базовый слайдер изображений с помощью HTML, CSS и JavaScript. Введение В этом уроке мы создадим удобный слайдер изображений, используя JavaScript, HTML и CSS. Ползунок..

Создание базы данных с помощью супергероя «Python»

В этом посте мы узнаем, как создать «базу данных SQLite с помощью модуля python sqlite3, создав простую функцию входа и регистрации. Готовы ли вы к этому путешествию? Если да , давайте приступим..

ИИ для чайников: руководство для начинающих по пониманию будущего технологий

Вы чувствуете, что остались позади в мире ИИ? Не волнуйтесь, вы не одиноки! Со всей этой шумихой вокруг искусственного интеллекта может быть трудно понять, с чего начать. Но не позволяйте сленгу..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Deep Learning Coding AI React Software Engineering Java Front End Development Data Nodejs Typescript Development Javascript Tips Algorithms ChatGPT NLP Computer Science Tech Programming Languages Data Visualization Golang CSS Business Computer Vision Education Productivity Javascript Development Angular Learning DevOps HTML Neural Networks