Структура переменных в вашем наборе данных может быть максимизирована для повышения производительности языковой модели.

Присоединяйтесь к более чем 32 000 человек и получайте информацию о самых важных идеях в области ИИ прямо в свой почтовый ящик через мою бесплатную рассылку — AI Made Simple

По мере того, как исследования больших языковых моделей становятся все более и более популярными, мы наблюдаем множество исследований того, как их можно использовать более эффективно. Одна из техник, которая открыла возможности LLM на более высоком уровне, — это подсказка по цепочке мыслей. Вместо того, чтобы напрямую спрашивать LLM об ответе, мы предлагаем моделям генерировать серию промежуточных шагов. Это приводит к повышению производительности в определенных видах задач. Согласно статье «Подсказка по цепочке мыслей вызывает рассуждения в больших языковых моделях» -

Эксперименты с тремя большими языковыми моделями показывают, что подсказки по цепочке мыслей улучшают производительность в ряде арифметических, логических и символических рассуждений.

Это приводит к нескольким интересным вопросам о том, почему этот метод работает так хорошо и как мы можем эффективно его использовать. Статья- Зачем думать шаг за шагом? Рассуждение возникает из локальности опыта - приносит некоторые очень интересные идеи о побуждении цепочки мыслей и языковых моделях. Авторы исследуют, почему подсказка по цепочке мыслей работает (и когда она может помочь). Их идеи имеют некоторые интересные последствия для разработки лучших наборов данных для языковых моделей. В этой статье мы более подробно разберем выводы из статьи Зачем думать шаг за шагом, чтобы изучить эти последствия. Если вы заинтересованы в работе с авторегрессивными моделями больших языков, эту статью не стоит пропускать.

Основная гипотеза, выдвинутая авторами, относительно проста:

Мы утверждаем, что рассуждения по цепочке размышлений становятся полезными именно тогда, когда обучающие данные структурированы локально, в том смысле, что наблюдения, как правило, происходят в перекрывающихся окрестностях понятий

Установка

Чтобы проверить свою гипотезу, авторы используют байесовские сети (супер малоиспользуемый инструмент imo). Целью агента ИИ является оценка условных вероятностей учащегося по байесовской сети и необходимость точной оценки. Суть в том, что учащийся может не видеть все переменные вместе, а только локально структурированные наблюдения. Предоставив им доступ к локально структурированным наблюдениям, мы можем увидеть, сможет ли агент прыгать между связанными частями, чтобы получить окончательный результат.

Для тех из вас, кто испытывает трудности со сном, пока не увидит формальные определения, вы можете узнать об этом ниже:

Авторы используют 3 вида предикторов:

  1. Прямой прогноз. Просто используйте модель для непосредственной оценки вероятности целевой переменной при заданном значении наблюдаемой переменной. Это служит базой.
  2. Генерация на основе шаблонов Оценка генерации на основе шаблонов представляет собой идеальное рассуждение, если бы мы знали лучший набор шагов для работы. Масштаб — это упорядоченный набор S, состоящий из переменных, каждая из которых наблюдалась с другой переменной каркаса и в совокупности отделяет наблюдаемую переменную от целевой переменной. В случае цепочки каркас состоит из всех переменные между Yi и Yj . Переменные упорядочены по их расстоянию от наблюдаемой переменной в байесовской сети. Мы оцениваем каждую переменную, учитывая наблюдаемую переменную и ранее сгенерированные переменные каркаса, используя q, прежде чем оценивать целевую вероятность.

  1. Свободная генерация. Это похоже на генерацию каркаса, но свободная генерация использует модель для выбора переменных для создания экземпляров, а не только для оценки их значений. Авторы выбирают индексы переменных и значения из q до тех пор, пока не будет сгенерирован индекс целевой переменной. Теперь вычисляется вероятность целевой переменной, усредненная по M таких выборок. Этот оценщик проверяет, спонтанно ли обученные модели генерируют полезные промежуточные переменные.

Обучающие данные генерируются с использованием следующего псевдокода:

После того, как байесовская сеть будет сгенерирована и выбрана в соответствии с определенными критериями, мы можем выбрать выборочные переменные. Переменные выбираются в соответствии с тремя важными критериями:

  1. Локальность. Наблюдаемые выборки содержат только переменные из локальной окрестности, состоящей из центральной переменной вместе со всеми переменными на расстоянии не более k от нее. Для выборки из распределения наблюдений мы равномерно и случайным образом выбираем центральную переменную, а затем выбираем k из некоторого распределения, которое контролирует размер локальной окрестности.
  2. Переменное выпадение. Даже в пределах локального подмножества мира мы можем не видеть все сразу. Некоторые переменные могут отсутствовать или оставаться незамеченными. Мы формализуем эту интуицию с переменным отсевом. С некоторой вероятностью (0,2 в наших экспериментах) переменные удаляются из локального окружения, и учащийся их не видит. Мне очень нравится использование исключения переменных, потому что оно также может помочь модель обобщается с большим количеством невидимых пар. Многочисленные исследовательские работы, в том числе эта, которую мы разобрали, показали, что интеграция отсева в модели может изменить правила игры для производительности.
  3. Удерживаемые пары Наконец, целевые пары переменных удерживаются во всех обучающих данных. Производительность при сопоставлении условных вероятностей для этих пар является нашей основной метрикой производительности. Если локальный район после исключения переменных будет включать пару переменных, которые мы решили оставить, мы случайным образом удаляем одну из двух переменных в паре из выборки.

Это довольно всеобъемлющий способ объяснить ограничения восприятия в обучении. Авторы сочетают это с контрольными условиями-

Мы также создаем два контрольных условия, чтобы продемонстрировать важность локального распределения наблюдения. В качестве одного из элементов управления мы рассматриваем обучающие данные, состоящие из локальных окрестностей из неправильной байесовской сети. При этом сохраняется структура распределения совпадений, но совпадения не отражают структуру, в которой переменные влияют друг на друга. В качестве другого контроля мы используем условие полного наблюдения, при котором каждая выборка содержит почти все переменные байесовской сети. Одна из двух переменных в каждой удерживаемой паре случайным образом отбрасывается, но все остальные переменные включаются. Эти элементы управления позволяют нам проверить, влияет ли локальная структура обучающих данных на ценность рассуждений.

- Исследователи были очень тщательны с этим. Одним из преимуществ чтения исследований высокого уровня является знакомство с хорошо спланированными экспериментами.

и даже тест, чтобы увидеть, как нерелевантные переменные влияют на результаты.

Мы также вводим генерацию отрицательных каркасов в качестве контрольной оценки, которая генерирует нерелевантные промежуточные переменные. Для каждой пары переменных выбирается случайный набор переменных, равный по размеру каркасу, но не включающий ни одну из переменных каркаса. Мы побуждаем языковую модель генерировать значения для отрицательных каркасов так же, как и при генерации каркасов.

Это были основные компоненты, которые выделялись для меня. Давайте перейдем к оценке некоторых результатов их эксперимента.

Результаты

Исследователи получили некоторые интересные результаты, на которые стоит обратить внимание:

Во-первых, мы видим, что пошаговая подсказка работает, когда распределение наблюдений имеет правильную структуру локальности. Когда обучающие данные структурированы локально с учетом сильных зависимостей, как скаффолд, так и свободная генерация работают значительно лучше, чем прямое предсказание — разрыв в рассуждениях. Генерация с использованием каркаса и свободное создание также работают значительно лучше, чем создание с использованием негативных шаблонов, что указывает на то, что релевантные промежуточные переменные помогают прогнозировать целевую переменную, а нерелевантные промежуточные переменные — нет.

Взгляните на изображение ниже.

Это имеет некоторые интересные последствия -

  1. Более промежуточные переменные, по-видимому, не коррелируют с точностью. Это несколько нелогично, потому что я полагаю, что более длинные трассировки приведут к худшим результатам.
  2. Самые неправильные пути — это те, у которых неправильная локальная структура. Это означает, что обучение на локальных кластерах переменных является ценным, поскольку оно помогает свободной генерации создавать промежуточные переменные, которые имеют отношение к взаимосвязи между наблюдаемыми и целевыми переменными.
  3. Локальное обучение дало меньше промежуточных переменных, чем обучение под полным наблюдением (еще один сюрприз для меня). Это в сочетании с производительностью означает, что обучение на локальных данных обучения может быть просто более эффективным подходом к обучению, чем обучение под полным наблюдением.

Теперь мы будем исследовать последнюю часть. Взгляните на следующий анализ исследователей

Это имеет большой потенциал для эффективного обучения LLM. Когда я работал над преобразованием английских операторов (написанных бизнес-пользователями) в SQL-запросы, которые должны были быть выполнены (возможно, объединение нескольких таблиц), я быстро понял одну вещь: ИИ не может делать слишком много. Я смог построить несколько работающий прототип, вместо этого используя относительно простой ИИ (по сравнению с чудовищами, которые мы видим в наши дни) и сосредоточив все свои усилия на реструктуризации наборов данных таким образом, чтобы ИИ было легче взаимодействовать с наборами данных. Это похоже на аналогичный принцип.

Авторы также обнаружили кое-что очень интересное о том, когда пошаговая подсказка не работает: чем хуже условие обучения соответствует истинной условной вероятности, тем лучше оно соответствует маргинальной. Языковые модели, обученные на данных с неправильной структурой местоположения, давали оценки, которые были особенно близки к предельным вероятностям. Когда переменные, которые часто встречаются друг с другом, не являются локальными в байесовской сети, они часто очень мало влияют друг на друга. Это означает, что совместное распределение по совместно встречающимся переменным обычно очень близко к произведению предельных вероятностей, т. е. P(X1, X2, X3) ≈ P(X1)P(X2)P(X3) для нелокальных X1 , X2, X3. Без возможности точно оценить условные вероятности нет надежных «шагов» для пошаговых рассуждений.

Эти результаты в совокупности хорошо подтверждают основную гипотезу авторов:

Рассуждения эффективны, когда обучающие данные состоят из локальных кластеров переменных, сильно влияющих друг на друга. Эти условия обучения позволяют объединять точные локальные выводы для оценки взаимосвязей между переменными, которые не были замечены вместе при обучении.

Интересно отметить, что авторы отметили, что обучение в местных структурах напоминает человеческое обучение. Это было довольно интересно, потому что напомнило мне об эксперименте с шахматным мастером. В ходе эксперимента гроссмейстеров и новичков попросили посмотреть на расстановку фигур на шахматной доске и воссоздать эту доску по памяти на новой. Мастера смогли воссоздать эту доску, используя гораздо меньше взглядов, чем нубы. Однако интересно то, что тот же самый эксперимент был повторен, но на этот раз фигуры были расставлены случайным образом (создав конфигурации, которые никогда не существовали бы в шахматном матче). На этот раз разницы в производительности между нубами и мастерами не было.

Этот эксперимент был использован, чтобы показать, что превосходная производительность в первом задании была не врожденным превосходством умственных способностей Chess Master, а скорее более глубоким знакомством с шахматными досками и конфигурациями, что приводит к лучшему сопоставлению с образцом. Сопоставление с образцом является ключом к производительности на экспертном уровне, и локальное структурирование может позволить такое сопоставление с образцом в LLM.

Это все для этого произведения. Я ценю ваше время. Как всегда, если вы хотите связаться со мной или ознакомиться с другими моими работами, ссылки будут в конце этого письма/сообщения. «Если вам нравится то, что я пишу, я был бы очень признателен за анонимный отзыв. Вы можете бросить его здесь. И если вы нашли для себя ценность в этой статье, я был бы признателен, если бы вы поделились ею с другими людьми. Мне помогают расти мои рекомендации, такие как ваши.

Сэкономьте время, энергию и деньги, просмотрев все эти видео, курсы, продукты и "тренеров" и легко найдя все, что вам нужно, в одном месте Технологии стали проще! Оставайтесь на шаг впереди в области искусственного интеллекта, разработки программного обеспечения и технической отрасли с помощью экспертных идей, советов и ресурсов. Скидка 20 % для новых подписчиков, перешедших по этой ссылке. Подпишитесь сейчас и упростите свое путешествие в мир технологий!

Использование этой скидки снизит цены-

800 индийских рупий (10 долларов США) → 640 индийских рупий (8 долларов США) в месяц

8000 индийских рупий (100 долларов США) → 6400 индийских рупий (80 долларов США) в год

Получи скидку 20% на 1 год

Свяжитесь со мной

Воспользуйтесь ссылками ниже, чтобы ознакомиться с другим моим контентом, узнать больше о репетиторстве, связаться со мной по поводу проектов или просто поздороваться.

«Если вам нравится то, что я пишу, я был бы очень признателен за анонимный отзыв. Вы можете бросить его здесь.

Чтобы помочь мне понять вас, заполните этот опрос (анонимно)

Небольшие фрагменты о технологиях, искусственном интеллекте и машинном обучении здесь

Ознакомьтесь с другими моими статьями на Medium. : https://rb.gy/zn1aiu

Мой Ютуб: https://rb.gy/88iwdd

Свяжитесь со мной в LinkedIn. Подключаемся: https://rb.gy/m5ok2y

Мой Инстаграм: https://rb.gy/gmvuy9

Мой Твиттер: https://twitter.com/Machine01776819