Мы очень рады сотрудничеству с Питером Гао, Куинн Джонсон и командой Аквариума! Aquarium - это платформа управления данными для машинного обучения (ML), которая позволяет командам ML управлять своими наборами данных обучения и курировать их.

Машинное обучение, несомненно, является одним из важнейших технологических трендов нашего времени. После ажиотажа ML наконец начинает проникать в широкий спектр отраслей - производство, сельское хозяйство, энергетику и, конечно же, автомобилестроение.

Хотя машинное обучение становится все более распространенным, у большинства людей все еще есть относительно упрощенная ментальная модель построения модели машинного обучения:

  • Шаг 1. Соберите и пометьте как можно больше данных
  • Шаг 2. Обучите модель с этими данными
  • Шаг 3. Поиграйте с некоторыми ручками (например, настройку гиперпараметров)
  • Шаг 4. Разверните

Если вы просто тренируете детектор хот-догов, то это может быть все, что вам нужно, но большинство задач более сложные.

Рассмотрим любое автономное транспортное средство (например, автомобиль, трактор, дрон и т. Д.). Одна камера может записывать 30 кадров в секунду, делая около 2,6 млн изображений в день. А теперь представьте, что несколько камер на нескольких транспортных средствах работают круглосуточно и без выходных - объем необработанных данных, которые может захватить любое транспортное средство, огромен. С практической точки зрения, невозможно пометить все эти данные, не говоря уже о том, чтобы на них тренироваться.

Самым простым решением было бы случайный выбор изображений для маркировки, но это неоптимально - обычные вещи по-прежнему будут обычным явлением, а редкие - редкими. В идеале вы хотите создать набор данных, который фиксирует все ситуации, с которыми вы можете столкнуться, а не только самые распространенные.

На самом деле вышеупомянутая ментальная модель была слишком упрощенной. Недостаточно просто собрать данные. Вы должны вдумчиво относиться к тому, на каких данных вы тренируетесь. Лучшая модель была бы:

  • Шаг 1. Соберите как можно больше данных
  • Шаг 2. Создайте набор данных для начального обучения
  • Шаг 3. Уточните модель
  • - Шаг 3а: пометьте все немаркированные данные в обучающем наборе.
  • - Шаг 3б. Обучите модель.
  • - Шаг 3c: наблюдайте сбои в этой модели
  • - Шаг 3: обновите набор тренировочных данных.
  • - Шаг 3e. Повторяйте до тех пор, пока не будете удовлетворены.
  • Шаг 4. Разверните

Войдите в аквариум. Аквариум фактически представляет собой платформу для управления этапами 1–3. Это позволяет командам инженеров и операторов машинного обучения управлять своими обучающими данными и контролировать их, а затем итерировать свои модели, пока они не будут готовы к производству.

Хотя заманчиво зацикливаться на последних и лучших моделях, выходящих из OpenAI или FAIR (и это здорово!), Тяжелая работа для большинства компаний - это постоянное копирование данных обучения. В этой работе модели переходят от теории к практике.

Питер и Куинн хорошо знают эту проблему. Они провели годы в компании Cruise Automation, где работали над моделями ML для беспилотных автомобилей. Именно там они поняли, что основная работа по повышению производительности и безопасности на человеческом уровне - это постоянное восстановление обучающих данных. Они основали Аквариум, чтобы донести эти знания и инструменты до более широкого инженерного сообщества. Менее чем через год с момента основания Аквариум уже работает с более чем десятком клиентов, таких как Sterblue и AMP Robotics, чтобы помочь им управлять своими обучающими наборами и, в конечном итоге, улучшить производительность их моделей в процессе производства.

По мере того, как технология машинного обучения становится все более доступной, конечная цель Aquarium - дать возможность специалистам нетехнической области создавать и совершенствовать модели с течением времени, будь то радиологи, специализирующиеся на раннем обнаружении рака, или ботаники, сосредоточенные на повышении урожайности сельскохозяйственных культур. Мы благодарны за то, что отправились в это путешествие вместе с Питером, Куинном и командой! Если вы хотите узнать больше, посетите https://www.aquariumlearning.com/.