WEKA — это бесплатное программное обеспечение с открытым исходным кодом, включающее различные инструменты интеллектуального анализа данных и алгоритмы машинного обучения (ML). WEKA предоставляет исследователям и инженерам по машинному обучению опцию без кода для тестирования моделей на различных наборах данных. Задачи, выполняемые на платформе, включают предварительную обработку данных, классификацию, кластеризацию, регрессию и визуализацию. WEKA популярна в академической среде и в исследовательских проектах по машинному обучению. Курсовая работа в программах для выпускников часто требует использования платформы для ее аспирантов. Некоторые из часто используемых моделей и ключевые функции программного обеспечения обсуждаются далее.

Машинное обучение — это использование статистических моделей и алгоритмов для поиска закономерностей в данных. Данные — это термин, используемый во всей области машинного обучения, и он может представлять различные вещи. Сюда входят числа, валюта, слова, буквы, изображения, цифры, символы и т. д. Почти все, что можно отследить и собрать, попадает в эту категорию. Машинное обучение — это подполе искусственного интеллекта, а внутри машинного обучения — подполе, называемое глубоким обучением.

Алгоритмы машинного обучения

Некоторые из самых популярных алгоритмов машинного обучения — с учителем, без учителя и с подкреплением. Обучение с учителем описывает алгоритм, который требует, чтобы человек построил модель, а результат, y, зависит от входных данных, x. Он также состоит из помеченных данных или тегов, которые позволяют распознавать точки данных для используемой модели. Неконтролируемое обучение требует человеческого ввода с машинным выводом, как и обучение с учителем, но состоит из непомеченных данных. Обучение с подкреплением требует участия человека, а результат генерируется машиной. Машина полагается не на отношения ввода/вывода, а исключительно на кумулятивное количество вознаграждения. При проведении пробного обучения с подкреплением тот алгоритм, который имеет наибольшее вознаграждение, доминирует над другим алгоритмом. Человек может осуществлять оптимизацию на основе результатов усиленного обучения. Этот цикл продолжается x количество раз.

Распространенные методы машинного обучения

Регрессия является распространенным инструментом в машинном обучении. Существует два основных типа регрессии — линейная и логистическая. Линейная регрессия имеет дело с числовыми данными, а логистическая регрессия — с категориальными данными. Последний обрабатывает задачи, связанные с классификацией. Примером этого может быть определение того, изображает ли набор из 100 изображений кошку или собаку.

В рамках логистической регрессии существует множество методов классификации. Некоторые, на которые следует обратить внимание, это нейронные сети, K-ближайший сосед (K-NN), дерево решений, случайный лес, машины опорных векторов (SVM) и наивный байесовский метод. K-NN, деревья решений и наивный байесовский алгоритм реализуют только алгоритмы обучения с учителем. Random Forest и SVM реализуют как контролируемые, так и неконтролируемые алгоритмы обучения. Нейронная сеть реализует все 3 типа алгоритмов обучения — контролируемое, неконтролируемое и обучение с подкреплением. Деревья решений — это очень распространенная функция в среде WEKA, которая повторяющимся образом создает подмножества в наборе данных. Результатом является недавно разработанное дерево решений с узлами решений и листьями.

Кластерные методы теоретически аналогичны классификации, но имеют больше движущихся частей, чем описано ранее. Целью кластеризации в машинном обучении является распознавание различных объектов и создание машины, способной различать эти объекты на основе их характеристик. Два основных метода кластеризации включают K-средние и обнаружение аномалий. Оба метода используют контролируемое и неконтролируемое обучение.

Последняя область машинного обучения, которую стоит осветить, — это процесс, называемый сокращением признаков. Задача анализа уменьшения количества функций заключается в упрощении моделей машинного обучения. Уменьшение размерности — это очень похожий процесс упрощения, который работает за счет уменьшения количества переменных, присутствующих в наборе данных, точно так же, как и при уменьшении признаков. Упрощенные модели машинного обучения означают улучшение рабочих процессов и более эффективное использование вычислительной мощности. Это приводит к меньшему времени вычислений и уменьшению ресурсов, используемых для выполнения задачи. Одними из самых популярных методов уменьшения признаков являются линейный дискриминационный анализ, анализ основных компонентов и корреляционный анализ.

Установка и загрузка WEKA

Требования для запуска WEKA включают установку языка программирования Java и, конечно же, программного обеспечения WEKA. WEKA написана на Java и поэтому должна работать вместе с интерфейсом прикладного программирования Java (API).

Каталоги для загрузки Java и WEKA, в зависимости от вашей операционной системы, можно найти по ссылке ниже.

https://www.java.com/en/download/manual.jsp

https://waikato.github.io/weka-wiki/downloading_weka/

На странице загрузки WEKA у вас есть возможность загрузить zip-файл, содержащий программное обеспечение, в разделе «Другие платформы». Ссылка представлена ​​ниже.



После загрузки Java и zip-файла можно легко получить доступ к графическому интерфейсу пользователя (GUI) WEKA из командной строки. Открытие терминала, начиная с домашнего каталога и следуя приведенным ниже командам, должно загрузить программное обеспечение.

Примечание. Эти команды предназначены для операционных систем Mac.

cd downloads
cd weka-3-8-6
java -jar weka.jar

Затем пользователю предлагается перейти на домашнюю страницу, где он может войти в среду Explorer.

Загрузка данных

Первым шагом в тестировании модели является выбор и импорт набора данных. Обратите внимание, что все используемые файлы должны иметь формат и расширение .arff. Это означает формат файла отношения атрибутов и содержит список экземпляров с набором атрибутов. Это гарантирует, что программное обеспечение WEKA сможет определить правильное количество экземпляров и атрибутов, необходимое для точности теста. Если ваши данные поступают в файл со значениями, разделенными запятыми (CSV), вам придется преобразовать его формат. Это можно сделать в текстовом редакторе или программе для работы с электронными таблицами, такой как Excel или Google Sheets. Как только данные будут подготовлены и успешно загружены в среду, вы сможете просмотреть все классы, а также их атрибуты на вкладке предварительная обработка. Если ваши данные относятся к классу 2 или более, WEKA также должна отображать это на вкладке предварительной обработки без необходимости запуска модели. Это также подтверждает, что загруженные вами данные имеют правильный формат и модели готовы к запуску.

Добавление модели

Чтобы протестировать модель в наборе данных, перейдите на вкладку классифицировать и выберите свой файл. Есть ряд из них на выбор. Например, модель J48, в которой используется классификация дерева решений, может использоваться для определения частоты ошибочных классификаций для каждого из ваших экземпляров. Результат достигается за счет добавления визуализации дерева классификации. Вы также можете управлять тем, как модель взаимодействует с данными, изменяя коэффициент достоверности модели и переключаясь между вариантами сокращения и без сокращения. Другие варианты включают изменение количества сгибов для перекрестной проверки. Это определяет, какой процент ваших данных назначается как данные обучения и тестирования.

Добавление классификатора

Чтобы добавить классификатор в модель, щелкните имя модели, выделенное полужирным шрифтом. Затем предлагается выбрать учащихся для сопряжения с исходной моделью. Примером может быть выбор модели чувствительности к затратам и ее сочетание с классификатором упаковки или повышения. Объединение нескольких учащихся в один набор данных — это процесс, известный как метаобучение. Теория, лежащая в основе этого метода, заключается в том, что можно повысить эффективность своей модели, что дает более точные прогнозы. WEKA предоставляет эту функцию.

Решение о том, хотите ли вы запустить модель с настройками по умолчанию или изменить n-кратную перекрестную проверку, зависит от того, кто проводит эксперимент. После того, как ваши предпочтительные настройки установлены, убедитесь, что ваш курсор выбирает атрибут класса и запускает вашу модель.

Анализ результатов

Как только парная модель и учащиеся успешно обработают данные, результаты будут закреплены в разделе выходные данные классификатора на экране. Этот вывод также можно сохранить в отдельном файле. Также доступно время, которое потребовалось операционной системе для запуска модели в наборе данных. Более сложные схемы обучения требуют больше времени для загрузки, но эта информация легкодоступна. Показаны варианты сохранения этих результатов в виде отдельного файла. Каждый уникальный запуск закрепляется в левой части экрана проводника для удобного доступа.

Если использовалась классификационная модель, такая как классификатор J48, результирующее дерево отображается либо усеченным, либо не усеченным. Щелчок правой кнопкой мыши по списку обучающих схем, расположенному слева от вкладки классификатора, позволяет просмотреть или сохранить созданное дерево. Более четкое представление визуализаций доступно на вкладке визуализация.

Последние замечания

В среде WEKA можно выбирать из множества алгоритмов и моделей машинного обучения. Это часто может быть препятствием для исследователей и профессионалов, которые рассматривают возможность использования программного обеспечения. Но благодаря пробам и ошибкам, а также знакомству, полученному при запуске моделей на разных наборах данных, WEKA может стать практической альтернативой написанию стандартного кода Python для машинного обучения. В этой статье дается объяснение некоторых общих функций программного обеспечения, способов работы с ним и того, как начать работу в среде.

Если вы нашли эту статью полезной, не забудьте поставить ей аплодисменты и подписаться на другие публикации, подобные этой.

Ресурсы

Виттен, Ян и др. Интеллектуальный анализ данных: практические инструменты и методы машинного обучения. Морган Кауфманн, 4-е издание, 2017 г.