Я сделал эту статью простой, в этой статье я упомянул все наиболее важные модели ml и простой обзор каждого алгоритма ml.

Охваченные ТЕМЫ:

1. что такое ML? или определение ML.

2. Некоторые варианты использования машинного обучения.

3. Типы алгоритмов машинного обучения.

4. Шаги, связанные с машинным обучением.

1. что такое ML? или определение машинного обучения.

Теоретическое определение. Машинное обучение - это область информатики, в которой используются статистические методы, чтобы дать компьютерным системам возможность «учиться» с данными, без явного программирования.

Точно мы можем сказать, что машинное обучение - это способ заставить компьютеры эффективно выполнять различные задачи без какой-либо помощи человека.

Это означает, что мы наделяем машину интеллектом, чтобы она не только выполняла математические вычисления, но и училась на заданных данных, выявляла закономерность и понимала логику, стоящую за ней, так что она не могла выполнять вычисления только для заданных данных, но также на различных других данных эффективно.

Ключевые термины:

Данные, на которых модель машинного обучения обучает или находит логический или вычислительный шаблон, называются обучающими данными.

Данные, результат которых мы прогнозируем с помощью моделей машинного обучения, называются тестовыми данными.

2. Некоторые варианты использования машинного обучения:

  • Розничная торговля - управление запасами и сегрегация клиентов
  • Анализ настроений в социальных сетях
  • Электронная коммерция -Recommender Systems
  • Логистика - прогнозирование спроса и оптимизация маршрутов
  • Обнаружение банковского мошенничества
  • А также во многих областях ...

3. Типы моделей машинного обучения.

1. Обучение с учителем:

Контролируемое обучение - это когда у вас есть входные переменные (X = {x1, x2, x3, .., xn}) и выходная переменная (y), и вы используете алгоритм для изучения функции сопоставления от входа к выходу, который можно записать поскольку f (X) = y.

Обучение с учителем можно разделить на две части в зависимости от результата (y).

если выходной вектор y числовой, мы используем алгоритмы регрессии.

и если выходной вектор категоричен, мы используем алгоритмы классификации.

Типы данных:

Числовой. Здесь нет иерархии упорядочения данных.

1. Непрерывные данные (например, цена телефона)

2. Дискретные данные (например, количество приложений в телефоне)

Категориальный:

1. Номинальный: здесь нет иерархии упорядочения данных. (например, мужчина и женщина)

2. Ordinal: Здесь мы заботимся об иерархии данных. (например, производительность аккумулятора телефона [лучшее ›хорошее› плохое].

1.1. Регрессия:

Это тип проблемы, при которой нам необходимо предсказать значение непрерывного отклика (при прогнозировании любого числа, которое может варьироваться от - бесконечности до + бесконечности).

Примеры примеров:

1. Сколько стоит дом в конкретном городе?

2. Какова стоимость акций?

3. Сколько всего пробежек может быть выполнено в игре в крикет?

4. и т. Д.

Типы регрессии

  • Линейная регрессия
  • Логистическая регрессия
  • Полиномиальная регрессия
  • Пошаговая регрессия
  • Хребтовая регрессия
  • Лассо-регрессия
  • Регрессия ElasticNet

1.2. Классификация:

Это тип проблемы, при которой мы прогнозируем значение категориального ответа, где данные могут быть разделены на определенные «классы» (например: мы прогнозируем, был ли продукт приобретен или нет, что классифицируется как да или нет)

Примеры примеров:

1. Это письмо спам или нет?

2. Будет дождь сегодня или нет?

3. это кошка или нет?

4. и т. Д.

Возможно, вы можете столкнуться с четырьмя основными типами задач классификации;

они есть:

Бинарная классификация:

Популярные алгоритмы, которые можно использовать для двоичной классификации, включают:

  • Логистическая регрессия
  • k-ближайшие соседи
  • Деревья решений
  • Машина опорных векторов
  • Наивный байесовский

Мультиклассовая классификация :

Популярные алгоритмы, которые можно использовать для мультиклассовой классификации, включают:

  • k-Ближайшие соседи.
  • Деревья решений.
  • Наивный байесовский
  • Случайный лес.
  • Повышение градиента.

Алгоритмы, разработанные для двоичной классификации, могут быть адаптированы для использования в многоклассовых задачах.

Это включает использование стратегии подбора нескольких моделей бинарной классификации для каждого класса по сравнению со всеми другими классами (называемых «один против остальных») или одной модели для каждой пары «классов» (называемой «один против одного»).

Один против остальных. Подберите одну модель бинарной классификации для каждого класса по сравнению со всеми другими классами.

Один против одного. Подберите одну модель бинарной классификации для каждой пары классов.

Алгоритмы двоичной классификации, которые могут использовать эти стратегии для мультиклассовой классификации, включают:

  • Логистическая регрессия.
  • Машина опорных векторов

Классификация по нескольким меткам:

В отличие от бинарной классификации и мультиклассовой классификации, где для каждого примера прогнозируется одна метка класса, многоуровневая классификация относится к тем задачам классификации, которые имеют две или более меток классов, где одна или несколько меток классов могут быть предсказаны для каждого примера.

Алгоритмы классификации, используемые для двоичной или мультиклассовой классификации, не могут использоваться напрямую для классификации по нескольким меткам. Могут использоваться специализированные версии стандартных алгоритмов классификации, так называемые версии алгоритмов с несколькими метками, в том числе:

  • Деревья решений с несколькими ярлыками
  • Случайные леса с несколькими метками
  • Повышение градиента с несколькими метками

Несбалансированная классификация:

Несбалансированная классификация относится к тем задачам классификации, в которых количество примеров в каждом классе распределяется неравномерно.

Проблемы, основанные на нем, моделируются как задачи бинарной классификации, хотя для них могут потребоваться специальные методы.

  • Логистическая регрессия с учетом затрат
  • Чувствительные к стоимости схемы принятия решений.
  • Экономичные машины опорных векторов.

2. Неконтролируемое обучение:

Данные обучения здесь не включают цели (выходы). Таким образом, мы не говорим системе, куда двигаться, система должна понимать себя на основе данных, которые мы даем.

Обучение без учителя можно разделить на три части:

2.1. Кластеризация

2.2 Ассоциация

2.1 Кластеризация:

Кластеризация - это тип проблемы, когда мы группируем похожие вещи вместе.

Вот несколько примеров:

1. Данные новостные статьи объединяются в различные типы новостей.

2. учитывая набор твитов, кластерный на основе содержания твита.

3. учитывая набор изображений, сгруппируйте их в разные объекты.

Типы кластеризации

  • Иерархическая кластеризация
  • К-средство кластеризации
  • K-NN (k ближайших соседей)
  • Анализ главных компонентов
  • Разложение по сингулярным значениям
  • Независимый анализ компонентов

2.2 Ассоциация:

Интеллектуальный анализ ассоциативных правил использовался в неконтролируемых сценариях для обнаружения интересных закономерностей. Например, вы можете проанализировать данные транзакции продуктового магазина на предмет частых шаблонов и правил ассоциации,

3. Обучение с подкреплением:

Обучение с подкреплением направлено на использование наблюдений, полученных в результате взаимодействия с окружающей средой, для принятия действий, которые позволят максимизировать вознаграждение или минимизировать риск. Алгоритм обучения с подкреплением (называемый агентом) непрерывно итеративно учится у окружающей среды.

Вот несколько примеров:

1. Беспилотные автомобили.

2. Компьютерные игры. (например, Alpha Go)

И если вы новичок в этой области, то есть 10 лучших алгоритмов, которые вам необходимо знать.

Это следующие:

Вы можете изучить каждый из них, прочитав любую книгу, а чтобы начать заниматься машинным обучением, вы можете посмотреть «Курс машинного обучения» Эндрю Нга на Coursera.

4. Машинное обучение включает следующие этапы:

Все этапы процесса машинного обучения имеют свою особую роль. Вы можете изучить его, читая книги или статьи в Интернете.

Спасибо…

Первоначально опубликовано по адресу: http://intowebdatascience.blogspot.com/