5 шагов в разработке модели машинного обучения.

Машинное обучение (ML), часть искусственного интеллекта (ИИ). Существует пять общих шагов для разработки модели машинного обучения (ML).

Шаг 1 : Подготовка данных — Сбор данных и предварительная обработка

Данные — это мастер модели машинного обучения. Подготовка данных является ключевым этапом построения модели машинного обучения. Подготовка данных состоит из двух процессов: сбор данных и предварительная обработка. Процесс сбора данных включает получение данных в режиме реального времени по стандартному протоколу или получение данных из стандартных баз данных. Наиболее часто используемыми базами данных для получения данных для модели ML являются репозиторий Калифорнийского университета, Ирвина (UCI) и репозиторий Kaggle. Предварительная обработка данных — это следующий подэтап, который включает стандартизацию данных и удаление отсутствующих или неуместных данных, если таковые имеются.

Шаг 2 : Выборка данных — Обучение и тестирование разделения данных, увеличение данных и аннотирование данных.

Выборка данных — это следующий ключевой шаг, который помогает в обучении модели машинного обучения. Разделение данных на тренировочный и тестовый набор, который включает в себя задание соотношений.

Коэффициенты, которые можно указать:

  • 80:20– Данные будут разделены на 80 % данных обучения и 20 % данных тестирования.
  • 70:30 — Данные будут разделены на 70 % данных обучения и 30 % данных тестирования.
  • 5-кратная перекрестная проверка — Данные будут разделены в 5 раз.
  • 10-кратная перекрестная проверка — Данные будут разделены на 10-кратную перекрестную проверку.

Увеличение данных — лучший способ увеличить размер данных, что необходимо для повышения точности модели машинного обучения. Аннотирование данных — это процесс маркировки данных, если включены контролируемые модели машинного обучения.

Шаг 3 : разработка функций

Данные бывают разных типов :

  • Структурированные данные
  • Неструктурированные данные

В основном структурированные данные состоят из функций с меткой или функций без метки.

Разработка функций — это процесс определения основных функций или уменьшения размерности функций. Выбор функций — это метод выбора основных функций, который помогает приблизиться к метке. Уменьшение размерности — это процесс уменьшения размеров объектов для устранения избыточности данных.

Шаг 4. Подгонка модели

Наиболее важным шагом является подгонка модели машинного обучения к данным. Существуют разные алгоритмы машинного обучения. Алгоритмы машинного обучения в основном делятся на три типа :

  • Контролируемое обучение : данные состоят из объектов с меткой . Различные алгоритмы обучения с учителем: линейная регрессия, логистическая регрессия, наивный байесовский алгоритм, K ближайший сосед и т. д.
  • Неконтролируемое обучение: данные состоят только из функций. Различные алгоритмы обучения без учителя включают анализ основных компонентов (PCA), кластеризацию K-средних и т. д.
  • Обучение с подкреплением : Обучение осуществляется посредством вознаграждений и наказаний.

Шаг 5 : Тестирование и оценка модели

Тестирование и оценка модели — это последний шаг после завершения обучения модели. Тестирование модели выполняется на тестовых данных. Методами оценки модели являются точность, прецизионность, полнота и оценка F1.

Заключение

Указанные пять шагов модели ML являются общими шагами. Более трудоемким и жизненно важным этапом является сбор данных.

Счастливого обучения!