5 шагов в разработке модели машинного обучения.
Машинное обучение (ML), часть искусственного интеллекта (ИИ). Существует пять общих шагов для разработки модели машинного обучения (ML).
Шаг 1 : Подготовка данных — Сбор данных и предварительная обработка
Данные — это мастер модели машинного обучения. Подготовка данных является ключевым этапом построения модели машинного обучения. Подготовка данных состоит из двух процессов: сбор данных и предварительная обработка. Процесс сбора данных включает получение данных в режиме реального времени по стандартному протоколу или получение данных из стандартных баз данных. Наиболее часто используемыми базами данных для получения данных для модели ML являются репозиторий Калифорнийского университета, Ирвина (UCI) и репозиторий Kaggle. Предварительная обработка данных — это следующий подэтап, который включает стандартизацию данных и удаление отсутствующих или неуместных данных, если таковые имеются.
Шаг 2 : Выборка данных — Обучение и тестирование разделения данных, увеличение данных и аннотирование данных.
Выборка данных — это следующий ключевой шаг, который помогает в обучении модели машинного обучения. Разделение данных на тренировочный и тестовый набор, который включает в себя задание соотношений.
Коэффициенты, которые можно указать:
- 80:20– Данные будут разделены на 80 % данных обучения и 20 % данных тестирования.
- 70:30 — Данные будут разделены на 70 % данных обучения и 30 % данных тестирования.
- 5-кратная перекрестная проверка — Данные будут разделены в 5 раз.
- 10-кратная перекрестная проверка — Данные будут разделены на 10-кратную перекрестную проверку.
Увеличение данных — лучший способ увеличить размер данных, что необходимо для повышения точности модели машинного обучения. Аннотирование данных — это процесс маркировки данных, если включены контролируемые модели машинного обучения.
Шаг 3 : разработка функций
Данные бывают разных типов :
- Структурированные данные
- Неструктурированные данные
В основном структурированные данные состоят из функций с меткой или функций без метки.
Разработка функций — это процесс определения основных функций или уменьшения размерности функций. Выбор функций — это метод выбора основных функций, который помогает приблизиться к метке. Уменьшение размерности — это процесс уменьшения размеров объектов для устранения избыточности данных.
Шаг 4. Подгонка модели
Наиболее важным шагом является подгонка модели машинного обучения к данным. Существуют разные алгоритмы машинного обучения. Алгоритмы машинного обучения в основном делятся на три типа :
- Контролируемое обучение : данные состоят из объектов с меткой . Различные алгоритмы обучения с учителем: линейная регрессия, логистическая регрессия, наивный байесовский алгоритм, K ближайший сосед и т. д.
- Неконтролируемое обучение: данные состоят только из функций. Различные алгоритмы обучения без учителя включают анализ основных компонентов (PCA), кластеризацию K-средних и т. д.
- Обучение с подкреплением : Обучение осуществляется посредством вознаграждений и наказаний.
Шаг 5 : Тестирование и оценка модели
Тестирование и оценка модели — это последний шаг после завершения обучения модели. Тестирование модели выполняется на тестовых данных. Методами оценки модели являются точность, прецизионность, полнота и оценка F1.
Заключение
Указанные пять шагов модели ML являются общими шагами. Более трудоемким и жизненно важным этапом является сбор данных.
Счастливого обучения!