Поскольку каждый день генерируется все больше и больше данных, аналитика данных играет важную роль в различных отраслях. Однако в каждой области есть разные способы, каналы и затраты на получение и хранение данных, поэтому их процессы анализа данных сильно различаются. В этом блоге будут описаны две распространенные процедуры анализа данных: анализ данных на основе транзакций и анализ данных на основе датчиков.

Анализ данных на основе датчиков

В производственных отраслях устанавливаются обширные датчики для мониторинга различного оборудования, которое производит большое количество данных. Однако в настоящее время не существует единого и зрелого стандарта для эффективного использования этих данных. Следующие проблемы включают в себя:

  1. формат данных не унифицирован: разные производители используют разный формат для хранения данных, поэтому будет сложно собрать данные и провести дальнейший анализ. Это затрудняет создание сценариев предварительной обработки данных для последовательного преобразования бронзовых данных в данные серебряного/золотого стандарта.
  2. отсутствие платформы для интеграции данных: для большинства данных датчиков требуется, чтобы сотрудники перемещались в место рядом с датчиками или связанными серверами для ручного сбора данных, а затем вручную собирали данные. Это приводит к тому, что общая предварительная обработка (например, обработка отсутствующих значений, сегментация сигналов, извлечение переменных и т. д.) затруднена — трудно понять, как выглядят данные, пока они не собраны вместе. Кроме того, данные сложно проверить, потому что они поступают от разных датчиков и оборудования, а сбор данных вручную может привести к большему количеству ошибок в данных.
  3. Ошибка данных непостоянна: как обсуждалось, проблема собранных данных носит случайный характер, поскольку данные необходимо собирать вручную без хорошего стандарта для обеспечения качества данных. Некоторые данные могут быть потеряны из-за отключения датчика; некоторые данные могут быть неверными из-за чрезмерной температуры или влажности, вызывающих отклонения; некоторые данные могут быть неверными из-за операционных ошибок во время процедуры сбора.
  4. Шум сигнала, как правило, большой: как известно, в шумной среде установлено множество датчиков, поэтому это может вызвать значительный шум в сигнале. Хотя существует множество фильтров, которые можно использовать для снижения уровня шума, было бы невозможно устранить весь шум, и довольно сложно отличить реальный сигнал от остаточного шума.
  5. Обученную модель сложно внедрить: модель необходимо регулярно обновлять, поскольку данные являются динамическими, которые обычно меняются в зависимости от времени года, износа оборудования, погоды и т. д.
  6. Модель трудно объяснить: многие модели машинного обучения/глубокого обучения представляют собой черный ящик, который не поддается объяснению. Однако во многих отраслях, особенно в строго регулируемых, требуются интерпретируемые модели, прежде чем их осмелятся использовать в реальных приложениях.

Как правило, основными проблемами данных на основе датчиков являются сбор и обработка данных. Тем не менее, многие исследования были сосредоточены на работе по моделированию, поэтому существует много исследовательских работ, но для данных, полученных от датчиков, реализовано лишь ограниченное количество моделей. Из-за промышленной безопасности и сложности сбора данных объем данных датчиков относительно ограничен и поэтому не может обрабатываться как транзакционные данные.

Анализ данных на основе транзакций

В отличие от аналитики данных в машиностроительной отрасли, это большой бизнес, особенно для крупных компаний, которые будут производить большое количество транзакционных, финансовых и рыночных данных. Эти данные обычно загружаются с каждой транзакцией, проводимой фронт-офисом, поэтому качество данных будет относительно выше по сравнению с данными на основе датчиков, и данные легче собирать. Данные транзакций обычно загружаются в облако (например, AWS, Azure или Google Cloud), затем данные стандарта siver и gold извлекаются с помощью обработки sql. Хотя данные на основе транзакций имеют лучшее качество, у них также есть много проблем:

  1. данные могут быть обратными: многие фронт-офиса могут изменить историю некоторых транзакций из-за операционной ошибки, а недопонимание между фронт-офисом и командой данных может привести к тому, что команда данных не сможет определить изменения данных.
  2. текущая и выпущенная транзакция: многие транзакции должны быть подтверждены и выпущены, потому что учету нужны выпущенные транзакции для прослушивания, а не текущие транзакции. Это приводит к возможности получения неточных данных, если фронт-офис своевременно не выдает транзакции, и это еще больше повлияет на ввод моделей.
  3. сбой пакета данных: сбои пакета данных могут привести к низкому качеству данных, отсутствию значений и несогласованности данных.
  4. правило динамических данных: поскольку бизнес меняется очень быстро, это также приводит к очень динамичному способу записи данных. При каждом изменении правил это будет приводить к несогласованности данных. Это усложнит обучение модели. Кроме того, это требует более частого обновления модели.

По сравнению с данными на основе датчиков, данные на основе транзакций имеют более зрелые модели. Многие приложения, основанные на данных о транзакциях, такие как кредитный риск, финансовая гарантия, отток клиентов и т. д., использовали простые и объяснимые модели (например, логистическая регрессия, XGBoost), и они работали хорошо. Для данных, основанных на транзакциях, большая часть усилий приходится на разработку функций, а не на построение модели. В следующем блоге я покажу больше способов обработки данных и общих моделей для этих двух типов данных. Наконец, я был бы очень признателен, если бы вы могли нажать clapping, чтобы поддержать мой блог, и я буду продолжать создавать более интересный контент по науке о данных или некоторым горячим областям.