Разница в аналитике данных в бизнесе и инженере (часть I)

Поскольку каждый день генерируется все больше и больше данных, аналитика данных играет важную роль в различных отраслях. Однако в каждой области есть разные способы, каналы и затраты на получение и хранение данных, поэтому их процессы анализа данных сильно различаются. В этом блоге будут описаны две распространенные процедуры анализа данных: анализ данных на основе транзакций и анализ данных на основе датчиков.

Анализ данных на основе датчиков

В производственных отраслях устанавливаются обширные датчики для мониторинга различного оборудования, которое производит большое количество данных. Однако в настоящее время не существует единого и зрелого стандарта для эффективного использования этих данных. Следующие проблемы включают в себя:

формат данных не унифицирован: разные производители используют разный формат для хранения данных, поэтому будет сложно собрать данные и провести дальнейший анализ. Это затрудняет создание сценариев предварительной обработки данных для последовательного преобразования бронзовых данных в данные серебряного/золотого стандарта.
отсутствие платформы для интеграции данных: для большинства данных датчиков требуется, чтобы сотрудники перемещались в место рядом с датчиками или связанными серверами для ручного сбора данных, а затем вручную собирали данные. Это приводит к тому, что общая предварительная обработка (например, обработка отсутствующих значений, сегментация сигналов, извлечение переменных и т. д.) затруднена — трудно понять, как выглядят данные, пока они не собраны вместе. Кроме того, данные сложно проверить, потому что они поступают от разных датчиков и оборудования, а сбор данных вручную может привести к большему количеству ошибок в данных.
Ошибка данных непостоянна: как обсуждалось, проблема собранных данных носит случайный характер, поскольку данные необходимо собирать вручную без хорошего стандарта для обеспечения качества данных. Некоторые данные могут быть потеряны из-за отключения датчика; некоторые данные могут быть неверными из-за чрезмерной температуры или влажности, вызывающих отклонения; некоторые данные могут быть неверными из-за операционных ошибок во время процедуры сбора.
Шум сигнала, как правило, большой: как известно, в шумной среде установлено множество датчиков, поэтому это может вызвать значительный шум в сигнале. Хотя существует множество фильтров, которые можно использовать для снижения уровня шума, было бы невозможно устранить весь шум, и довольно сложно отличить реальный сигнал от остаточного шума.
Обученную модель сложно внедрить: модель необходимо регулярно обновлять, поскольку данные являются динамическими, которые обычно меняются в зависимости от времени года, износа оборудования, погоды и т. д.
Модель трудно объяснить: многие модели машинного обучения/глубокого обучения представляют собой черный ящик, который не поддается объяснению. Однако во многих отраслях, особенно в строго регулируемых, требуются интерпретируемые модели, прежде чем их осмелятся использовать в реальных приложениях.

…

Как правило, основными проблемами данных на основе датчиков являются сбор и обработка данных. Тем не менее, многие исследования были сосредоточены на работе по моделированию, поэтому существует много исследовательских работ, но для данных, полученных от датчиков, реализовано лишь ограниченное количество моделей. Из-за промышленной безопасности и сложности сбора данных объем данных датчиков относительно ограничен и поэтому не может обрабатываться как транзакционные данные.

Анализ данных на основе транзакций

В отличие от аналитики данных в машиностроительной отрасли, это большой бизнес, особенно для крупных компаний, которые будут производить большое количество транзакционных, финансовых и рыночных данных. Эти данные обычно загружаются с каждой транзакцией, проводимой фронт-офисом, поэтому качество данных будет относительно выше по сравнению с данными на основе датчиков, и данные легче собирать. Данные транзакций обычно загружаются в облако (например, AWS, Azure или Google Cloud), затем данные стандарта siver и gold извлекаются с помощью обработки sql. Хотя данные на основе транзакций имеют лучшее качество, у них также есть много проблем:

данные могут быть обратными: многие фронт-офиса могут изменить историю некоторых транзакций из-за операционной ошибки, а недопонимание между фронт-офисом и командой данных может привести к тому, что команда данных не сможет определить изменения данных.
текущая и выпущенная транзакция: многие транзакции должны быть подтверждены и выпущены, потому что учету нужны выпущенные транзакции для прослушивания, а не текущие транзакции. Это приводит к возможности получения неточных данных, если фронт-офис своевременно не выдает транзакции, и это еще больше повлияет на ввод моделей.
сбой пакета данных: сбои пакета данных могут привести к низкому качеству данных, отсутствию значений и несогласованности данных.
правило динамических данных: поскольку бизнес меняется очень быстро, это также приводит к очень динамичному способу записи данных. При каждом изменении правил это будет приводить к несогласованности данных. Это усложнит обучение модели. Кроме того, это требует более частого обновления модели.

…

По сравнению с данными на основе датчиков, данные на основе транзакций имеют более зрелые модели. Многие приложения, основанные на данных о транзакциях, такие как кредитный риск, финансовая гарантия, отток клиентов и т. д., использовали простые и объяснимые модели (например, логистическая регрессия, XGBoost), и они работали хорошо. Для данных, основанных на транзакциях, большая часть усилий приходится на разработку функций, а не на построение модели. В следующем блоге я покажу больше способов обработки данных и общих моделей для этих двух типов данных. Наконец, я был бы очень признателен, если бы вы могли нажать clapping, чтобы поддержать мой блог, и я буду продолжать создавать более интересный контент по науке о данных или некоторым горячим областям.

смотрите также:

Новые материалы

10 лучших функций dplyr - простой анализ данных

Dplyr проще и чище, чем Pandas. Вы смеете переключиться? Я был фанатом Python последние пару лет. Этот язык отлично подходит для науки о данных, и, будучи языком общего назначения ,..

Практики безопасного кодирования: защитите свой код от распространенных уязвимостей

В постоянно меняющейся среде разработки программного обеспечения написание безопасного кода имеет первостепенное значение для защиты приложений и конфиденциальных пользовательских данных от..

Контакт:

⋆⋆⋆ PREDICTIVE ANALYTICS AND CUSTOMER SEGMENTATION: THE FUTURE OF MARKETING ⋆⋆⋆ Authored by Gerard King Контакт: Электронная почта:..

5 шагов в разработке модели машинного обучения.

5 шагов в разработке модели машинного обучения. Машинное обучение (ML), часть искусственного интеллекта (ИИ). Существует пять общих шагов для разработки модели машинного обучения (ML)...

НОВЫЙ КУРС — Введение в управляемый сервером пользовательский интерфейс в Swift

Что, если есть способ мгновенно обновить пользовательский интерфейс вашего приложения, не отправляя новую версию? Такие компании, как Airbnb, Spotify, Flipkart, Swiggy и некоторые другие,..

«Что такое машинное обучение и его влияние на следующее поколение?»

«Прорыв в машинном обучении стоил бы десяти Microsoft». — Билл Гейтс, бывший председатель Microsoft Позвольте мне объяснить вам, что это просто. Точно так же дети учатся ходить. Каждый..

SyntaxError: EOL при сканировании строкового литерала

Забыл закрыть строку кавычками в python В моем случае эта ошибка была слишком сложным способом сказать: «Вы забыли закрыть строку соответствующей двойной или одинарной кавычкой». EOL означает..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Front End Development Data Computer Science Data Analysis Neural Networks Typescript Angular DevOps Python Programming Reactjs Startup Code HTML Algorithms Development Java Tutorial Learning Engineering Golang NLP Business Javascript Tips Programming Languages Productivity