Специалисты по данным ежедневно анализируют данные для решения задач в области Data Science. Они создают модели для прогнозирования результатов или выявления закономерностей. Инструменты и технологии, используемые для анализа данных, быстро развиваются, расширяя возможности специалистов по данным.
Но знания инструментов недостаточно для успешного решения задач с помощью методов анализа данных. Подобно традиционным учёным специалистам по данным нужна базовая методология, которая будет служить руководящей стратегией для решения проблем. Эта методология, не зависящая от конкретных технологий или инструментов, должна обеспечивать основу для работы с методами и процессами, которые будут использоваться для получения ответов и результатов. Такую методологию написал Джон Роллинс в своей работе «Why we need a methodology for data science».
Джон Б. Роллинс, доктор философии и физики, старший специалист по данным, IBM Analytics, IBM. До прихода в IBM он работал инженером-консультантом, профессором и исследователем. Автор патентов, статей и книг. Имеет докторскую степень по экономике и инженерии в нефтяной отрасли. Зарегистрирован профессиональным инженером в Техасе.
Основная методология науки о данных изображена на диаграмме. Она имеет 10 этапов, которые представляют собой процесс итераций, идущий от создания концепции до развёртывания модели через обратную связь и уточнения.
1. Деловое понимание
Каждый проект, независимо от его размера, начинается с понимания бизнеса, которое закладывает основу для успешного решения бизнес-проблемы. Бизнес-спонсоры, которым требуется аналитическое решение, играют решающую роль на этом этапе, определяя проблему, цели проекта и требования к решению с точки зрения бизнеса. Первый этап самый трудный даже, если впереди ещё девять этапов.
2. Аналитический подход
После чёткого определения бизнес-проблемы, понимания её в контексте статистических методов и машинного обучения, специалист по данным может выбрать аналитический подход и определить методы, подходящие для достижения желаемого результата.
3. Требования к данным
Выбор аналитического подхода определяет требования к данным. Содержание, форматы и представления данных должны соответствовать используемым методам анализа с учётом знаний предметной области.
4. Сбор данных
Специалист по обработке данных идентифицирует и собирает источники данных, которые имеют отношение к предметной области:
- структурированные,
- неструктурированные,
- частично структурированные.
При обнаружении пробелов в сборе данных специалисту по данным, возможно, потребуется пересмотреть требования и собрать больше данных.
5. Понимание данных
Описательная статистика и методы визуализации могут помочь специалистам по обработке данных понять содержание данных, оценить их качество, и сделать первые выводы. При этом может потребоваться пересмотр предыдущего шага сбора данных, чтобы закрыть пробелы в понимании.
6. Подготовка данных
Этап подготовки данных включает в себя создание набора данных, необходимых на этапе моделирования. К ним относятся:
- очистка данных,
- объединение данных из нескольких источников,
- преобразование данных в более полезные переменные.
На этом этапе создают новые структурированные переменные благодаря использованию конструирования признаков и текстовой аналитики. Они обогащают набор предикторов и усиления точности модели.
Этап подготовки данных — самый трудоёмкий. Обычно на него уходит 70 процентов времени проекта, а иногда – 90% и даже более. Его можно сократить до 50%, если источники данных управляемы, интегрированы и чисты с аналитической точки зрения. Автоматизация этапа подготовки данных может снизить процент ещё больше. Таким образом, в проекте по маркетингу в области телекоммуникаций сократили среднее время, необходимое для создания и развёртывания рекламных акций, с трёх месяцев до трёх недель.
7. Моделирование
Сначала специалисты по данным разрабатывают прогнозную или описательную модели с использованием выбранного аналитического подхода. Сначала они проверяют модель на обучающем наборе. Это прошлые данные, в которых известен результат. Потом проверяют первую версию подготовленного набора данных. Процесс моделирования очень итеративен.
8. Оценка
Специалист по данным оценивает качество модели на основании вычисления различных диагностических показателей и других выходных данных, таких как таблицы и графики. Затем, используя набор тестирования для прогнозной модели, проверяет, полностью ли она решает бизнес-проблему.
9. Развёртывание
После того как удовлетворительная модель была разработана и одобрена бизнес-спонсорами, она развёртывается в производственной среде или в сопоставимой тестовой среде. Сначала ограниченно, чтобы оценить её производительность. Внедрение модели в операционный бизнес-процесс обычно требует дополнительной работы нескольких групп, применения других навыков и технологий.
10. Обратная связь
Собирая результаты внедрённой модели, организация получает обратную связь о производительности модели и наблюдает, как она влияет на среду развёртывания. Анализ этой обратной связи позволяет специалисту по данным уточнять модель, повышая её точность и, следовательно, её полезность. Этот этап, на который часто не обращают внимания, может принести существенные дополнительные преимущества, если он проводится как часть общего процесса.
Резюме
Схема этой методологии иллюстрирует итеративный характер процесса решения проблем. Модели не следует создавать один раз, а затем развёртывать и оставлять на месте без изменений. Вместо этого, посредством обратной связи, доработки и повторного развёртывания, модель должна постоянно адаптироваться к условиям. Это позволяет поддерживать ценность модели для организации до тех пор, пока это необходимо.