Стоимость очистки данных часто выходит за пределы комфортной зоны бизнеса, заваленного потенциально грязными данными. Это блокирует пути к надежному и соответствующему корпоративному потоку данных.
По словам Кайла Кирвана, соучредителя и генерального директора платформы наблюдения за данными, у немногих компаний есть ресурсы, необходимые для разработки инструментов для решения таких задач, как наблюдаемость данных в масштабе. Большой глаз. В результате многие компании, по сути, действуют вслепую, реагируя, когда что-то идет не так, вместо того, чтобы заранее решать проблемы с качеством данных.
Доверие к данным обеспечивает правовую основу для управления общими данными. Он способствует сотрудничеству с помощью общих правил безопасности, конфиденциальности и конфиденциальности данных; и позволяет организациям безопасно подключать свои источники данных к общему хранилищу данных.
Bigeye объединяет инженеров данных, аналитиков, ученых и заинтересованных лиц, чтобы укрепить доверие к данным. Его платформа помогает компаниям автоматизировать мониторинг и обнаружение аномалий, а также создавать соглашения об уровне обслуживания для обеспечения качества данных и надежных конвейеров.
Благодаря полному доступу к API, удобному интерфейсу и автоматизированной, но гибкой настройке группы обработки данных могут отслеживать качество, заблаговременно выявлять и устранять проблемы и гарантировать, что каждый пользователь может положиться на данные.
Опыт работы с данными Uber
Два первых члена группы данных в Uber — Kirwan и Bigeye, соучредитель и технический директор Егор Грязнов — решили использовать то, что они узнали, создавая масштаб Uber, для создания более простых в развертывании инструментов SaaS для инженеров данных.
Кирван был одним из первых специалистов по данным в Uber и первым менеджером по метаданным. Грязнов был штатным инженером, который управлял хранилищем данных Uber Vertica и разработал несколько внутренних инструментов и сред обработки данных.
Они поняли, что инструменты, которые их команды создавали для управления огромным озером данных Uber и тысячами внутренних пользователей данных, намного опережали то, что было доступно большинству команд инженеров данных.
Автоматический мониторинг и обнаружение проблем с надежностью в тысячах таблиц в хранилищах данных — непростая задача. Такие компании, как Instacart, Udacity, Docker и Clubhouse, используют Bigeye для непрерывной работы своей аналитики и машинного обучения.
Растущее поле
Основав Bigeye в 2019 году, они осознали растущую проблему, с которой сталкиваются предприятия при развертывании данных в сценариях использования с высокой рентабельностью, таких как операционные рабочие процессы, продукты и услуги на основе машинного обучения, а также стратегическая аналитика и принятие решений на основе бизнес-аналитики.
В 2021 году в области наблюдаемости данных появилось несколько участников. Bigeye выделился из этого пакета, предоставив пользователям возможность автоматически оценивать качество данных о клиентах с помощью более чем 70 уникальных показателей качества данных.
Эти метрики обучаются с помощью тысяч отдельных моделей обнаружения аномалий, чтобы гарантировать, что проблемы с качеством данных — даже самые сложные для обнаружения — никогда не останутся незамеченными инженерами данных.
В прошлом году наблюдаемость данных ворвалась на сцену: не менее десяти стартапов, занимающихся наблюдаемостью данных, объявили о значительных раундах финансирования.
В этом году наблюдаемость данных станет приоритетом для групп данных, поскольку они стремятся сбалансировать потребность в управлении сложными платформами с необходимостью обеспечения качества данных и надежности конвейера, предсказывает Кирван.
Краткие сведения о решении
Платформа данных Bigeye больше не находится в стадии бета-тестирования. Некоторые функции корпоративного уровня все еще находятся в разработке, например полный контроль доступа на основе ролей. Но другие, такие как SSO и развертывание в VPC, доступны уже сегодня.
Приложение имеет закрытый исходный код, как и проприетарные модели, используемые для обнаружения аномалий. Bigeye является большим поклонником вариантов с открытым исходным кодом, но решил разработать свой собственный для достижения внутренних целей производительности.
Машинное обучение используется в нескольких ключевых местах, чтобы обеспечить уникальное сочетание метрик в каждой таблице в подключенных источниках данных клиента. Модели обнаружения аномалий обучаются по каждой из этих метрик для обнаружения аномального поведения.
Три функции, встроенные в конце 2021 года, автоматически обнаруживают проблемы с качеством данных и предупреждают о них, а также включают SLA по качеству данных.
Первый, Deltas, упрощает сравнение и проверку нескольких версий любого набора данных.
Проблемы, во-вторых, объединяют несколько предупреждений в единую временную шкалу с ценным контекстом о связанных проблемах. Это упрощает документирование прошлых исправлений и ускоряет разрешение.
Третий, Dashboard, обеспечивает общее представление о состоянии данных, помогая выявлять проблемы с качеством данных, устранять пробелы в мониторинге охвата и количественно оценивать улучшения надежности команды.
Взгляд на хранилища данных
TechNewsWorld поговорил с Кирваном, чтобы демистифицировать некоторые сложности, которые платформа анализа данных его компании предлагает ученым.
TechNewsWorld: Что делает подход Bigeye инновационным или передовым?
Кайл Кирван: Для наблюдения за данными требуется постоянное и полное знание того, что происходит внутри всех таблиц и конвейеров в вашем стеке данных. Это похоже на то, что SRE [site reliability engineering] и команды DevOps используют для круглосуточной работы приложений и инфраструктуры. Но он переосмыслен для мира инженерии данных и науки о данных.
Хотя качество и надежность данных были проблемой на протяжении десятилетий, приложения для работы с данными в настоящее время имеют решающее значение для работы многих ведущих компаний; потому что любая потеря данных, сбой или деградация могут быстро привести к потере доходов и клиентов.
Без наблюдаемости данных торговцы данными должны постоянно реагировать на проблемы с качеством данных и бороться с данными по мере их использования. Лучшее решение — заблаговременно выявлять проблемы и устранять их первопричины.
Как доверие влияет на данные?
Кирван: Часто проблемы обнаруживаются заинтересованными сторонами, такими как руководители, которые не доверяют своей часто ломающейся приборной панели. Или пользователи получают запутанные результаты от встроенных в продукт моделей машинного обучения. Инженеры данных могут лучше предвидеть проблемы и предотвращать влияние на бизнес, если они будут предупреждены достаточно рано.
Чем эта концепция отличается от похожих по звучанию технологий, таких как унифицированное управление данными?
Кирван: Наблюдаемость данных — одна из основных функций операций с данными (вспомните об управлении данными). Многие клиенты ищут лучшие в своем классе решения для каждой из функций операций с данными. Вот почему такие технологии, как Snowflake, Fivetran, Airflow и dbt, стремительно набирают популярность. Каждый из них считается важной частью «современного стека данных», а не универсальным решением.
Наблюдаемость данных, данные SLA, ETL [extract, transform, load] контроль версий кода, тестирование конвейера данных и другие методы должны использоваться в тандеме, чтобы обеспечить бесперебойную работу современных конвейеров данных. Так же, как высокопроизводительные инженеры-программисты и команды DevOps используют родственные методы.
Какую роль конвейер данных и DataOps играют в обеспечении видимости данных?
Кирван: Наблюдаемость данных тесно связана с DataOps и новой практикой проектирования надежности данных. DataOps относится к более широкому набору всех операционных проблем, с которыми столкнутся владельцы платформ данных. Проектирование надежности данных является частью операций с данными, но только частью, так же как проектирование надежности сайта связано с DevOps, но не охватывает его полностью.
Наблюдаемость данных может иметь преимущества для безопасности данных, поскольку ее можно использовать для выявления неожиданных изменений объема запросов в разных таблицах или изменений в поведении конвейеров ETL. Однако наблюдаемость данных сама по себе вряд ли будет полным решением для обеспечения безопасности данных.
С какими проблемами сталкивается эта технология?
Кирван: Эти проблемы охватывают такие проблемы, как обнаружение данных и управление ими, отслеживание затрат и управление ими, а также контроль доступа. В нем также рассказывается, как управлять постоянно растущим числом запросов, информационных панелей, функций и моделей машинного обучения.
Надежность и время безотказной работы, безусловно, являются проблемами, за которые несут ответственность многие команды DevOps. Но они часто также несут ответственность за другие аспекты, такие как скорость разработки и соображения безопасности. В этих двух областях наблюдаемость данных позволяет группам данных знать, безошибочны ли их данные и конвейеры данных.
Каковы проблемы внедрения и обслуживания технологии наблюдения за данными?
Кирван: Эффективные системы наблюдения за данными должны интегрироваться в рабочие процессы группы обработки данных. Это позволяет им сосредоточиться на развитии своих платформ данных, а не постоянно реагировать на проблемы с данными и тушить пожары данных. Однако плохо настроенная система наблюдения за данными может привести к потоку ложных срабатываний.
Эффективная система данных также должна во многом избавляться от обслуживания при тестировании проблем с качеством данных, автоматически адаптируясь к изменениям в бизнесе. Однако плохо оптимизированная система наблюдения за данными может не корректировать изменения в бизнесе или чрезмерно корректировать изменения в бизнесе, что требует ручной настройки, которая может занять много времени.
Наблюдаемость данных также может обременять хранилище данных, если оно не оптимизировано должным образом. Команды Bigeye имеют опыт оптимизации наблюдаемости данных в масштабе, чтобы платформа не влияла на производительность хранилища данных.