Путь к Data 3.0

Майкл Ли, вице-президент по данным в Coinbase

Данные — это золотая жила для компании. При правильном управлении он обеспечивает ясность и понимание, которые приводят к более эффективному принятию решений в масштабе, в дополнение к важному инструменту для обеспечения подотчетности всех.

Однако большинство компаний застряли на Data 1.0, что означает они используют данные как ручную и реактивную услугу. Некоторые начали переходить на Data 2.0, в котором используется простая автоматизация для повышения производительности команды. Сложность криптографических данных открыла новые возможности в области данных, а именно: перейти на новый уровень Data 3.0, где вы можете масштабировать создание ценности с помощью систематического интеллекта и автоматизации. Это наш путь к Data 3.0.

Coinbase не является ни финансовой, ни технической компанией — это криптографическая компания. Это различие имеет большое значение для того, как мы работаем с данными. Как криптовалютная компания мы работаем с тремя основными типами данных (вместо обычных одного или двух типов данных), каждый из которых сложен и разнообразен:

  • Блокчейн: децентрализованный и общедоступный.
  • Продукт: большой и в режиме реального времени.
  • Финансовый: высокоточный, с учетом многих финансовых / юридических / нормативных требований.
  • Наше внимание было сосредоточено на том, как мы может масштабировать создание ценности, заставляя эти разнообразные данные работать вместе, устраняя разрозненные данные, решая проблемы до того, как они начнутся, и создавая возможности для Coinbase, которые в противном случае не существовали бы.

    Работая в технологических компаниях, таких как LinkedIn и eBay, а также тех, кто работает в финансовом секторе, включая Capital One, я воочию наблюдал за эволюцией от Data 1.0 к Data 3.0. В Data 1.0 данные рассматриваются как реактивная функция, предоставляющая специальные ручные услуги или тушение пожаров в экстренных ситуациях.

    В Data 2.0 используются простые инструменты и сторонние решения для автоматизации частей руководства и повторяющиеся задачи для повышения производительности команды. Хотя по большей части группа данных по-прежнему полагается на добавление дополнительных человеческих ресурсов, чтобы принести больше пользы. И, наконец, на этапе Data 3.0 системы данных создаются с использованием технологий с открытым исходным кодом и внутренних технологий согласованным образом для фундаментального масштабирования создания ценности.

    На пути к нирване Data 3.0

    Самым большим преимуществом Data 3.0 является эффективность и согласованность всех потоков данных. Это дает компании возможность построить всеобъемлющую базу данных, которая создана для долгосрочного успеха компании, при этом удовлетворяя насущные потребности при ограниченных ресурсах. Это может быть неочевидно, когда компания небольшая и быстро меняется, но по мере роста компании и ее быстрого роста согласованность потоков данных (или ее отсутствие) может стать большой проблемой, и ее трудно исправить без определения видения на ранней стадии. .

    Даже лучшие технологические компании в мире могут создать дурные привычки, когда разрозненные инженерные команды создают индивидуальные продукты и услуги для работы с данными для решения конкретных проблем. Это может оставить большие пробелы в стандартизованных рабочих процессах сквозной системы данных, что затруднит создание и обработку данных в масштабе. Хуже того, эти разовые усилия могут стать достаточно большими, чтобы превратиться в автономные системы, на консолидацию и миграцию которых потребуется время. Они часто остаются устаревшими системами, которые со временем создают огромную техническую задолженность для компании.

    Учитывая постоянное развитие технологий блокчейн и вариантов использования данных, наша работа с Data 3.0 далека от завершения. Тем не менее, я очень горжусь тем прогрессом, которого мы достигли. Вот обзор нашей работы и систем на сегодняшний день.

    Хранение и обработка данных

    Независимо от выбора использования конкретных технологий, вам нужна четкая стратегия для трех основных компонентов: разделения хранения, разделения вычислений и семантики для «единого источника истины». Разделение этих компонентов и определение четкой технической стратегии позволяет нам избежать узких мест в производительности и емкости по мере роста компании.

    Платформа данных и приложения

    Пока мы используем комбинацию собственных технологий, инструментов с открытым исходным кодом и решений поставщиков для удовлетворения различных требований, мы идем на явные компромиссы при выборе конкретных решений для каждой категории, поэтому мы не создаем дублирования или двусмысленности в будущем. Это относится к тому, как мы управляем нашей системой обработки событий, рабочим процессом оркестровки данных, уровнем бизнес-аналитики и платформой для экспериментов. Это также приводит к сильно развязанной и масштабируемой архитектуре.

    Машинное обучение и платформа

    Хотя это, вероятно, самая «блестящая» часть группы данных, учитывая ажиотаж вокруг ИИ в последние годы , это также самый многофункциональный компонент группы обработки данных. Наша поистине комплексная платформа машинного обучения Nostradamus расширяет возможности всех моделей машинного обучения в Coinbase, включая конвейеры данных, обучение, развертывание, обслуживание и эксперименты. Поскольку платформа машинного обучения была создана с учетом всех остальных частей экосистемы данных, она предназначена не только для того, чтобы машинное обучение могло решать насущные проблемы, но также для роста и масштабирования вместе с бизнесом.

    Данные наука и продукты для обработки данных

    Эти две области, вероятно, являются наиболее удобной для конечного пользователя частью группы данных, потому что они, по сути, представляют собой уровень представления дистиллированных данных, которые предназначены для удовлетворения и создания ценности для наших клиентов. . Они также являются наиболее непосредственными бенефициарами всех вышеперечисленных усилий.

    Самый важный мандат команды заключается в том, что специалисты по обработке данных должны отказаться от работы с механизмами и сосредоточиться на том, чтобы они могли обслуживать данные и создавать ценность для них. потребителей масштабируемым образом (вместо того, чтобы быть посредником между оборудованием и потребителями данных).

    Эта часть изначально появилась в TechCrunch .

    Путешествие к Data 3.0 изначально было опубликовано в блоге Coinbase на Medium, где люди продолжают разговор, выделяя эту историю и отвечая на нее.

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *