Несмотря на то, что облако отлично подходит для данных и аналитики – учитывая его безграничные хранилища и вычислительную мощность, оно также привело к реальному снижению производительности для профессионалов в области данных. Проще говоря, причина этого в том, что крупные поставщики облачных услуг выбросили на рынок множество платформ данных и предоставили клиентам возможность выбирать правильную комбинацию услуг, а затем интегрировать их. Что бы вы ни говорили о гигантах корпоративного программного обеспечения старой гвардии, они избавили своих клиентов от значительной части опыта, необходимого для сборки, который сегодня накладывают гипермасштабируемые облачные вычисления.
Возможно, тогда это уместно, что Геррит Казмайер, до недавнего времени исполнительный вице-президент SAP, специализирующийся на данных и аналитике, Google Cloudновоиспеченный вице-президент и генеральный менеджер по базам данных, аналитике и аналитике. SAP – компания-разработчик корпоративного программного обеспечения, если она когда-либо существовала. И независимо от того, имеет ли место причинный феномен, или это просто случайное совпадение, Казмайер проинформировал ZDNet о ряде новых возможностей, о которых было объявлено сегодня в Google. Cloud Next ’21 цифровое мероприятие, на котором платформа данных Google Cloud работает “под ключ” в стиле корпоративного программного обеспечения.
На вершине искусственного интеллекта и аналитики
Первое крупное открытие Google Cloud – это новое предложение в рамках его Vertex AI сервис называется Vertex AI Workbench. Workbench – это, по сути, управляемый блокнот, который служит IDE (интегрированной средой разработки) для машинного обучения и работы с ИИ. Он связывает воедино основные компоненты Vertex AI (такие как услуги обучения и прогнозирования) с ключевыми компонентами платформы данных, такими как BigQuery, Dataproc и Dataplex.
Это тот самый вид интеграции, который в значительной степени отсутствует в средах облачной аналитики, и объединение всего этого помогает специалистам по данным, инженерам по машинному обучению и инженерам по обработке данных избежать необходимости переключать передачи и терять ход мыслей, переходя от сервиса к сервису. Открытие пользовательских интерфейсов нескольких сервисов на разных вкладках браузера не является интеграцией; сделать набор услуг доступным в контексте другой, дополнительной.
Омни, настоящее
Еще одно важное объявление Google Cloud сегодня – это общедоступность (GA) BigQuery Omni, который позволяет пользователям BigQuery получать данные, которые у них есть в Amazon Web Services (AWS) или Microsoft Azure. Это достигается за счет запуска экземпляров BigQuery в этих конкурирующих облаках, выполнения там запросов и сортировки результатов обратно в домашнюю базу Google Cloud. Я подробно писал об Omni, когда он был запущен в предварительную версию в июле 2020 года.
Также прочтите: Google BigQuery Omni соединяет клиентов с данными в AWS и Azure.
Казмайер сообщил ZDNet, что клиенты, в том числе Electronic Arts и Джонсон и Джонсон успешно использовали BigQuery Omni. Из этого и других заявлений ясно, что BigQuery занимает центральное место в стратегии Google по «облаку данных». Предоставление доступа BigQuery к данным, хранящимся в других облаках, является обязательным условием для Google, и GA Omni является важной вехой.
Вверх со Spark, вниз с серверов
Следующее объявление очень хорошо дополняет другие: автоматическое масштабирование, бессерверная реализация Apache Sparkпод названием Spark on Google Cloud, доступный в качестве предварительной версии. Spark стал повсеместным продуктом в отрасли для всех видов аналитики, обработки данных и рабочих нагрузок машинного обучения. Да, облачные провайдеры создали для себя бессерверные сервисы Spark; Например потоки данных на Фабрика данных Azure выполняются на кластерах Spark, которые клиентам никогда не нужно настраивать, и код, сгенерированный с помощью Клей Амазонки делает то же самое. Но использование Spark для выполнения определенного шага в большинстве конвейеров данных и AI потребовало явной подготовки кластера Spark и работы с задержкой, необходимой для раскрутки кластера.
Также прочтите: Фабрика данных Azure v2: практический обзор
В бессерверной Spark в Google Cloud, как и в случае с BigQuery, клиенты просто отправляют свои рабочие нагрузки на выполнение, а Google Cloud берет на себя все остальное, выполняя задания и не беспокоя клиента о необходимости определять размер или даже думать о дискретном Кластер искры. Сервис будет интегрирован – как вы уже догадались – в BigQuery, Dataproc, Dataplex и Vertex AI, что позволит пользователям этих сервисов использовать Spark без бремени предоставления инфраструктуры и управления ею.
Of Cloud (Spanner) и (Google) Earth
Далее: Google внедрил PostgreSQL интерфейс поверх Cloud Spanner, его географически распределенная служба реляционной базы данных. Хотя это не реализация самого Postgres (что-то, что доступно на Cloud SQL), это предложение позволяет коду, использующему диалект SQL Postgres и проводной протокол, работать на Spanner. Сравните это предложение с интерфейсом Postgres на AWS ‘ Аврора служба базы данных или База данных Azure для гипермасштабирования PostgreSQL. В обоих случаях, как и в случае с интерфейсом Spanner Postgres, облачные базы данных с горизонтальным масштабированием доступны тем, у кого есть навыки Postgres. Предложение Spanner Postgres доступно в предварительной версии.
И еще одна интеграция: 50+ петабайт Гугл Земля данные, доступные пользователям BigQuery, технологий машинного обучения Google Cloud и Карты Гугл. Сервис под названием Google Earth Engine запускается в предварительной версии.
Смотри сюда
Если вы забыли, Google Cloud владеет Смотритель в настоящее время. Черт возьми, имя Looker даже есть в титуле Казмайера. И хотя да, Looker сам по себе является интерфейсом бизнес-аналитики, похоже, что Google видит не меньшую ценность в LookML язык моделирования, с помощью которого Looker может определять семантические модели, упрощающие анализ данных пользователями BI. С этой целью Google Подключенные таблицы технология, которая позволяет пользователям Google Таблицы для запроса данных в BigQuery, станет совместимым с LookML, что, по словам Google Cloud, выпустит в форме предварительной версии к концу этого года.
Однако помимо Connected Sheets, Google объявляет о партнерстве с Salesforce Диаграмма это скоро предоставит этой очень популярной платформе бизнес-аналитики доступ к семантическим моделям Looker, в том числе через LookML. В то время как другим игрокам отрасли нравится Датабрики, Informatica, Trifecta, Fivetran и Коллибра также будут в центре внимания Cloud Next, это партнерство с Tableau беспрецедентно и очень интересно. Это показывает, что Google Cloud знает, что не может быть доминирующим поставщиком облака данных без помощи партнеров со всего мира аналитики. Это также снова показывает, что Google преследовал приобретение Looker как в плане возможностей моделирования внутренних данных Looker, так и в отношении возможностей визуализации данных и панелей управления.
Соединяете вещи вместе?
Жалобы на относительную недостаточную интеграцию облачных сервисов, существовавшую до сих пор, – не простая претензия. Для клиентов выполнить интеграцию и взломать всю сложность – это тонна работы, влекущая за собой массу рисков и затрат. Microsoft решает проблему вакуума интеграции с помощью Azure Synapse Analytics и, можно утверждать, AWS пыталась сделать это с помощью Формирование озера предложение.
Сегодняшние объявления Google Cloud показывают, что все три основных поставщика облачных услуг осознают важность интеграции своих сервисов. Это хорошо, но всем трем еще предстоит пройти долгий путь, прежде чем их предложения по работе с данными и аналитикой станут простыми в использовании, полностью рационализированными и легко интегрированными. В конце концов, однако, гипермасштабируемые компании смогут с легитимностью заявить, что облако – это новый корпоративный стек.