Озера данных и Big data
Озера данных: как устроены data lakes и зачем они нужны
Рынок data lakes в 2019 году достиг $3,74 млрд, а к 2025 году он вырастет до $17,6 млрд. Компании все чаще отдают предпочтение озерам, а не хранилищам. С их помощью можно извлекать ценные инсайты, отслеживать неожиданные закономерности, быстрее и эффективнее продвигать новые продукты и услуги. Для распределенной компании с множеством подразделений — это настоящая золотая жила. Специалисты компании DST Global рассказали, как извлечь максимум из новой data-архитектуры.
Озера, витрины и хранилища
Представьте, что у компании есть доступ к неисчерпаемому информационному ресурсу — погружаясь в него, аналитики регулярно получают ценные бизнес-инсайты и запускают новые, более совершенные продукты. Примерно по такому принципу работают озера данных — data lakes. Это относительно новый вид data-архитектуры, позволяющий воедино собирать сырые и разрозненные сведения из разных источников, а потом находить им эффективное применение. Первыми с технологией начали экспериментировать такие гиганты, как Oracle, Amazon и Microsoft — они же разработали удобные сервисы для построения озер.
Сам термин data lake ввел Джеймс Диксон, основатель платформы Pentaho. Он сравнивал витрины данных с озерами данных: первые похожи на бутилированную воду, которую очистили, отфильтровали и упаковали. Озера — это открытые водоемы, в которые вода стекается из разных источников. В них можно погружаться, а можно брать образцы с поверхности. Существуют еще дата-хранилища, которые выполняют конкретные задачи и служат определенным интересам. Озерные репозитории, напротив, могут принести пользу многим игрокам, если их грамотно использовать.
Казалось бы, потоки сведений только усложняют работу аналитикам, ведь сведения не структурированы, к тому же их слишком много. Но если компания умеет работать с данными и извлекать из них пользу, озеро не превращается в «болото».
Извлекаем данные из «бункера»
И все-таки какую пользу приносят data lakes компаниям? Их главное преимущество — это изобилие. В репозиторий попадают сведения от разных команд и подразделений, которые обычно никак между собой не связаны. Возьмем для примера онлайн-школу. Разные отделы ведут свою статистику и преследуют свои цели — одна команда следит за метриками удержания пользователей, вторая изучает customer journey новых клиентов, а третья собирает информацию о выпускниках. Доступа к полной картине нет ни у кого. Но если аккумулировать разрозненные сведения в едином репозитории, то можно обнаружить интересные закономерности. Например, окажется, что пользователи, которые пришли на курсы дизайна и просмотрели хотя бы два вебинара, чаще других доходят до конца программы и строят успешную карьеру на рынке. Эта информация поможет компании удержать студентов и создать более привлекательный продукт.
Часто неожиданные закономерности обнаруживаются случайно — так, озеро данных помогает дата-аналитикам экспериментально «скрещивать» разные потоки сведений и находить параллели, которые в других обстоятельствах они бы вряд ли обнаружили.
Источники данных могут быть любыми: у онлайн-школы это будет статистика с разных каналов продвижения, у фабрики — показатели IoT-датчиков, график использования станков и показатели износа оборудования, у маркетплейса — сведения о наличии товаров в стоке, статистика продаж и данные о самых популярных платежных методах. Озера как раз помогают собирать и изучать массивы информации, которые обычно никак не пересекаются и попадают в поле внимания разных отделов.
Еще один плюс дата-озер — это извлечение данных из разрозненных репозиториев и закрытых подсистем. Часто сведения хранятся в подобии информационного «бункера», доступ к которому есть только у одного подразделения. Перенести из него материалы сложно или невозможно — слишком много ограничений. Озера эту проблему решают.
Итак, можно выделить как минимум восемь преимуществ озер данных:
Помогают дата-аналитикам получать ценные инсайты.
Позволяют компании быстро принимать решения, опираясь на статистику и факты.
Дают возможность экспериментировать с разными типами данных из разных источников.
Делают процесс аналитики более демократичным и стирают барьеры между подразделениями.
Обеспечивают высокий уровень централизации и детализации данных — это позволяет найти «иголку в стоге сена».
Подходят компаниям разного размера — на ранней стадии можно начать с мини-озер и постепенно наращивать объемы.
Упрощают бизнес-процессы — например, позволяют делать cross-domain запросы и создавать комплексную продуктовую отчетность.
Обходятся дешевле, чем хранилища, потому что данные не нуждаются в предварительной обработке.
#dst #dstglobal #дст #дстглобал #алгоритмы -аналитики #озераданных #bigdata #datalakes #дата -аналитика #дата -озеро #ии #искусственныйинтеллект #машинноеобучение #бизнес -модель
Источник: https://dstglobal.ru/news/...
Озера данных: как устроены data lakes и зачем они нужны
Рынок data lakes в 2019 году достиг $3,74 млрд, а к 2025 году он вырастет до $17,6 млрд. Компании все чаще отдают предпочтение озерам, а не хранилищам. С их помощью можно извлекать ценные инсайты, отслеживать неожиданные закономерности, быстрее и эффективнее продвигать новые продукты и услуги. Для распределенной компании с множеством подразделений — это настоящая золотая жила. Специалисты компании DST Global рассказали, как извлечь максимум из новой data-архитектуры.
Озера, витрины и хранилища
Представьте, что у компании есть доступ к неисчерпаемому информационному ресурсу — погружаясь в него, аналитики регулярно получают ценные бизнес-инсайты и запускают новые, более совершенные продукты. Примерно по такому принципу работают озера данных — data lakes. Это относительно новый вид data-архитектуры, позволяющий воедино собирать сырые и разрозненные сведения из разных источников, а потом находить им эффективное применение. Первыми с технологией начали экспериментировать такие гиганты, как Oracle, Amazon и Microsoft — они же разработали удобные сервисы для построения озер.
Сам термин data lake ввел Джеймс Диксон, основатель платформы Pentaho. Он сравнивал витрины данных с озерами данных: первые похожи на бутилированную воду, которую очистили, отфильтровали и упаковали. Озера — это открытые водоемы, в которые вода стекается из разных источников. В них можно погружаться, а можно брать образцы с поверхности. Существуют еще дата-хранилища, которые выполняют конкретные задачи и служат определенным интересам. Озерные репозитории, напротив, могут принести пользу многим игрокам, если их грамотно использовать.
Казалось бы, потоки сведений только усложняют работу аналитикам, ведь сведения не структурированы, к тому же их слишком много. Но если компания умеет работать с данными и извлекать из них пользу, озеро не превращается в «болото».
Извлекаем данные из «бункера»
И все-таки какую пользу приносят data lakes компаниям? Их главное преимущество — это изобилие. В репозиторий попадают сведения от разных команд и подразделений, которые обычно никак между собой не связаны. Возьмем для примера онлайн-школу. Разные отделы ведут свою статистику и преследуют свои цели — одна команда следит за метриками удержания пользователей, вторая изучает customer journey новых клиентов, а третья собирает информацию о выпускниках. Доступа к полной картине нет ни у кого. Но если аккумулировать разрозненные сведения в едином репозитории, то можно обнаружить интересные закономерности. Например, окажется, что пользователи, которые пришли на курсы дизайна и просмотрели хотя бы два вебинара, чаще других доходят до конца программы и строят успешную карьеру на рынке. Эта информация поможет компании удержать студентов и создать более привлекательный продукт.
Часто неожиданные закономерности обнаруживаются случайно — так, озеро данных помогает дата-аналитикам экспериментально «скрещивать» разные потоки сведений и находить параллели, которые в других обстоятельствах они бы вряд ли обнаружили.
Источники данных могут быть любыми: у онлайн-школы это будет статистика с разных каналов продвижения, у фабрики — показатели IoT-датчиков, график использования станков и показатели износа оборудования, у маркетплейса — сведения о наличии товаров в стоке, статистика продаж и данные о самых популярных платежных методах. Озера как раз помогают собирать и изучать массивы информации, которые обычно никак не пересекаются и попадают в поле внимания разных отделов.
Еще один плюс дата-озер — это извлечение данных из разрозненных репозиториев и закрытых подсистем. Часто сведения хранятся в подобии информационного «бункера», доступ к которому есть только у одного подразделения. Перенести из него материалы сложно или невозможно — слишком много ограничений. Озера эту проблему решают.
Итак, можно выделить как минимум восемь преимуществ озер данных:
Помогают дата-аналитикам получать ценные инсайты.
Позволяют компании быстро принимать решения, опираясь на статистику и факты.
Дают возможность экспериментировать с разными типами данных из разных источников.
Делают процесс аналитики более демократичным и стирают барьеры между подразделениями.
Обеспечивают высокий уровень централизации и детализации данных — это позволяет найти «иголку в стоге сена».
Подходят компаниям разного размера — на ранней стадии можно начать с мини-озер и постепенно наращивать объемы.
Упрощают бизнес-процессы — например, позволяют делать cross-domain запросы и создавать комплексную продуктовую отчетность.
Обходятся дешевле, чем хранилища, потому что данные не нуждаются в предварительной обработке.
#dst #dstglobal #дст #дстглобал #алгоритмы -аналитики #озераданных #bigdata #datalakes #дата -аналитика #дата -озеро #ии #искусственныйинтеллект #машинноеобучение #бизнес -модель
Источник: https://dstglobal.ru/news/...
01:56 - 04 Aug 2021
Только люди, упомянутые в этом сообщении пользователем DstGlobal, могут отвечать