打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
2021年现代数据栈会议都说了些什么(1)

James Le Jan 11·41 min read

早在2021年9月,我参加了第二届年度 Modern Data Stack Conference,Fivetran的社区活动,该活动汇集了数百名数据分析师、数据工程师和数据领导者,分享下一代分析的影响和经验。演讲者分享了他们的分析团队所经历的转变,他们启用的新见解和工具,以及他们为推动整个组织的洞察力而采用的最佳做法。

在这篇长篇博客回顾中,我将对会议中我认为最有用的14场会议的内容进行剖析。这些讲座分为4个类别,分别针对4个角色:数据工程师、数据分析师、产品经理和数据团队负责人。让我们深入了解一下吧

数据工程师

1 - Your Next Data Warehouse is not a Data Warehouse. Discover Lakehouse

今天,大多数企业都在为数据和人工智能项目奋斗。挑战从架构开始。你需要建立出四个不同的栈来处理你不同的数据工作负载。它们是不同的技术,通常不能很好地协同工作。整体生态系统进一步阻碍了这种架构的复杂性。有许多不同的工具来支持这些不同的架构(数据仓库,数据工程,流处理,和数据科学/ML)。传统上,在数据仓库中,你处理的是专有的数据格式。假设你想启用高级用例。在这种情况下,你必须在不同的栈中移动数据,这变得非常昂贵,资源密集,而且从治理的角度来看,很难管理。

你的数据团队感受到所有这些复杂的问题。因为这些系统是孤立的,你的团队最终也变得孤立。沟通变慢了,阻碍了创新和速度。团队最终会有不同版本的真相,因为他们不得不不断地在各地复制数据。其结果是多个副本,没有一致的安全/管理模式,封闭的系统,以及断开连接/低生产力的数据团队。

核心问题是这些堆栈所建立的技术。大多数企业都是在数据湖和数据仓库中成长起来的,有不同的目的。

  • 数据湖在支持ML方面做得很好。它们有开放的格式,有一个大的生态系统,可以在大范围的数据上进行分布式训练。你也可以处理任何类型的数据(结构化或非结构化)。然而,他们对商业智能的支持很差。它们还没有达到所需的性能,并受到数据质量问题的困扰。从根本上说,对于数据湖,你是在文件层面工作,而不是在更多的逻辑层面。
  • 数据仓库在总结BI报告的表格数据方面非常出色。然而,它们对ML模型的支持有限。它们通常是专有系统,只有一个SQL接口。

Jason Pohl认为,统一上述两个系统可以改变我们对数据的思考方式。 Delta Lake是一个你可以在摄入数据后集中管理数据的地方。它提供了你期望从数据仓库获得的可靠性、性能和治理。它还提供了数据湖的开放性、可扩展性和灵活性。通过Delta Lake,你处理的是一个更有逻辑性的表的构造。

的独特之处在于 Databricks Lakehouse Platform在3个不同方面是独一无二的。

  • 简单。它将你的数据、分析和人工智能统一在一个共同的平台上,用于所有的数据使用案例。
  • 开放:它通过开源、标准和格式来统一你的数据生态系统。它建立在一些世界上最成功的开源数据项目(Spark、Delta Lake、mlflow、Koalas、redash)的创新之上。
  • 协作性。它将你的数据团队(数据分析师、数据工程师、数据科学家)统一起来,在整个数据和人工智能工作流程中进行协作。

以下是Databricks Lakehouse平台的关键组成部分。

  • Databricks SQL面向数据分析师,用于探索他们的数据和建立虚拟仪表盘。与其他云数据仓库相比,它提供了最好的价格和性能,以及一个简化的管理和治理。如果你想连接你最喜欢的BI工具,你可以通过一个可扩展的SQL端点来实现。
  • Databricks ML今年有两个新组件(除了老产品如 Notebooks和 MLflow). AutoML是一种透明的方式来生成基线模型,用于ML模型的发现和迭代。用户可以在建立模型时快速修改搜索空间的参数,而不需要做模板工作。特征存储是集中发现/管理特征的地方,并使它们可用于训练和服务。它同时为在线和离线特征提供服务,使你能更快地从原型到生产。

2 - Why Your Warehouse Should Be Your CDP?

客户数据平台(CDP)是一个旨在保存你所有客户信息的数据库。更具体地说,它是为帮助公司激活营销自动化而特意建立的。数据从多个来源(如你的CRM、产品、网站等)提取,经过清理,并结合起来创建一个单一的客户档案。这种结构化的数据然后被提供给其他营销系统。

Tejas Manohar认为,有六个关键原因,你应该选择你的数据仓库而不是现成的CDP。

  • CDP不是唯一的真相来源。数据仓库拥有你所有的数据。
  • CDPs需要他们的事件跟踪。他们需要几个月的时间来实施。
  • CDPs与数据团队不融合。营销和数据团队应该一起工作。
  • CDPs是不灵活的。每个企业都有一个独特的数据模型。
  • CDPs拥有你的数据。你被锁定了。
  • CDPs不能从数据生态系统中获益。你是孤立的。

让我们深入挖掘每一个问题。

数据仓库拥有你所有的数据

无论你是D2C品牌、B2B SaaS公司、电子商务市场,甚至是像Capital One这样的大型银行,你的客户数据很可能已经在一个数据仓库里了。你的CDP应该是数据仓库的一个原因是,你的数据仓库已经是你的CDP。

现成的CDPs需要几个月的时间来实施

建立CDP需要大量的工作。在开始之前,你需要首先确定所有要在不同数据源中追踪的数据。然后,你需要实际跟踪它,这需要工程师编写大量的跟踪代码。除此之外,CDP要求你使用他们的事件跟踪库,而这些库只支持CDP所理解的僵化的数据模型(账户、用户和事件)。由于这些原因,一个CDP的实施需要一年多的时间,这并不罕见。

如前所述,你的仓库已经是你的CDP,这意味着这个 "实施 "步骤大部分已经发生。数据已经存在,它以一种适合你的业务的方式进行建模,并且已经准备好同步到SaaS工具。

你的数据团队喜欢你的仓库

CDPs以营销团队为目标,主要向CMO销售。归根结底,营销人员并不是解决CDP复杂数据问题的正确角色。

自助访问和数据民主化很重要,但它们是跨职能的。数据团队应该负责了解你公司的数据模型,并建立干净的数据模型供其他人使用。营销团队应该被授权分析客户行为,并在没有数据团队瓶颈的情况下对客户群体进行迭代。CDPs没有认识到这一点,相反,他们给了营销人员巨大的能力,而没有数据和工程团队的流程或护栏。

你的业务需要灵活性

CDPs是围绕僵化的数据模型建立的。以Segment Personas为例,它只提供两个核心对象 - 用户和账户。更重要的是什么?一个用户只能属于一个账户。在现实中,数据模型并不那么曲高和寡。用户可以在多个账户中,而账户可以有子账户、业务单元等。除了用户和账户之外,21世纪的公司还有自己的专有对象和层次结构。

隐私问题

随着监管的加强以及对数据隐私和数据安全的关注,没有真正的内部CDP产品。CDP提供对客户数据的限制性访问,而数据仓库提供对数据的无限制访问。最好的公司认识到,利用客户数据是一种竞争优势。因此,他们应该拥有自己的数据。

现代数据栈是最佳实践

因为CDP是为了和他们的专有生态系统打好关系而建立的,每个CDP都必须通过专有的产品功能独立解决这些问题。你需要运行的转换往往不存在,所以你别无选择,只能提交一张支持票。然而,如果你的CDP是你的数据仓库,你可以使用SQL以任何你希望的方式转换你的数据,并使用像dbt on top这样的工具来系统地编码和执行这些转换。

Tejas的公司Hightouch符合现代数据栈的反向ETL类别。反向ETL解决了分析的 "最后一英里 "问题:使数据可操作。虽然ETL和ELT将数据从源头移入数据仓库(如Fivetran),但反向ETL将建模的数据从仓库移回SaaS工具中。比如说。 Hightouch Audiences让营销人员能够访问数据仓库。

然后,该讲座讨论了两个使用案例,分别来自 Blend(由 William Tsu)和 Auto Trader(由 Darren Haken)采用Hightouch的两个用例。

混合用例

混合有两个主要挑战:数据孤岛和缓慢的内部工具。

  • 从历史上看,Asana的数据在平台内是孤立的。如果团队想把项目时间线数据连接到Salesforce,他们将被迫在两者之间手动复制字段和数值。他们的服务团队被迫在一天中多次在工具之间进行上下文切换。
  • 错综复杂的数据摄取方法花费了团队的时间和金钱。仅仅从Salesforce中提取一个单列或改变一个字段,就需要团队花费数周时间,限制了对时间关键型数据的访问。由于没有建立原型和快速迭代的能力,该团队不得不直接发布到生产中,以便能够测试他们的解决方案--这给运营团队带来了更多麻烦。随着快速扩张,新的工具也开始出现,如Asana、Marketo或Lever,以管理工作流程和过程。这些工具中的每一个都需要在其内部进行数据同步,以提高工作效率。

Blend公司的解决方案是采用Fivetran和Hightouch。Fivetran的价值在于能够将Salesforce、Marketo、Asana、NetSuite和Lever拉进来,然后将历史上不同部门的数据混合在一起进行分析。然后,Hightouch将数据推送出去,确保每个人都能看到相同的指标。

因此,Blend的财务部门能够提前四天结清服务团队的账目,将团队的财务报告时间减少一半。Blend公司的运营团队合并了数据源,以提供强大的、全业务的数据分析。简而言之,Hightouch实现了团队和工具之间的协调,推动了更好的协调,影响了Blend的底线。

Auto Trader 汽车交易商用例

Auto Trader的目标是通过创建一个统一的360度客户视图来统一他们的客户数据。这里最大的动机是在他们的产品和营销部门内激活数据,用于个性化、重定向和产品实验。这也使他们的数据科学家能够通过预测来丰富他们的客户数据。其他原因包括为客户做正确的事情--数据治理和隐私,以及控制发送给第三方的数据--只将匿名用户发送给广告网络。

然而,他们遇到了一些挑战。他们使用了一个叫Snowplow的工具来追踪他们产品内的用户,但他们仍然有许多客户数据的孤岛--营销、销售和广告工具。每个岛都有重复的受众。每个广告平台的整合工作都增加了(不得不在每个工具中重建受众和转换事件)。因此,工程瓶颈减缓了营销团队的实验能力。

Auto Trader想要一个可组合的、更精细的CDP,所以他们的解决方案是采用Hightouch Audiences来同步到平台和创建受众。它由Auto Trader在BigQuery上的数据仓库提供动力,并为Facebook和Google编制付费广告受众和转化率,从而丰富了他们的数据科学团队的预测结果。

3 - Lessons Learned from Spinning Up Multiple Data Stacks

Utsav Kaushish分享了他作为创业公司的早期分析员工所学到的东西,如 Zenefits和 User Interviews.他的MVP分析堆栈包括Fivetran(用于ELT),Amazon Redshift(用于仓库),以及Mode Analytics(用于BI)。这个堆栈可以快速建立(几天,而不是几周),成本小,而且需要最小的维护。在这个阶段获得早期胜利是至关重要的。Utsav区分了大赢(对文化和团队成长很重要)和小赢(对效率很重要)。

大赢的例子包括:

  • 设定一个 "北极星 "指标,让公司在参与度方面保持一致(重要的文化转变),这样人们可以使用分析技能来证明该指标与收入挂钩。
  • 留置分析:没有多个相连的数据源,很难做到,但可以为其他团队提供好的想法。
  • A/B测试。最难完成的,但仍然是伟大的投资回报率。这也是数据回答产品问题的一个强有力的例子(另一个地震式的文化转变)。

小赢的例子包括:

  • 仪表盘,使数据成为某人日常工作的一部分,并迅速产生重要的洞察力(什么在工作? 什么不在?)
  • 自动化报告。团队可能在Excel中做了很多手工工作,这些工作可以用预定的查询来代替。节省时间是很有价值的。

Utsav在会谈的最后分享了他希望自己能以不同方式做的一些提示。

  • 深入了解每个 "模式"。哪些数据可以改变?哪些数据是人为产生的?尝试对你的数据模式进行零假设。
  • 制作快照表。这可以像查询 "Select * from TABLE "一样简单。"这些有助于对冲数据的突变性,而且很容易设置。
  • 投资于数据转换。Fivetran和dbt的结合使数据栈的设置变得更加轻松,带来了巨大的投资回报率,并促进了新团队成员的入职。

4 - How Chick-fil-A Leveraged Data & Analytics to Prioritize in the Pandemic

在 Chick-fil-A在美国,企业分析团队是以分散的方式设立的,以支持不同的垂直领域,如营销、供应链、金融服务和整个企业的分析。数字化转型和技术团队为所有要进行的分析工作设置了核心基础设施。 Korri Jones强调这两个团队之间的强大伙伴关系,以促进组织的分析项目。

当大流行病发生时,许多妈妈和爸爸的餐馆受到了极大的冲击。清洁和食品安全对顾客来说变得更加重要。数字化订餐、在线菜单、外卖等等,从奢侈品变成了必需品。供应链出现了严重的中断,同时也出现了人才争夺战。

作为一个企业,Chick-fil-A需要决定如何支持和保护业主/经营者、他们的员工和他们所服务的社区。他们还想创造和浮现出由于大流行病造成的餐厅运营问题。因此,他们依靠自己的预测专长,对业务和品牌做出更明智的决定,同时加倍努力支持他们的员工和家庭。

为了保持公司和客人的健康,Korri的团队有两个主要目标。

  • 充分了解企业。这就需要问一些问题,例如--他们需要了解的数据中缺少什么,谁能帮助他们识别和说明这些?他们的竞争对手有哪些挑战,这些挑战如何适用于Chick-fil-A,在这段时间内是否有合作的机会?他们的客户期望什么,他们如何满足并超越这些期望?
  • 充分了解他们的人。远程工作是一回事,但远程工作和照顾家庭是另一回事。他们需要适应学校关闭的情况,并帮助人们进行远程设置。

从这些目标中,通过将数据整合到企业的行动计划中,确定COVID的趋势、关闭、国家授权是很重要的。以下是Chick-fil-A在大流行期间优先考虑的分析项目。

  • 情景规划。预测最坏的情况,最好的情况,以及介于两者之间的情况,以便重新评估所有的业务功能,同时关注他们的所有者/经营者及其团队、客人和员工。
  • 新的仪表板。建立超重点的仪表板、警报和数据管道,浮现出一家餐厅是否需要完全或部分关闭,以便他们对影响有一个近乎实时的了解。
  • ML项目。通过定义系统性地建立一个坚实的核心所需的核心架构,以加速并使数据科学工作更有弹性,从而加倍重视MLOps,更加重视模型治理以及如何与数据治理合作,并投资于监测/可观察/可解释的工具,因为他们的数据随着新的商业环境而发展。

关键的结果是,不是通过工具和技术,而是通过更紧密的合作,更迅速地将业务洞察力交付给需要的人。因此,他们加倍关注通过卓越数据保护企业、业主/经营者、员工和客户。同时,他们正在扩大他们的ML工程团队,以支持不断增长的流程自动化和预测工作。

数据分析师

5 - What is a Modern Data Architecture?

如上所见是一个常见的云数据平台的旅程。

  • 我们从内部数据仓库 开始,它有很多种类,如Oracle或SQL Server等单服务器实例和大规模并行处理(MPP)品种。鉴于其有限的计算能力,这些内部服务不能处理你所有的数据。
  • 下一个演变是云数据仓库。现在你不必担心购买基础设施和硬件的问题。像Redshift和Synapse这样的系统是移到云端的内部MPP设备,所以它们仍然面临类似的限制。
  • 对这种限制的回应是基于文件的数据湖和Hadoop。鉴于数据的爆炸性增长,既然你不能把它们存储在关系型数据库中,你可以把它们存储在商品存储的文件中。然而,这种方法带走了SQL数据库的ACID兼容性和快速回答价值。
  • 从一开始,Snowflake就被打造为一个云数据平台,以解决这两个问题。

如果你让目前几乎所有的数据工程领域的领导者在白板上画一个 "现代 "的数据架构,你肯定会得到类似以下的东西。

然而。 Jeremiah Hansen认为,这种架构已经存在了近10年,没有什么变化。这种架构包括三个主要部分:数据仓库、数据湖和数据集市。

  • 需要有独立的数据集市和数据仓库。 data lakes出现的原因是那些传统的数据仓库无法扩展以满足放在它们身上的不同的、相互竞争的工作负载。数据集市的出现是因为中央数据仓库无法扩展以满足不同的工作负载和终端用户的高并发需求。然后是数据湖,因为企业数据仓库无法存储和处理大数据(在数量、种类和速度方面)。
  • 数据湖和数据集市的创建是为了解决当时数据工程领域的实际需求。即使在今天,数据仓库仍然无法支持企业中发现的所有不同的工作负载。即使是较新的云数据仓库也是如此。这些不同的数据系统导致了孤立的数据,这对于从中获取商业价值和安全管理是非常具有挑战性的。

但是 Snowflake Cloud Data Platform已经极大地改变了数据格局,并消除了为你的每个工作负载拥有独立系统的必要性。Snowflake 可以成为您的 data warehouse,数据集市和数据湖。这要求我们在数据工程领域以不同的方式思考我们一直在做什么。它要求我们理解为什么我们一直在以某种方式做事,并挑战我们的假设。

Jeremiah 注意到,当数据架构师开始使用 Snowflake 时,他们继续回到基于传统系统 的数据架构设计,仅将 Snowflake 用作数据仓库,或可能扩大一点,包括一些数据集市。大多数人继续主张在Snowflake之外维持一个单独的基于文件的数据湖,甚至在从头开始建立一个数据湖。但是,当Snowflake可以取代所有这些系统时,为什么还要继续这样想呢?

为了向前迈进,我们需要停止从现有的系统类型来考虑数据,如传统的数据仓库、数据集市和数据湖。这样做是没有帮助的,在企业数据景观中引入了一个不自然的、人为的边界。

在高层次上,你可以将所有的企业数据归入以下逻辑数据区。

基于系统的旧思维将使数据工程专业人员被锁定在旧的做事方式中,并将继续分裂数据景观。没有必要用 Snowflake 将数据区划分为不同的、孤立的数据系统,如湖、仓库和市场。而不是沿着系统的思路,我们应该考虑一个单一的平台,用于所有的企业数据,如 此。

Snowflake 云数据平台可以支持您所有的数据仓库、数据湖、数据工程、数据交换、 数据应用和数据科学工作负载。仅仅支持其中前两个工作负载,您就可以将您的数据仓库、数据集市和数据湖整合到一个单一的平台。

6 - How Analysts Are Transforming Data Literacy at their Company

Lauren Anderson的数据和洞察力团队是如何在 Okta的数据和洞察力团队一直在教每个员工如何将企业数据作为第二语言来使用。他们的首要目标是通过赋予企业可信的数据和分析能力,使数据民主化,以做出及时的、数据驱动的决策。他们实现这一目标的途径是创建一个公民数据分析员社区。为了创建和支持这个社区,劳伦的团队需要实施和维护现代的分析技术/环境,提供一个数据所有权和数据质量跟踪和补救的框架,并通过培训活动实时支持用户。

首先,他们确定了三个角色:消费者(通过集中式报告门户按需查看高级KPI,并能在BI工具中查看报告),创造者(利用认证的数据源发布和分享报告,并能进行临时分析),以及开拓者(能访问生产和预生产数据,能创建和发布数据源,甚至能带来自己的数据)。

同样重要的是,授权业务部门拥有数据所有权,并依靠主题专家来确保数据是高质量的资产。劳伦的团队启用了一个数据托管人和数据管理人的网络,以实现定义的标准化,并解决质量改进方面的问题,从而使这三个角色可以消费、探索并做出明智的决定。该团队通过提供数据质量记分卡来支持这一过程,管理人可以在每月和每季度的会议上使用该记分卡来监测数据质量,以确保每个人在优先事项上保持一致。该团队还为标准指标和定义提供了一个中央储存库。

他们还举办年度分析日等活动,用Udemy课程提供培训课程,并维持专门的Slack频道用于分析讨论。

最后,当一份报告、一个数据集或一个预测模型准备就绪时,他们通过确保适当的监控自动化和质量评估,提供了一条通往生产的道路。如果有人看到报告上有 "经okta数据和洞察力验证 "的水印,他们就知道他们可以根据报告做出可信的决定。

截至目前,Okta每月有47%的BI工具参与,10%的人在创造内容,1%的人在开拓。随着他们继续朝着确保现代技术堆栈的方向发展,通过降低创建和分享高质量数据内容的门槛和持续的鼓励/培训,Okta的分析师社区一定会在洞察力方面成长和成熟。

Gabi Steele的首席执行官和联合创始人。 Data Culture该公司的使命是使企业能够利用数据解决问题,并建立持久的数据文化。他们提供全栈实施、部分数据团队服务、数据战略(CDO即服务)、定制数据可视化和讲故事,以及从头开始雇用数据团队。

一般来说,当进入组织时,他们的目标是帮助组织达到其下一阶段的数据成熟度,缩小基础设施和业务需求之间的差距,并授权业务拥有和社会化我们所实施的工作。

Gabi将企业的数据成熟度分为以下4个阶段。

  • 数据混乱。数据被储存在不同产品和应用的筒仓中。没有数据团队:只有辛勤工作的人或单一的数据分析员。
  • 集中化。数据被从多个来源集中到数据仓库。数据团队有一些数据分析师,数据工程师,或软件工程师在做数据工程。
  • 数据可见性。数据在分析数据库中被集中起来并可被访问。仪表盘可以很容易地建立在分析数据库的基础上。数据团队有许多数据分析师、数据工程师、BI开发人员、BI分析师、业务分析师和产品分析师。
  • 智能产品。该组织专注于建立在产品中使用数据科学和ML的能力。数据团队有额外的数据科学家、ML工程师和数据可视化工程师。

虽然大多数企业表示他们所做的决策中大约有30%是由数据提供的,但高达73%的公司数据没有被用于分析。加比认为,建立一个持久的数据文化需要一个由受启发的员工组成的社区,他们被授权使用数据来解决问题。

Brittany City是一个定量数据分析员。 Asurion- 一家位于纳什维尔的领先供应商,为手机、消费电子产品、家用电器和珠宝提供设备保险、保修和支持服务。该公司在超过15个国家运营,有50多名官员为超过3亿的客户提供服务。

你左边的图显示了数据如何流向Asurion的利益相关者。一个客户会收到一个新的设备,由于某种原因被运回给Asurion。这就变成了重新发货的数据(错误的颜色、错误的尺寸、低质量等等)。这些数据会被制作成报告,然后交给利益相关者--在设备运到客户手中之前,负责监督维修和检查的质量部门。这些报告必须有效地解释正在发生的事情,以便利益相关者能够将其提交给供应商(苹果、三星AT&T、Sprint等)。

分析师需要有清晰的数据知识和优秀的数据产品给利益相关者。Asurion有三种类型的数据产品。

  • Power BI 仪表盘。这些仪表盘在视觉上很吸引人,有过滤器可以为多个利益相关者进行定制。他们有能力用标签讲述一个完整的数据故事。然而,它们更及时,创建起来也更复杂。
  • Excel仪表板。这些是理想的表格报告,更简单易懂,而且容易创建。然而,有大量的文件需要跟踪,而且工作往往是重复性的。
  • SQL服务器报告。这些报告可以自动发送给利益相关者并提供直接的信息。但是,在工作量大的时候,可能会出现延迟和错误,再加上缺乏可视化的内容。

布列塔尼的团队所面临的路障包括来自临时请求的几个重复的Excel和SSRs文件,重复的每周Excel任务,以及Power BI仪表盘不能为利益相关者提供全面的支持。鉴于这些路障,她的团队未来的努力需要删除不必要的文件,将Excel和SSRS文件合并到Power BI仪表盘中以讲述一个完整的数据流故事,创建新的仪表盘以自动化每周的Excel文件请求,并通过过滤器和教育更新当前的仪表盘。

Archer Newell是一个高级数据分析师,在 Fivetran.在Fivetran,分析师是业务用户与数据栈之间的桥梁。他们与不同部门合作,了解他们的挑战,并将其转化为认证的数据集。在建立数据集后,他们建立仪表盘,并代表用户进行临时分析,有时会拖慢事情的进展。与其让分析师扮演这个中间人的角色,不如把这些工具直接放到业务用户的手中,这样他们就可以提出和回答自己的数据问题,甚至开始自己为报告做贡献,这样会更有效率。

分析师可以做的第一件事是通过创建良好的文档来支持这一点,所以用户可以弄清楚存在哪些数据集和度量。接下来,他们需要额外的教育和数据素养,以实际帮助用户将数据投入使用。

为了长期采用商业智能工具,用户需要能够很容易地找到有用的数据,这样他们就可以把这些工具作为他们日常工作的一部分。在Fivetran,55%的人每周使用仪表盘(70%以上不包括工程IC)。

  • 分析团队构建了他们的商业智能工具,通过添加带有顶级报告、新版本和重要链接的登陆页面,使 其易于浏览;创建经过分析认证的报告;并通过文件夹结构和命名惯例识别认证报告。
  • 该团队还与强大的用户 合作,建立更好的数据产品,并激励其团队内的自助分析冠军。

分析师还可以在教育用户如何使用BI工具和如何解释结果方面发挥很大作用,使他们能够放心地根据这些数据做出决策。

  • 该团队演示新工具,并为相关团队 提供有针对性的培训课程。
  • 该团队还提供办公时间,以帮助业务人员像数据分析师一样思考,并为业务用户提供快速洞察力,为分析师提供内容。

7 - How to Use the Modern Data Stack to Power Product-Led Growth

产品主导型增长是一种商业方法,在这种方法中,用户的获取、扩展、转换和保留都主要由产品本身来驱动。它创造了全公司范围内各团队(从工程到销售和营销)围绕产品的一致性,作为可持续、可扩展业务增长的最大来源。

Boris Jabes(的首席执行官 Census)认为,即使你不在产品职能部门工作,你也应该关心PLG。每个PLG公司都必须处理三种力量:越来越多的用户,越来越多的渠道,以及越来越多的时间段。考虑到数据影响着PLG的每一个团队(销售、支持、客户成功、设计、营销和工程),产品导向的增长本质上意味着数据导向的增长。数据团队应该利用现代数据栈,包括事件跟踪、转换、可视化、云仓库、运营和ELT。

但是,我们如何才能从部署现代数据栈到达到增长和利润呢?鲍里斯强调,增长是一个反馈的循环,以了解用户的行为和如何推动你的产品向前发展。

Buddy Marshburn(数据工程经理在 Loom)说明了他公司的一个PLG用例。Loom是一个视频信息工具,可以让你即时与你的团队分享你的屏幕和视频。

设计Loom的数据基础设施以支持PLG需要四个不同的步骤。

  • 收集和存储。Loom选择了一个基于云的数据仓库来存储他们的数据,并选择了Fivetran作为ETL工具来将数据从应用中获取到仓库。
  • 转化层。Loom利用一个可靠的、高质量的、记录良好的API层将原始数据转化为生产数据。
  • BI层。巴迪的团队经常与他们的利益相关者进行沟通,以确保在BI层(模式)中建立的仪表盘不会重复或不相关。
  • 逆向ETL和操作。Loom使用Census将数据从仓库带到应用层,用于销售、营销、支持和产品行动,从而解锁数据的操作性。

8 - Achieving Competitive Advantages with Modern BI

Lucas Thelosen谈到现代商业智能的时候,他做了一个非常翔实的演讲,现代商业智能以多种方式使企业(更好的结果,增加敏捷性,分析成熟度)和专业人士(职业发展,战略增长,数据产品管理)受益。现代商业智能的核心是由人(数据文化)、流程(数据产品管理)和技术(现代数据栈)组成。分析性成熟度是将这些不同元素结合在一起的主题。以一种简化的方式,分析成熟度包含了事后观察(已经发生了什么?

不幸的是,从技术角度来看,传统工具并不是为现代商业智能设计的。

  • 不具规模。它们不是为现代数据库设计的,因为数据通常是孤立的,立方的,或放在提取中。这导致了高成本和低性能。
  • 非敏捷性:它们不支持迭代开发,限制了那些想把分析当作产品的开发者。
  • 有限的经验。他们提供了一个一刀切的分析方法,其中每个输出都是一个报告或仪表盘。这让许多消费者望而却步。
  • 锁定。他们对框架平台和数据库的选择有限,而且设计成很难迁移出去。

Looker被设计为API优先和云原生,以整合到现有工作流程中。它还有一个语义建模层,用于企业范围内的治理,以及一个用于访问实时数据的数据库内架构。它的功能包括。

  • 现代商业智能和分析,通过提供实时报告和仪表板,激发更深入的分析。
  • 通过将相关数据注入你现有的工具,以增强体验和更有效的结果,实现 综合洞察。
  • 通过用完整的、近乎实时的数据对业务工作流程进行超级充电,实现数据 驱动的工作流程。
  • 通过提供一个为提供你所需要的结果而建立的数据工具, 定制应用程序。

从传统BI工具迁移可以帮助企业从传统报表工具过渡到现代数据平台。Looker已经与1000多个客户合作,在迁移项目上有丰富的经验。他们通过成熟的(遗留)到Looker的迁移策略使迁移过程变得简单。

  • 提升和转移。将内容复制到Looker中,只需最小的改动或增强。
  • 合理化。只转移最有价值/最受欢迎的内容,简化创建新内容的过程。
  • 新的和改进的。根据目前的业务需求,评估和开发一个新的数据解决方案。

从流程的角度来看,数据产品管理意味着像产品一样管理数据。这个过程需要。

  • 迭代开发。有了现代商业智能技术,你就有了一个敏捷的平台。现在的分析可以而且应该一直发展下去。业务用户如果能够自己钻研并提出更多的问题(减少摩擦),他们就会有更多想要测试的东西。数据产品经理与业务利益相关者会面,收集反馈,并迭代业务需要的分析。
  • 加强沟通。数据项目管理人员制定了一个路线图,并让所有人都能看到它(有发布说明)。这些说明强调了正在发布的内容和未来的内容,包括业务反馈对路线图的影响。
  • 业务分析。分析的目的是为了做出更好的、由数据驱动的决策并采取行动。数据项目管理通过将洞察力与行动联系起来,实现分析的可操作性。

从人的角度来看,一个强大的数据文化有这些要素。

  • 数据知识:你不应该认为技术是容易使用的。你的工作是教育人们数据与他们的工作有什么关系。你可以设置人们可以参加的课程和办公时间或聊天频道。你可以要求管理层对数据文化做出承诺(例如,在团队会议上使用某种仪表盘)。
  • 构建数据体验。通过现代商业智能平台,你可以把分析结果送到人们所在的地方(嵌入式或电子邮件)。你可以为受众设计报告,也可以让终端用户主导设计。简而言之,现代商业智能让用户钻研并提出更多问题。你可以策划一个钻研路径。
  • 大使网络。1:1的关系仍然是推动采用的关键。一个由不同团队中 "掌握数据 "的人组成的网络可以成为提供这些接触点的大使。这些大使可以提供轻量级的支持,原型仪表盘,并向核心团队传递反馈。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
创业者必备能力:创业各个阶段应该如何进行数据分析?| 创世界
Hadoop是否会取代数据仓库 看看硅谷的专家怎么说
腾讯IT男转行数据后感慨:没用过报表工具,别说自己懂报表
谈谈数据集成:最终指南
ETL工具(数据仓库)
BI商业智能与大数据的区别
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服