大数据湖最佳实践_Alex，Gorelik 著_9787519845902_浙江大涵文化创意股份有限公司

内容简介
序言
作者介绍
目录

l 数据仓库、大数据、数据科学的简单介绍。

l 了解企业建立数据湖的各种途径。

l 探索如何构建自助服务模型，以及如何让分析师便捷访问数据的最佳实践。

l 使用不同的方法来构建数据湖。

l 了解不同行业专家实现数据湖的方法。

前言

近些年来，很多企业开始尝试使用大数据和云技术来构建数据湖（data lake），用于支持数据驱动的企业文化和决策，但这些项目经常会陷入停滞甚至失败。因为很多互联网公司的工作方式未必适合这些企业，而市面上又没有全面实用的指南来指导大家如何进行相应的调整。在这个背景下我写了这本书，目的是希望能在这方面提供帮助。

我曾在IBM 和Informatica（主要的数据技术供应商）任管理职务，在Menlo Ventures（一家领先的VC 公司）担任常驻企业家，目前是Waterline（一家大数据初创企业）的创始人兼CTO，在此期间我有幸能和上百位专家、有想法的人、行业分析师以及一线从业者讨论关于成功建立数据湖、培养数据驱动文化的挑战。本书正是我对各个行业（从社交媒体到银行和政府机构）和各种角色（从首席数据官和其他IT 主管到数据架构师、数据科学家和业务分析师）将会遇到的不同场景及其最佳实践的总结。

大数据、数据科学和数据分析实现了数据驱动决策，并有望在许多方面带来前所未有的洞察力和效率，例如我们处理数据的方式、与客户合作的方式以及寻找治愈癌症的方法，但数据科学和数据分析都需要访问历史数据。认识到了这一点，许多公司开始部署大数据湖，将所有数据集中在一个地方并开始保存历史记录，使得数据科学家和分析人员可以访问他们需要的信息，以实现数据驱动的决策。企业大数据湖弥合了不同的现代互联网公司自由文化之间的鸿沟，在这种统一的文化中，数据是所有实践的核心，每个人都是分析师，大部分人都可以对自己的数据集进行编码和处理。

想要取得成功，企业数据湖必须提供三项新的能力：

?? 高性价比、可扩展的存储和计算能力，用于在存储和分析大量数据的同时不至于引入过高的计算开销。

?? 经济高效的数据获取和治理方式，使得每个人在查找和使用正确数据的同时避免进行编程或手工临时取数，从而避免引入过高的人力成本。

?? 分层的、受管理的访问方式，根据不同的用户需求、技术水平和适用的数据管理策略，不同级别的数据可供不同用户使用。

Hadoop、Spark、NoSQL 数据库和基于弹性云的系统是令人兴奋的新技术，它们提供了第一项能力——高性价比、可扩展的存储和计算能力。虽然它们仍处在逐渐成熟的过程中，并面临着任何新技术固有的一些挑战，但它们已迅速趋向稳定并成为主流。然而这些强大的技术并不能提供另外两项能力——经济高效和分层数据访问。因此，当企业创建大型集群并收集大量数据后，最终得到的是数据沼泽而不是数据湖。这是由不可用数据集组成的大型存储库，人们无法查找或理解这些数据集，也无法依赖它做任何决策，因为这太危险了。

本书主要讲解为全面实现大数据湖的三项能力所经历的思考以及最佳实践，讨论了创建和发展数据湖的各种方法，包括数据水洼（data puddle，用作分析沙盒）和数据池（data pond，用作大数据仓库），以及从零开始构建数据湖的方法。书中探讨了自建、云上和虚拟三种不同体系结构数据湖的优缺点，内容包括如何建立不同的区域来存储原始未处理的数据、精心管理和汇总的数据，以及如何管理对这些区域的访问。它解释了如何启用自助服务以便用户能够自助查找、理解和取用数据，如何为具有不同技术能力的用户提供不同的交互，以及如何在此过程中不违反企业的数据管理政策。

目标读者

本书的目标读者是在大型传统企业工作的下面这几类人员：

?? 数据服务和治理团队：首席数据官和数据管理员。

?? IT 主管和架构师：首席技术官和大数据架构师。

?? 分析团队：数据科学家、数据工程师、数据分析师和分析主管。

?? 合规团队：首席信息安全官、数据保护官、信息安全分析师和合规检查主管。

本书内容得益于我在30 年的职业生涯中接触过的先进数据技术，以及帮助世界上那些超大型企业解决过的棘手数据问题。它借鉴了世界领先的大数据公司和企业的最佳实践，以及来自一线从业者和行业专家的短文和成功案例，为成功构建和部署大数据湖提供了全面的指导。如果你想充分利用这些令人兴奋的新型大数据技术和方法给企业带来优势，那么本书是一个很好的起点。对于管理层来说，他们可以先读一遍此书，当工作中遇到大数据问题时再来翻阅。对于一线从业者来说，他们可以将此书作为规划和执行大数据湖项目的实用参考。

排版约定

本书采用下述排版约定。

斜体（Italic）

表示新术语、URL、电子邮件地址、文件名和扩展名。

等宽字体（Constant Width）

表示程序清单，在段落中出现则表示程序元素，例如变量、函数名、数据类型、环境变量、语句和关键字。

斜体等宽字体（Constant Width Italic）

表示应该替换成用户提供的值，或者由上下文决定的值。

O’Reilly 在线学习平台（O’Reilly Online Learning）

近40 年来，O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。

我们拥有独一无二的专家和革新者组成的庞大网络，他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly 的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境，以及O’Reilly 和200 多家其他出版商提供的大量文本和视频资源。有关的更多信息，请访问http://oreilly.com。

联系我们

请把对本书的评价和问题发给出版社。

美国：

O’Reilly Media, Inc.

1005 Gravenstein Highway North

Sebastopol, CA 95472

中国：

北京市西城区西直门南大街2号成铭大厦C座807室（100035）

奥莱利技术咨询（北京）有限公司

这本书有专属网页，你可以在那儿找到本书的勘误、示例和其他信息，地址是：http://bit.ly/Enterprise-Big-Data-Lake。

如果你对本书有一些评论或技术上的建议，请发送电子邮件到bookquestions@oreilly.com。

要了解O’Reilly 图书、培训课程、会议和新闻的更多信息，请访问我们的网站，地址是：http://www.oreilly.com。

我们的Facebook：http://facebook.com/oreilly。

我们的Twitter：http://twitter.com/oreillymedia。

我们的YouTube 视频： http://www.youtube.com/oreillymedia。

致谢

首先我要对所有与我分享故事、专业知识和最佳实践的专家和从业者们表示深深的感谢，这是一本关于你们的书，也是为你们而写的书！

此外也非常感谢所有帮助我完成本书书写的人，这是我的第一本书，没有你们的帮助我肯定无法完成。感谢：

O’Reilly 团队：我的O’Reilly 编辑Andy Oram，他在我精疲力竭的时候为本书注入了新的活力，并帮助它从意识流转变为连贯的内容；产品编辑Tim McGovern，他帮助此书出版；文案编辑Rachel Head，她让我震惊的是，即便经过了两年多的写作、编辑、重写、评论，以及反复的修改与重写，这本书仍然可以改进那么多。

通过短文分享了自己想法和最佳实践的行业贡献者，你可以在书中相应论文旁找到他们的名字和履历。

以全新的视角、批判性的眼光和行业专业知识为本书做出巨大改进的审校者:Sanjeev Mohan、Opinder Bawa 和Nicole Schwartz。

最后，感谢我的妻子Irina，我的孩子Hannah、Jane、Lisa 和John，我的妈妈Regina，我的朋友以及Waterline 大家庭的各位。如果没有你们的支持和爱，就不会有这本书。

Alex Gorelik是Waterline Data的首席技术官和创始人，也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理，负责管理公司的平台和数据集成技术。此外，他还曾是IBM杰出的工程师，也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。

前言 1

第1 章数据湖概述 7

数据湖的成熟度 9

数据水洼 11

数据池 12

创建成功的数据湖 12

适合的平台 13

适合的数据 14

适合的界面 16

数据沼泽 18

成功实施数据湖的路线图 20

建立数据湖 20

规划数据湖 21

构建自助服务的数据湖 23

构建数据湖 28

云上数据湖 29

逻辑数据湖 29

小结 34

第2 章历史背景 35

数据自助服务驱动——数据库的诞生 36

分析必要性驱动——数据仓库的诞生 39

数据仓库生态系统 40

存储和查询数据 41

加载数据——数据集成工具 47

组织和管理数据 51

消费数据 57

小结 58

第3 章大数据和数据科学概述 59

Hadoop 引领大数据的历史性转变 60

Hadoop 文件系统 60

MapReduce 作业中计算和存储如何交互 61

Schema on Read 63

Hadoop 项目 64

数据科学 65

你的分析机构应该关注什么？ 67

机器学习 71

可解释性 72

变更管理 73

小结 74

第4 章建立数据湖 75

为什么是Hadoop 75

防止数据水洼扩散 78

利用大数据的优势 79

以数据科学为先导 80

策略1: 迁移已有功能 83

策略2: 为新项目建立数据湖 85

策略3: 建立数据治理中心 85

哪种策略最适合你？ 86

小结 88

第5 章从数据池/ 大数据仓库到数据湖 89

数据仓库的基本功能 90

用于分析的维度模型 91

整合不同源的数据 92

使用缓慢变化维保存历史记录 93

数据仓库作为历史库的局限性 93

迁移至数据池 94

数据池中保存历史数据 94

在数据池中使用缓慢变化维 96

数据池演化为数据湖——加载数据仓库中未包含的数据 98

原始数据 98

外部数据 99

IoT 与其他流式数据 102

实时数据湖 103

Lambda 架构 105

数据转换 106

目标系统 108

数据仓库 109

业务数据存储 109

实时应用和数据产品 110

小结 111

第6 章自助服务优化 112

自助服务起源 113

业务分析师 115

发现和理解数据——企业数据归档 116

建立信任 119

数据预置 126

为分析准备数据 128

数据湖数据整理 129

用Hadoop 来准备数据 129

数据预处理的常见案例 130

分析和可视化 133

自助式商业智能的新世界 133

新的分析工作流 134

门卫向店主的角色转变 136

管理自助服务 137

小结 137

第7 章数据湖架构 139

规划数据湖 139

原始区 141

产品区 142

工作区 144

敏感区 145

多数据湖 146

保持各数据湖独立的优势 147

合并多数据湖的优势 147

云上数据湖 148

虚拟数据湖 151

数据联邦 151

大数据虚拟化 152

消除冗余 154

小结 156

第8 章数据湖元数据 157

组织数据 157

技术元数据 159

业务元数据 164

打标 166

自动编目 167

逻辑数据管理 169

敏感数据管理和访问控制 169

数据质量 170

连接分散的数据 172

建立血缘关系 174

数据预置 176

创建目录的工具 176

工具对比 177

数据洋 178

小结 179

第9 章数据访问控制 180

授权与访问控制 181

基于标签的控制策略 182

数据脱敏 186

数据主权与法规 189

自助服务访问管理 191

预置数据 196

小结 204

第10 章行业案例 205

金融服务大数据 206

消费者、数字化和数据正在改变我们所熟知的金融行业 206

拯救银行 208

新数据提供新机遇 212

使用数据湖的关键过程 215

数据湖为金融服务领域带来的价值 218

保险行业中的数据湖 220

智慧城市 222

医疗大数据 224

作者介绍 227

封面介绍 227

你还可能感兴趣

大数据采集与预处理（微课版）
大数据技术及应用
大数据导论
大数据安全治理与防范——网址反欺诈实战
非结构化数据处理技术及应用
自动检测与控制仪表实训教程

我要评论

您的姓名	验证码：
留言内容