前言
近些年来,很多企业开始尝试使用大数据和云技术来构建数据湖(data lake),用于支持数据驱动的企业文化和决策,但这些项目经常会陷入停滞甚至失败。因为很多互联网公司的工作方式未必适合这些企业,而市面上又没有全面实用的指南来指导大家如何进行相应的调整。在这个背景下我写了这本书,目的是希望能在这方面提供帮助。
我曾在IBM 和Informatica(主要的数据技术供应商)任管理职务,在Menlo Ventures(一家领先的VC 公司)担任常驻企业家,目前是Waterline(一家大数据初创企业)的创始人兼CTO,在此期间我有幸能和上百位专家、有想法的人、行业分析师以及一线从业者讨论关于成功建立数据湖、培养数据驱动文化的挑战。本书正是我对各个行业(从社交媒体到银行和政府机构)和各种角色(从首席数据官和其他IT 主管到数据架构师、数据科学家和业务分析师)将会遇到的不同场景及其最佳实践的总结。
大数据、数据科学和数据分析实现了数据驱动决策,并有望在许多方面带来前所未有的洞察力和效率,例如我们处理数据的方式、与客户合作的方式以及寻找治愈癌症的方法,但数据科学和数据分析都需要访问历史数据。认识到了这一点,许多公司开始部署大数据湖,将所有数据集中在一个地方并开始保存历史记录,使得数据科学家和分析人员可以访问他们需要的信息,以实现数据驱动的决策。企业大数据湖弥合了不同的现代互联网公司自由文化之间的鸿沟,在这种统一的文化中,数据是所有实践的核心,每个人都是分析师,大部分人都可以对自己的数据集进行编码和处理。
想要取得成功,企业数据湖必须提供三项新的能力:
?? 高性价比、可扩展的存储和计算能力,用于在存储和分析大量数据的同时不至于引入过高的计算开销。
?? 经济高效的数据获取和治理方式,使得每个人在查找和使用正确数据的同时避免进行编程或手工临时取数,从而避免引入过高的人力成本。
?? 分层的、受管理的访问方式,根据不同的用户需求、技术水平和适用的数据管理策略,不同级别的数据可供不同用户使用。
Hadoop、Spark、NoSQL 数据库和基于弹性云的系统是令人兴奋的新技术,它们提供了第一项能力——高性价比、可扩展的存储和计算能力。虽然它们仍处在逐渐成熟的过程中,并面临着任何新技术固有的一些挑战,但它们已迅速趋向稳定并成为主流。然而这些强大的技术并不能提供另外两项能力——经济高效和分层数据访问。因此,当企业创建大型集群并收集大量数据后,最终得到的是数据沼泽而不是数据湖。这是由不可用数据集组成的大型存储库,人们无法查找或理解这些数据集,也无法依赖它做任何决策,因为这太危险了。
本书主要讲解为全面实现大数据湖的三项能力所经历的思考以及最佳实践,讨论了创建和发展数据湖的各种方法,包括数据水洼(data puddle,用作分析沙盒)和数据池(data pond,用作大数据仓库),以及从零开始构建数据湖的方法。书中探讨了自建、云上和虚拟三种不同体系结构数据湖的优缺点,内容包括如何建立不同的区域来存储原始未处理的数据、精心管理和汇总的数据,以及如何管理对这些区域的访问。它解释了如何启用自助服务以便用户能够自助查找、理解和取用数据,如何为具有不同技术能力的用户提供不同的交互,以及如何在此过程中不违反企业的数据管理政策。
目标读者
本书的目标读者是在大型传统企业工作的下面这几类人员:
?? 数据服务和治理团队:首席数据官和数据管理员。
?? IT 主管和架构师:首席技术官和大数据架构师。
?? 分析团队:数据科学家、数据工程师、数据分析师和分析主管。
?? 合规团队:首席信息安全官、数据保护官、信息安全分析师和合规检查主管。
本书内容得益于我在30 年的职业生涯中接触过的先进数据技术,以及帮助世界上那些超大型企业解决过的棘手数据问题。它借鉴了世界领先的大数据公司和企业的最佳实践,以及来自一线从业者和行业专家的短文和成功案例,为成功构建和部署大数据湖提供了全面的指导。如果你想充分利用这些令人兴奋的新型大数据技术和方法给企业带来优势,那么本书是一个很好的起点。对于管理层来说,他们可以先读一遍此书,当工作中遇到大数据问题时再来翻阅。对于一线从业者来说,他们可以将此书作为规划和执行大数据湖项目的实用参考。
排版约定
本书采用下述排版约定。
斜体(Italic)
表示新术语、URL、电子邮件地址、文件名和扩展名。
等宽字体(Constant Width)
表示程序清单,在段落中出现则表示程序元素,例如变量、函数名、数据类型、环境变量、语句和关键字。
斜体等宽字体(Constant Width Italic)
表示应该替换成用户提供的值,或者由上下文决定的值。
O’Reilly 在线学习平台(O’Reilly Online Learning)
近40 年来,O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。
我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly 的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly 和200 多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。
联系我们
请把对本书的评价和问题发给出版社。
美国:
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
这本书有专属网页,你可以在那儿找到本书的勘误、示例和其他信息,地址是:http://bit.ly/Enterprise-Big-Data-Lake。
如果你对本书有一些评论或技术上的建议, 请发送电子邮件到bookquestions@oreilly.com。
要了解O’Reilly 图书、培训课程、会议和新闻的更多信息,请访问我们的网站,地址是:http://www.oreilly.com。
我们的Facebook:http://facebook.com/oreilly。
我们的Twitter:http://twitter.com/oreillymedia。
我们的YouTube 视频: http://www.youtube.com/oreillymedia。
致谢
首先我要对所有与我分享故事、专业知识和最佳实践的专家和从业者们表示深深的感谢,这是一本关于你们的书,也是为你们而写的书!
此外也非常感谢所有帮助我完成本书书写的人,这是我的第一本书,没有你们的帮助我肯定无法完成。感谢:
O’Reilly 团队:我的O’Reilly 编辑Andy Oram,他在我精疲力竭的时候为本书注入了新的活力,并帮助它从意识流转变为连贯的内容;产品编辑Tim McGovern,他帮助此书出版;文案编辑Rachel Head,她让我震惊的是,即便经过了两年多的写作、编辑、重写、评论,以及反复的修改与重写,这本书仍然可以改进那么多。
通过短文分享了自己想法和最佳实践的行业贡献者,你可以在书中相应论文旁找到他们的名字和履历。
以全新的视角、批判性的眼光和行业专业知识为本书做出巨大改进的审校者:Sanjeev Mohan、Opinder Bawa 和Nicole Schwartz。
最后,感谢我的妻子Irina,我的孩子Hannah、Jane、Lisa 和John,我的妈妈Regina,我的朋友以及Waterline 大家庭的各位。如果没有你们的支持和爱,就不会有这本书。