本书主要内容包括大数据概论、初识Hadoop、Linux基础、Hadoop集群搭建、HDFS分布式文件系统、MapReduce分布式计算框架、以及项目实战--美国新冠疫情covid-19分析。
本书将理论与实践结合,补充相关Linux基础,注重大数据技术的系统性、实用性和先进性,配有大量的应用案例,不仅能够帮助提高大数据技术的应用与研究水平,而且能提高读者的综合应用创新能力。
本书可作为高职院校大数据技术、计算机科学与计算、物联网工程等专业教材,以及大数据相关技术人员参考使用。
第1章 大数据概论
1.1 大数据概述
1.2 大数据的行业应用
1.3 大数据的基本概念
1.4 本章小结
1.5 课后习题
第2章 初识Hadoop
2.1 Hadoop简介
2.2 Hadoop生态圈介绍
2.3 本章小结
2.4 课后习题
第3章 Linux基础
3.1 Linux简介
3.2 Linux文件管理常用命令、Shell编程
3.2.1 Linux文件基础知识
3.2.2 Shell编程基础
3.2.3 Shell流程控制
3.3 本章小结
3.4 课后习题
第4章 Hadoop集群的搭建
4.1 Hadoop集群搭建前的准备
4.1.1 安装虚拟机软件
4.1.2 Hadoop集群规划
4.1.3 在虚拟机软件中安装Linux操作系统
4.1.4 配置Linux系统网络
4.1.5 SSH服务设置
4.2 Hadoop集群搭建
4.2.1 JDK安装
4.2.2 Hadoop安装
4.2.3 Hadoop集群配置
4.3 Hadoop集群启动
4.3.1 文件系统格式化
4.3.2 启动和关闭Hadoop集群
4.3.3 查看Hadoop集群运行状态
4.4 Hadoop集群使用
4.5 本章小结
4.6 课后练习
第5章 HDFS分布式文件系统
5.1 HDFS简介
5.1.1 HDFS演变
5.1.2 HDFS的基本概念
5.1.3 HDFS的特点
5.2 HDFS的读写
5.2.1 HDFS存储架构
5.2.2 HDFS文件读写原理
5.3 HDFS Shell操作
5.3.1 HDFS的Shell操作
5.3.2 案例——Shell定时采集数据到HDFS
5.4 HDFS Java API操作
5.4.1 HDFS Java API介绍