数据挖掘基础及其应用_马小科_9787560658810_浙江大涵文化创意股份有限公司

本书全面介绍了数据挖掘基础及其应用，重点阐述了数据挖掘经典算法、原理及其应用，旨在为读者提供数据挖掘所需的基本知识，使读者能够从整体上对数据挖掘内容与方法有所理解。本书内容包含五个主题：数据、分类、关联规则、聚类分析及其应用。对于分类、关联规则、聚类分析这三个主题，首先介绍了其基本概念与经典算法，在后续的章节中阐述了其更高级的主题。本书可作为高等学校计算机相关专业的高年级本科生与研究生教材，也可作为需要理解数据挖掘和智能系统的专业人员的参考书。

大容量存储设备的出现使得收集海量数据成为可能，也加速了大数据时代的到来。高性能计算机为大数据的处理、分析和挖掘提供了计算平台。在国防、政务、气象、商业、科研等与人们生产和生活息息相关的各个领域中，数据正在以前所未有的速度产生。大数据背后蕴含着巨大的价值，分析与挖掘这些有价值的规则与知识对人类的生产和生活具有重要的意义。近年来，数据挖掘引起了信息产业界的极大关注，如何从日益增加的数据中获取准确的信息和知识，并进一步广泛应用于商务管理、生产控制、市场分析、工程设计和科学探索等方面，是数据挖掘的核心。数据挖掘是人工智能和数据库领域研究的热点问题，旨在从数据中提取出隐含的、先前未知的、具有潜在价值的规律与知识，主要有数据处理、模式挖掘和知识表示三个步骤。数据处理是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；模式挖掘是用某种方法将数据集所含的规律找出来；知识表示是尽可能以用户可理解的方式（如可视化）将找出的知识表示出来。数据挖掘也是一门多学科交叉的研究与应用领域，所涉及的领域包括数据库技术、人工智能、机器学习、统计学、模式识别、高性能计算、信息检索等。本书主要介绍数据挖掘的相关方法与技术，包括数据处理、决策树算法、支持向量机、贝叶斯网络、频繁模式树算法、 K均值算法、层次聚类与密度聚类以及数据挖掘在社交网络与生物网络中的应用研究等。本书涵盖了数据挖掘中的主要内容，旨在让读者对数据挖掘的基本任务、算法原理及其应用有全面的认识。本书广泛适用于高年级本科生和研究生。由于学习这门课程的学生专业背景不同，很难达到坚实的统计学、数学专业要求，因此本书只要求最低限度的预备知识，不需要读者具有数据库的专业知识，但是假定读者有一定的统计学与高等数学背景。如果读者对于专业数学知识不了解，附录中提供了最基础的数学知识点，可辅助读者理解数据挖掘中的算法理论与过程。本书的章节安排自成体系，主讲顺序可以灵活处理：核心内容在第2、3、4、7、10章，第5、6、8、9章是对这些内容的补充，可由教师根据课时长度与难易程度来选择讲授，其中分类、关联规则和聚类分析这三部分内容无先后顺序，可以根据喜好来进行讲授与学习；第11、12章是数据挖掘在社交网络与生物网络中的应用研究，可以选择性学习与讲授。很多单位和个人都为本书的编写与出版作出了贡献，作者的博士生吴文铭同学，硕士生李东远、黄志豪、张本辉、谭诗吟等同学对本书的插图与文字进行了大量的校订工作，在此表示感谢。感谢西安电子科技大学对本书的支持与资助，同时感谢西安电子科技大学出版社的高樱编辑为本书出版所付出的努力。作者在编写本书时花费了大量的时间，特别感谢家人对作者工作的支持。由于作者的水平有限，书中难免会存在疏漏与不足之处，敬请各位读者批评指正。作者E-mail: xkma@xidian.edu.cn。

第1章绪论 1 1.1 数据概述 1 1.2 数据与社会变革 3 1.2.1 数据改变思维模式 3 1.2.2 数据改变社会模式 3 1.2.3 数据改变国家战略 4 1.3 数据挖掘的定义 5 1.4 数据挖掘的发展与应用 7 1.4.1 数据挖掘的发展 7 1.4.2 数据挖掘的应用 8 1.5 数据挖掘的任务与挑战 9 1.5.1 数据挖掘的任务 10 1.5.2 数据挖掘面临的挑战 12 1.6 本书内容与组织 13 1.6.1 章节安排 13 1.6.2 辅助阅读材料 15 本章小结 16 习题 16 参考文献 17 第2章数据 21 2.1 数据的定义 21 2.2 属性的分类 22 2.3 数据类型 24 2.3.1 数据的特性 24 2.3.2 数据的分类 24 2.4 相似性计算 26 2.4.1 相似性定义 26 2.4.2 单属性相似性度量 28 2.4.3 多属性相似性度量 29 本章小结 35 习题 35 参考文献 37 第3章数据预处理 38 3.1 数据质量 38 3.1.1 误差与噪声 38 3.1.2 应用问题 41 3.2 数据预处理概述 41 3.3 数据清洗 43 3.3.1 缺失数据处理 43 3.3.2 噪声数据处理 43 3.3.3 不一致数据处理 45 3.4 数据集成与转换 45 3.4.1 数据集成处理 45 3.4.2 数据转换处理 46 3.4.3 离散化和二进制化 47 3.5 数据约简 49 3.5.1 数据立方归并 49 3.5.2 维数约简 50 3.5.3 数据压缩 51 3.5.4 数据块约简 52 本章小结 55 习题 55 参考文献 57 第4章分类I：概念与决策树算法 58 4.1 引言 58 4.1.1 分类的定义 58 4.1.2 分类的应用 59 4.1.3 分类算法 60 4.2 决策树 61 4.3 决策树原理与构建 63 4.3.1 算法原理 64 4.3.2 分支原则 65 4.3.3 最优划分 67 4.4 补充算法 76 4.4.1 ID3算法 76 4.4.2 C4.5算法 77 4.5 过拟合/欠拟合 80 4.5.1 定义 80 4.5.2 规避策略 81 4.6 分类准确性评估 86 4.6.1 准确性 86 4.6.2 ROC曲线 87 本章小结 90 习题 90 参考文献 94 第5章分类Ⅱ：支持向量机 95 5.1 引言 95 5.2 数学模型 96 5.2.1 算法动机 96 5.2.2 数学模型 97 5.3 优化理论 99 5.3.1 凸优化 99 5.3.2 对偶理论 99 5.3.3 拉格朗日方法和KKT条件 101 5.4 SVM优化 103 5.4.1 硬间隔SVM 103 5.4.2 软间隔SVM 104 5.5 非线性SVM 106 5.6 SVM的应用 109 5.6.1 人脸识别 110 5.6.2 语音识别 110 5.6.3 图像处理 110 本章小结 111 习题 112 参考文献 113 第6章分类Ⅲ：概率分类与回归 115 6.1 引言 115 6.2 贝叶斯公式 116 6.2.1 概率基础 116 6.2.2 图论基础 118 6.2.3 信息理论 118 6.3 贝叶斯分类算法 119 6.3.1 算法原理 119 6.3.2 朴素贝叶斯算法 121 6.3.3 算法应用 124 6.4 贝叶斯信念网络 125 6.4.1 定义与推理 126 6.4.2 结构学习（网络构建） 128 6.4.3 贝叶斯信念网络的特点 130 6.5 回归分析 131 6.5.1 预备知识 131 6.5.2 线性回归 131 6.5.3 多元线性回归 135 6.5.4 最小二乘回归 136 本章小结 136 习题 137 参考文献 139 第7章关联规则Ⅰ：频繁模式挖掘 141 7.1 引言 141 7.2 基本概念 143 7.3 频繁项集挖掘 144 7.3.1 暴力破解方法 144 7.3.2 Apriori算法 145 7.3.3 加速技术 150 7.4 频繁模式树算法 153 7.4.1 FP树表示法 153 7.4.2 FP算法的频繁项集的产生 154 7.4.3 FP树挖掘对比Apriori算法 157 本章小结 158 习题 158 参考文献 161 第8章关联规则Ⅱ：关联规则挖掘 162 8.1 引言 162 8.2 关联规则提取 162 8.2.1 候选规则创建 163 8.2.2 关联规则挖掘 164 8.3 规则评价标准 167 8.3.1 支持度与置信度缺陷 167 8.3.2 关联规则价值衡量的方法 168 8.4 规则评价指标 169 8.4.1 兴趣度 169 8.4.2 其他度量 172 8.5 一致性问题 174 8.6 关联规则的应用 177 8.6.1 关联规则与CRM 177 8.6.2 CRM关联规则挖掘 178 本章小结 180 习题 180 参考文献 183 第9章聚类分析Ⅰ：概念与 K均值算法 185 9.1 引言 185 9.2 聚类流程与方法 187 9.2.1 聚类流程 187 9.2.2 聚类方法 189 9.3 K均值算法 190 9.3.1 算法的三大要素 191 9.3.2 算法的流程 192 9.3.3 算法的性能分析 194 9.4 K均值算法的拓展 195 9.5 图像分割的应用 196 本章小结 198 习题 199 参考文献 200 第10章聚类分析Ⅱ：分层聚类与密度聚类 201 10.1 引言 201 10.2 分层聚类 202 10.2.1 算法流程 202 10.2.2 集合距离计算 204 10.3 分层聚类的实现 206 10.4 密度聚类 211 10.4.1 类密度 211 10.4.2 算法过程 213 10.5 聚类结果评估 215 10.6 聚类算法对比 217 10.6.1 K均值算法 217 10.6.2 分层聚类 217 10.6.3 DBSCAN算法 218 本章小结 218 习题 219 参考文献 220 第11章社交网络图聚类 221 11.1 引言 221 11.2 社团结构 222 11.2.1 社团度量标准 223 11.2.2 社团检测算法 223 11.3 半监督学习 225 11.4 社团挖掘 226 11.4.1 算法框架 226 11.4.2 参数优化 227 11.5 实验结果 228 11.5.1 检测性能 229 11.5.2 分辨极限容忍性分析 231 本章小结 234 参考文献 234 第12章生物网络挖掘 236 12.1 引言 236 12.2 相关工作 237 12.3 基于图通信的检测算法 238 12.3.1 拓扑刻画 239 12.3.2 复合体检测 241 12.4 基于弱连接的检测算法 244 12.4.1 弱连接效应 244 12.4.2 置信网络构建 246 12.4.3 复合体检测 247 12.5 实验结果 247 12.5.1 实验数据 247 12.5.2 F值与覆盖率 248 12.5.3 P值 249 12.5.4 参数影响 251 12.5.5 鲁棒性分析 256 12.6 图密度与复合体拓扑关系 258 本章小结 259 参考文献 260 附录数学基础 262

你还可能感兴趣

我要评论