本书提供了关于如何在数据治理中建立和运行数据认责工作的适用且可操作的信息和说明,旨在为新任数据专员或数据治理经理提供在数据认责方面所需的知识,以确保其工作有效和高效。本书分为11章,包括:数据认责和数据治理:二者如何结合;了解数据认责的类型;认责管理的角色和职责;实施数据认责;培训业务型数据专员;数据认责实践;数据专员
这是一本讲解在数据要素大背景下,企业如何将数据资源开发成数据产品,进而通过数据产品实现数据资产化和资本化的著作,为企业释放数据价值提供了科学的方法论和国内领先的实践方案。这本书由全球数据资产理事会(DAC)组织编写,融合了国内数据资产管理领域多家企业的10位专家的研究成果和实战经验,得到了湖南数据产业集团、广州数据集团
本书内容主要分为四部分,前7章为第1部分,描述如何质疑、审查证据,如何收集、分析并处理缺失数据,避免数据操控等。第2部分为第8-11章,讨论数据呈现中的问题并通过创新方法取得研究新发现。第3部分为第12-17章,聚焦教育领域,再次利用证据证明了发现似实谬误之易,第4部分为结论。
本书共8章,分别讲解了Spark基础知识、Spark部署、SparkRDD、SparkSQL、SparkStreaming、Kafka、StructuredStreaming和SparkMLlib,并在最后完整开发了一个在线教育学生学习情况分析系统,帮助大家巩固前面所学的内容。
数据治理与认知安全在推动国家发展、保障国家安全、维护社会稳定和促进经济高质量发展等方面具有不可替代的重要作用。本书覆盖数据治理与认知安全两部分内容。数据治理包含数据治理体系、数据处理方法和数据合规审计三方面内容,主要关注数据的采集、清洗、集成、标注、增强和分析等规范化的管理过程,确保数据在整个生命周期中保持高质量、一致
本书内容分七大模块:大数据概述、开发环境搭建、大数据采集(爬取)、大数据分析、数据建模与数据挖掘、数据可视化以及大数据分析挖掘综合案例。开发环境采用Python语言环境,详细讲解爬虫技术原理、python爬虫第三方库、scrapy爬虫框架等。大数据分析部分讲解Numpy和Pandas。数据建模与数据挖掘模块讲解相关性与
内容简介这是6位来自多个大厂的大数据工程师联合力扣撰写的,深度解读大数据算法面试母题的求职手册。本融合了几位作者总计数百次面试他人和被他人面试的经验,结合对大厂招聘的真实需求,深度解读精选自力扣的近百道具有代表性的算法题。这些题目覆盖了几乎所有大数据从业者需要掌握的算法题类型,它们有的来自力扣多年的专业沉淀,有的来自各
本书以电商网站中的用户行为数据作为数据源,系统地介绍了如何使用Spark生态系统进行大数据离线分析和实时分析的方法。全书共7章,分别讲解了项目需求、项目架构、项目实现流程、大数据集群环境搭建、热门品类Top10分析、各区域热门商品Top3分析、网站转化率统计、广告点击流实时统计和使用FineBI实现数据可视化。本书附有
本书系统分析了大数据生命周期中的安全风险,并介绍了相关的安全与隐私保护技术。此外,本书还探讨了大数据技术应用的基本策略,包括商业应用架构、前期准备、分析过程及数据仓库的协同应用等。最后,通过丰富的案例,展示了大数据在金融、医疗、交通、教育及农业等领域的广泛应用,为读者提供了宝贵的实践指导。
全书共分九章:第一章是数据资产价值评估的入门引子。简要介绍作为数据资产基础支撑的诸多现象与相关理论、国际动态与主要挑战,让读者初步理解数据资产价值评估的宏大背景与使命定力。第二章是数据资产的基本运作情形。从数字符号的实体轨迹追踪到数据要素经济效用的嬗弈,再分成生产运营视角和商业运营视角阐述,侧重于数据资产的业务属性进行