图书介绍

Spark SQL入门与实践指南【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

Spark SQL入门与实践指南
  • 纪涵,靖晓文,赵政达著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302496700
  • 出版时间:2018
  • 标注页数:200页
  • 文件大小:37MB
  • 文件页数:212页
  • 主题词:数据处理软件-指南

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark SQL入门与实践指南PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 入门篇3

第1章 初识Spark SQL3

1.1 Spark SQL的前世今生3

1.2 Spark SQL能做什么4

第2章 Spark安装、编程环境搭建以及打包提交6

2.1 Spark的简易安装6

2.2 准备编写Spark应用程序的IDEA环境10

2.3 将编写好的Spark应用程序打包成jar提交到Spark上18

第二部分 基础篇23

第3章 Spark上的RDD编程23

3.1 RDD基础24

3.1.1 创建RDD24

3.1.2 RDD转化操作、行动操作24

3.1.3 惰性求值25

3.1.4 RDD缓存概述26

3.1.5 RDD基本编程步骤26

3.2 RDD简单实例—wordcount27

3.3 创建RDD28

3.3.1 程序内部数据作为数据源28

3.3.2 外部数据源29

3.4 RDD操作33

3.4.1 转化操作34

3.4.2 行动操作37

3.4.3 惰性求值38

3.5 向Spark传递函数39

3.5.1 传入匿名函数39

3.5.2 传入静态方法和传入方法的引用40

3.5.3 闭包的理解41

3.5.4 关于向Spark传递函数与闭包的总结42

3.6 常见的转化操作和行动操作42

3.6.1 基本RDD转化操作43

3.6.2 基本RDD行动操作48

3.6.3 键值对RDD52

3.6.4 不同类型RDD之间的转换56

3.7 深入理解RDD57

3.8 RDD缓存、持久化59

3.8.1 RD D缓存59

3.8.2 RD D持久化61

3.8.3 持久化存储等级选取策略63

3.9 RDD checkpoint容错机制64

第4章 Spark SQL编程入门66

4.1 Spark SQL概述66

4.1.1 Spark SQL是什么66

4.1.2 Spark SQL通过什么来实现66

4.1.3 Spark SQL处理数据的优势67

4.1.4 Spark SQL数据核心抽象——DataFrame67

4.2 Spark SQL编程入门示例69

4.2.1 程序主入口:SparkSession69

4.2.2 创建DataFrame70

4.2.3 DataFrame基本操作70

4.2.4 执行SQL查询72

4.2.5 全局临时表73

4.2.6 Dataset73

4.2.7 将RDDs转化为DataFrame75

4.2.8 用户自定义函数78

第5章 Spark SQL的DataFrame操作大全82

5.1 由JSON文件生成所需的DataFrame对象82

5.2 DataFrame上的行动操作84

5.3 DataFrame上的转化操作91

5.3.1 where条件相关92

5.3.2 查询指定列94

5.3.3 思维开拓:Column的巧妙应用99

5.3.4 limit操作102

5.3.5 排序操作:order by和sort103

5.3.6 group by操作106

5.3.7 distinct、 dropDuplicates去重操作107

5.3.8 聚合操作109

5.3.9 union合并操作110

5.3.10 join操作111

5.3.11 获取指定字段统计信息114

5.3.12 获取两个DataFrame中共有的记录116

5.3.13 获取一个DataFrame中有另一个DataFrame中没有的记录116

5.3.14 操作字段名117

5.3.15 处理空值列118

第6章 Spark SQL支持的多种数据源121

6.1 概述121

6.1.1 通用load/save函数121

6.1.2 手动指定选项123

6.1.3 在文件上直接进行SQL查询123

6.1.4 存储模式123

6.1.5 持久化到表124

6.1.6 bucket、排序、分区操作124

6.2 典型结构化数据源125

6.2.1 Parquet文件125

6.2.2 JSON数据集129

6.2.3 Hive表130

6.2.4 其他数据库中的数据表133

第三部分 实践篇139

第7章 Spark SQL工程实战之基于WiFi探针的商业大数据分析技术139

7.1 功能需求139

7.1.1 数据收集139

7.1.2 数据清洗140

7.1.3 客流数据分析141

7.1.4 数据导出142

7.2 系统架构142

7.3 功能设计143

7.4 数据库结构144

7.5 本章小结144

第8章 第一个Spark SQL应用程序145

8.1 完全分布式环境搭建145

8.1.1 Java环境配置145

8.1.2 Hadoop安装配置146

8.1.3 Spark安装配置149

8.2 数据清洗150

8.3 数据处理流程153

8.4 Spark程序远程调试164

8.4.1 导出jar包164

8.4.2 IDEA配置168

8.4.3 服务端配置170

8.5 Spark的Web界面171

8.6 本章小结172

第四部分 优化篇175

第9章 让Spark程序再快一点175

9.1 Spark执行流程175

9.2 Spark内存简介176

9.3 Spark的一些概念177

9.4 Spark编程四大守则178

9.5 Spark调优七式183

9.6 解决数据倾斜问题192

9.7 Spark执行引擎Tungsten简介195

9.8 Spark SQL解析引擎Catalyst简介197

9.9 本章小结200

热门推荐