专栏名称: 数据分析

专注大数据，移动/互联网，IT科技，电子商务，数据分析/挖掘等领域的综合信息服务与分享平台。合作｜约稿请加qq：365242293

推荐：最全的Spark基础知识解答

数据分析 · 公众号 · 大数据 · 2016-12-20 15:20

正文

请到「今天看啥」查看全文

Transformation/Action：SparkAPI的两种类型;Transformation返回值还是一个RDD，Action返回值不少一个RDD，而是一个Scala的集合;所有的Transformation都是采用的懒策略，如果只是将Transformation提交是不会执行计算的，计算只有在Action被提交时才会被触发。

DataFrame：带有Schema信息的RDD，主要是对结构化数据的高度抽象。

DataSet：结合了DataFrame和RDD两者的优势，既允许用户很方便的操作领域对象，又具有SQL执行引擎的高效表现。

5. RDD提供了两种类型的操作：

transformation和action

1，transformation是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD

2，action是得到一个值，或者一个结果(直接将RDD cache到内存中)

3，所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发

6. RDD中关于转换(transformation)与动作(action)的区别

transformation会生成新的RDD，而后者只是将RDD上某项操作的结果返回给程序，而不会生成新的RDD;无论执行了多少次transformation操作，RDD都不会真正执行运算(记录lineage)，只有当action操作被执行时，运算才会触发。

7. RDD 与 DSM的最大不同是?

DSM(distributed shared memory)

RDD只能通过粗粒度转换来创建，而DSM则允许对每个内存位置上数据的读和写。在这种定义下，DSM不仅包括了传统的共享内存系统，也包括了像提供了共享 DHT(distributed hash table) 的 Piccolo 以及分布式数据库等。

8. RDD的优势?

1、高效的容错机制

2、结点落后问题的缓和 (mitigate straggler)

3、批量操作

4、优雅降级 (degrade gracefully)

9. 如何获取RDD?

1、从共享的文件系统获取，(如：HDFS)

2、通过已存在的RDD转换

3、将已存在scala集合(只要是Seq对象)并行化，通过调用SparkContext的parallelize方法实现

4、改变现有RDD的之久性;RDD是懒散，短暂的。

10. RDD都需要包含以下四个部分

a. 源数据分割后的数据块，源代码中的splits变量

b. 关于“血统”的信息，源码中的dependencies变量

c. 一个计算函数(该RDD如何通过父RDD计算得到)，源码中的iterator(split)和compute函数

d. 一些关于如何分块和数据存放位置的元信息，如源码中的partitioner和preferredLocations0

11. RDD中将依赖的两种类型

窄依赖(narrowdependencies)和宽依赖(widedependencies)。

窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用。相应的，那么宽依赖就是指父RDD的分区被多个子RDD的分区所依赖。例如，map就是一种窄依赖，而join则会导致宽依赖

依赖关系分类的特性：

第一，窄依赖可以在某个计算节点上直接通过计算父RDD的某块数据计算得到子RDD对应的某块数据;

第二，数据丢失时，对于窄依赖只需要重新计算丢失的那一块数据来恢复;

Spark Streaming 相关知识点

1. Spark Streaming的基本原理

Spark Streaming的基本原理是将输入数据流以时间片(秒级)为单位进行拆分，然后以类似批处理的方式处理每个时间片数据

RDD 基本操作

常见的聚合操作

count(*) 所有值不全为NULL时，加1操作
count(1) 不管有没有值，只要有这条记录，值就加1
count(col) col列里面的值为null，值不会加1，这个列里面的值不为NULL，才加1

sum求和

sum(可转成数字的值) 返回bigint
avg求平均值
avg(可转成数字的值)返回double
distinct不同值个数
count(distinct col)

按照某些字段排序

select col1,other... from table where conditio order by col1,col2 [asc|desc]

Join表连接

join等值连接(内连接)，只有某个值在m和n中同时存在时。

left outer join 左外连接，左边表中的值无论是否在b中存在时，都输出;右边表中的值，只有在左边表中存在时才输出。

right outer join 和 left outer join 相反。

Transformation具体内容

reduceByKey(func, [numTasks]) : 在一个(K，V)对的数据集上使用，返回一个(K，V)对的数据集，key相同的值，都被使用指定的reduce函数聚合到一起。和groupbykey类似，任务的个数是可以通过第二个可选参数来配置的。

join(otherDataset, [numTasks]) :在类型为(K,V)和(K,W)类型的数据集上调用，返回一个(K,(V,W))对，每个key中的所有元素都在一起的数据集

groupWith(otherDataset, [numTasks]) : 在类型为(K,V)和(K,W)类型的数据集上调用，返回一个数据集，组成元素为(K, Seq[V], Seq[W]) Tuples。这个操作在其它框架，称为CoGroup

cartesian(otherDataset) : 笛卡尔积。但在数据集T和U上调用时，返回一个(T，U)对的数据集，所有元素交互进行笛卡尔积。

flatMap(func) :类似于map，但是每一个输入元素，会被映射为0到多个输出元素(因此，func函数的返回值是一个Seq，而不是单一元素)

Case 1将一个list乘方后输出

val input = sc.parallelize(List(1,2,3,4))

val result = input.map(x => x*x)

推荐 ：最全的Spark基础知识解答

正文

请到「今天看啥」查看全文

请到「今天看啥」查看全文

推荐：最全的Spark基础知识解答