发表评论取消回复
相关阅读
相关 Spark 算子之cogroup使用
前言 在之前的文章中,我们学习了Spark 中的groupBy算子以及连接两个RDD的算子,试想有这么一个场景,两个不同的RDD中,是key/val类型的集合,现在需要将
相关 Spark 算子之join使用
前言 使用过mysql的同学对join的用法应该不陌生,使用join可以完成多个表的关联查询,而在spark中,也提供了基于join的算子,通过join,可以将不同的k/
相关 Spark 算子之aggregateByKey
前言 在实际业务中,经常涉及到对不同分区的数据做最后的聚合统计等操作,我们知道,Spark通过分区提升了整体的任务并行处理能力,但是往往在数据最终需要进行汇总,就涉及到对
相关 Spark 算子之partitionBy
前言 在之前的学习中,我们使用groupBy可以对数据按照指定的key的规则进行分组,设想这样一种场景,如果要对 tuple类型的数据,即key/value类型的数据进行
相关 Spark 算子之sortBy使用
前言 sortBy,顾名思义排序的意思,在Spark 中,使用sortBy可以对一组待处理的数据进行排序,这组数据不限于数字,也可以是元组等其他类型; sortBy
相关 Spark 算子之distinct使用
前言 相信使用过mysql的同学对sql语句中distinct关键字并不陌生,使用distinct关键字可以对查询的数据进行去重操作,在Spark 中,可以做类似的理解;
相关 Spark 算子之filter使用
前言 filter,可以理解为过滤,直观来说,就是对一组数据按照指定的规则做过滤,filter这个算子在Java或者其他语言中多有使用,能够很方便的帮我们从一组数据中过滤
相关 Spark 算子之groupBy使用
前言 groupBy,顾名思义,即为分组的含义,在mysql中groupBy经常被使用,相信很多同学并不陌生,作为Spark 中比较常用的算子之一,有必要深入了解和学习;
相关 Spark 算子之map使用
前言 算子是spark中处理数据的重要的计算单元,RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型;
相关 Spark RDD操作之Map系算子
[为什么80%的码农都做不了架构师?>>> ][80_] ![hot3.png][] 本篇博客将介绍Spark RDD的Map系算子的基本用法。 1、ma
还没有评论,来说两句吧...