Spark的api运算函数分为两大类,Transformation和Action:Transformations是lazy evaluation的,调用他们只会被记录而不会被真正执行,只有遇到Actions,之前的Transformations才会被依次执行,这样的Delay Scheduling,Spark可以看到完整的计算流程图(以DAG有向无环图的形式表示),从而做更多的优化,Actions会返回结果给Driver或者保存结果到external storages。Spark的基本工作流程是,用户提交程序给cluster,用户的main函数会在Driver上面运行,根据用户的程序Spark会产生很多的Jobs,原则是遇到一个Action就产生一个Job,以DAG图的方式记录RDD之间的依赖关系,每一个Job又会根据这些依赖关系被DAGScheduler分成不同的Stages,每一个Stage是一个TaskSet,以TaskSet为单位,TaskScheduler通过Cluster Manager一批一批地调度到不同node上运行,同一个TaskSet里面的Task都做同样的运算,一个Partition对应一个Task。

优质内容筛选与推荐>>
1、nodejs的安装步骤的记录
2、centos5.5字体为方块问题的解决_深入学习编程_百度空间
3、Alljoyn交叉编译
4、mysql8主从复制配置
5、存储系统管理(二)——Linux系统的swap分区、磁盘加密、磁盘阵列


长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    阅读
    好看
    已推荐到看一看
    你的朋友可以在“发现”-“看一看”看到你认为好看的文章。
    已取消,“好看”想法已同步删除
    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号