当前位置: 首页 > news >正文

企业不开了网站备案吗网站查询域名ip

企业不开了网站备案吗,网站查询域名ip,wordpress 获取分类子分类,北京专业网站外包公司星光下的赶路人star的个人主页 大鹏一日同风起,扶摇直上九万里 文章目录 1、Spark1.1 Spark入门1.1.1 Spark部署模式1.1.2 常用端口 1.2 SparkCore1.2.1 RDD不可变和五大属性1.2.2 RDD的弹性1.2.3 cache和Checkpoint的区别1.2.4 算子 1.3 SparkSQL1.4 内核1.4.1提交…

在这里插入图片描述
                       星光下的赶路人star的个人主页

                      大鹏一日同风起,扶摇直上九万里

文章目录

  • 1、Spark
    • 1.1 Spark入门
      • 1.1.1 Spark部署模式
      • 1.1.2 常用端口
    • 1.2 SparkCore
      • 1.2.1 RDD不可变和五大属性
      • 1.2.2 RDD的弹性
      • 1.2.3 cache和Checkpoint的区别
      • 1.2.4 算子
    • 1.3 SparkSQL
    • 1.4 内核
      • 1.4.1提交流程(YarnCluster)
      • 1.4.2 SortShuffle

1、Spark

1.1 Spark入门

1.1.1 Spark部署模式

1、Standalone模式:spark自己管理资源
2、yarn模式:yarn来管资源
- Client模式:Driver(线程)在client里
- Cluster模式:Driver(线程)在AM里
3、mesos模式:国外用的
4、k8s模式:未来趋势

1.1.2 常用端口

4040 运行时端口
7070 内部通讯端口
18080 历史服务器

1.2 SparkCore

1.2.1 RDD不可变和五大属性

五大属性:分区、分区器、计算逻辑、最优位置、血缘关系。

1.2.2 RDD的弹性

储存:内存和磁盘·
容错:cache、persist
计算:重试
位置:task、数据不在一起

1.2.3 cache和Checkpoint的区别

cache:不会切断血缘
Checkpoint:会切断血缘

1.2.4 算子

1、单value
map
fliter
flatMap
mapPartition:一次处理一个分区的数据
groupBy
repartition:扩大分区,一定会shuffle
coalesce:减少分区:不一定会shuffle

2、双Value
union
zip
交集
差集

3、k-v
groupby:重分区,shuffle,不做聚合
ReduceBy:重分区,shuffle,做预聚合
sortbykey
大部分xxxbykey的算子会导致shuffle

4、行动算子
foreach
take
collect
Reduce
first

5、血缘关系
宽依赖:有shuffle,一对多:父rdd的一个分区发往子rdd多个分区
窄依赖:没有shuffle,一对一,父rdd的一个分区发往子rdd的一个分区

6、Application划分
Application:SparkContext的数量
job:行动算子的数量
stage:宽依赖的数量+1
task:一个stage中task的数量=最后一个rdd的分区数量

7、共享变量
广播变量
累加器

1.3 SparkSQL

1、数据抽象
rdd
DataFrame
DataSet
2、hive on spark vs spark on hive
hive on spark: 写 hivesql, 解析、编译、优化都是 hive的,只有执行是spark
spark on hive: 写sparksql,解析、编译、优化、执行都是spark的,只用到了hive的元数据

hive on spark的优点:图方便, hive on spark,写hivesql就行了,学习成本低,好维护

spark on hive的优点:更灵活, spark on hive,写sparksql,需要一定的spark代码功底

1.4 内核

1.4.1提交流程(YarnCluster)

在这里插入图片描述
1、先执行启动命令,然后会看到一个SparkSubmit进程,这个进程首先是解析参数、再创建YarnClusterApplication客户端,然后由客户端封装提交参数和命令,再向ResourceManager提交任务信息
2、由ResourceManager启动ApplicationMaster
3、AM根据参数,启动Driver线程并初始化SparkContext
4、向ResourceManager注册AM,申请资源
5、由ResourceManager向AM返回资源可用列表
6、启动launcherPool,利用RPC模块启动Executor
7、然后再向Driver注册Executor
8、Driver告知注册成功
9、创建Executor计算对象
10、再由Driver进行任务切分
11、再由Driver分配任务

1.4.2 SortShuffle

在这里插入图片描述
1、在该模式下,数据会先写入到一个数据结构,ReduceByKey写入Map,一边通过Map局部聚合,一边写入内存。Join算子写入ArrayList直接写入内存。然后需要判断是否达到阙值,如果达到就会将内存数据结构的数据写入到磁盘,清空内存数据结构。

2、在溢写磁盘时,先根据key进行排序,排序过后的数据,会分批写入到磁盘文件中,默认批次为10000条,数据会以此每批一万条写入到磁盘文件中。写入磁盘文件通过缓冲区溢写的方式,每次溢写都会产生一个磁盘文件,也就是每个task过程中会产生多个临时文件

3、最后在每个task中,将所有的临时文件合并,这就是merge过程,此过程将所有的临时文件读取出来,一次写入到最终文件。意味着一个task的所有数据都在这一个文件中。同时单独写一份索引文件,标识下游各个task的数据在文件中的索,start offset和end offset。

在这里插入图片描述
                      您的支持是我创作的无限动力

在这里插入图片描述
                      希望我能为您的未来尽绵薄之力

在这里插入图片描述
                      如有错误,谢谢指正;若有收获,谢谢赞美

http://www.ysxn.cn/news/2463.html

相关文章:

  • 网站设计站甘肃搜索引擎网络优化
  • 莆田做网站域名注册查询网站
  • 分销商城小程序seo每日
  • 广州天河区做网站网站交易
  • 第二季企业网站开发独立站推广
  • 呼和浩特网站建设小程序怎么做
  • 深圳网站建设公司官网百度广告商
  • 软件公司做网站百度搜索引擎的优缺点
  • 动态网站开发实训报告网站推广的一般流程是
  • 搭建网站的六个基本步骤流程互联网公司排名
  • 网站规划与建设重点内容全国人大常委会委员长
  • 石家庄市住房和城乡建设委员会网站营销团队公司
  • 怎么做视频聊天网站免费网站代理访问
  • 织梦多语言网站谷歌浏览器搜索引擎入口
  • 劳务派遣技术支持 东莞网站建设千锋教育靠谱吗
  • 甘肃省广电网络公司网站微营销平台系统
  • magento 做的最牛逼的中文网站海南网站制作公司
  • 邳州建网站百度竞价排名又叫
  • 美女做艾网站优化设计官网
  • 网页美工设计第一步需要做什么我赢seo
  • 宝安网页长尾词seo排名优化
  • 学慧网的网站是谁家做的seo是什么意思呢
  • 比较权威的房产网站定制网站多少钱
  • 网站定制开发需要什么资质图片外链生成工具
  • 企业网站服务器托管风云榜百度
  • 花卉电子商务网站建设策划书常见的搜索引擎
  • ps做素材下载网站品牌推广方案案例
  • 网站建设boss都知道徐州seo建站
  • 做网站购买域名之后谷歌推广一年多少钱
  • seo怎么给网站做外链品牌营销策略有哪些