首页 >

MapReduce文件切分个数计算方法

数据库|mysql教程MapReduce文件切分个数计算方法
MapReduce,文件,切分,个数,计算,方法,Hadoo
数据库-mysql教程
移动ui源码,vscode设置调试宏,Ubuntu打包so,tomcat jar共享库,sqlite 大量二进制,人工智能初级爬虫工程师,php获取js数据,147seo采集工具,网站数据模板,织梦微商城模板免费下载lzw
Hadoop的MapReduce计算的第一个阶段是InputFormat处理的,先将文件进行切分,然后将每个切分传递给每个Map任务来执行,本文阐述切分个数,也就是Map任务数目的计算方法; Hadoop首先会计算每个切分的大小,然后使用文件总大小/每个切分的大小来决定划分的总
android 简单飞机大战游戏源码,ubuntu重建开机引导,网页部署到本地tomcat,zillow反爬虫,php怎么转换为pdf,seo友情lzw
带会员中心源码,vscode命令大全npm,ubuntu配置ant,tomcat通过web升级,算法爬虫,php代码展示,湖北seo优化答疑解惑,微信趣味测试网站,设置网站404页面模板lzw
Hadoop的MapReduce计算的第一个阶段是InputFormat处理的,先将文件进行切分,然后将每个切分传递给每个Map任务来执行,本文阐述切分个数,也就是Map任务数目的计算方法;

Hadoop首先会计算每个切分的大小,然后使用”文件总大小/每个切分的大小“来决定划分的总数,如果不足一个切分的大小,则当做1个;

在org.apache.hadoop.mapred.FileInputFormat中给出了计算每个划分大小的方法:

其中几个变量的解释如下:

blockSize:HDFS存储的基本单元,默认为64MB或者128MB;

minSize:由用户设置的最小切分大小,配置项为mapred.min.split.size;

goalSize:计算公式为”文件总大小/用户设定的Map任务个数”,即用户间接期望的大小;

由此可以推断出选定策略:

划分大小为blockSize:blockSize小于用户期望的大小,比用户设定的最小值要大;也就是说如果用户设定的最小值太小的话,会使用block size作为划分大小;

划分大小为goalSize:用户设定了Map的任务数目,那么即使算出来的划分大小比block size小也会使用,这个时候出现了两个用户设定值:最小值和期望值,hadoop会选择两者中大的那个;

划分大小为minSize:如果用户期望的值,还有blocksize只都比用户设定的最小值要小,那么就会使用这个最小值;

针对这几个值,用户可以根据输入数据的情况,合理的设置mapred.min.split.size和map.tasks.size来实现优化,InputSplit和blockSize相同是非常好的一种方法,因为不需要拆分block了.

文章地址:http://www.crazyant.net/1423.html


MapReduce文件切分个数计算方法
  • MapReduce是干嘛的,三分钟了解MapReduce运行原理
  • MapReduce是干嘛的,三分钟了解MapReduce运行原理 | MapReduce是干嘛的,三分钟了解MapReduce运行原理 ...

    MapReduce文件切分个数计算方法
  • Hbase通过 Mapreduce 写入数据到Mysql
  • Hbase通过 Mapreduce 写入数据到Mysql | Hbase通过 Mapreduce 写入数据到Mysql ...

    MapReduce文件切分个数计算方法
  • 深入解析MapReduce架构设计与实现原理–读书笔记(1)概述
  • 深入解析MapReduce架构设计与实现原理–读书笔记(1)概述 | 深入解析MapReduce架构设计与实现原理–读书笔记(1)概述 ...