MapReduce文件切分个数计算方法

Hadoop的MapReduce计算的第一个阶段是InputFormat处理的,先将文件进行切分,然后将每个切分传递给每个Map任务来执行,本文阐述切分个数,也就是Map任务数目的计算方法; Hadoop首先会计算每个切分的大小,然后使用”文件总大小/每个切分的大小“来决定划分的总数,如果不足一个切分的大小,则当做1个; 在org.apache.hadoop.mapred. … 继续阅读MapReduce文件切分个数计算方法

《大数据时代》是一部科幻小说

虽然一直在使用HADOOP、HIVE等技术在处理T级别的数据,认为自己也属于大数据领域的人了,然而对于什么是大数据一直是模糊的概念。自己处理的是T级别数据,感觉HADOOP技术其实就是分布式计算的演变版,并不是什么新奇的事物。然而最近读的《大数据时代》一书,作者从思维、商业、风险、掌控等方面对大数据给出了自己独特的见解,其中的有些观点有些匪夷所思,然而毕竟是作者自己看法,很是新颖。 1、不是随机样 … 继续阅读《大数据时代》是一部科幻小说

shell/hadoop/hive一些有用命令收集

有些命令工作中经常用到,记录在一个文章里用于查阅,本文经常更新。 shell命令 linux统计某个目录下所有文件的行数的命令

用find查找crazyant目录下所有文本文件的行数之和。不过该命令执行挺慢的。 linux统计某个目录下所有目录和总目录的大小命令

统计 … 继续阅读shell/hadoop/hive一些有用命令收集

hadoop第一个程序WordCount.java的编译运行过程

java是hadoop开发的标准官方语言,本文下载了官方的WordCount.java并对其进行了编译和打包,然后使用测试数据运行了该hadoop程序。   这里假定已经装好了hadoop的环境,在Linux下运行hadoop命令能够正常执行; 下载java版本的WordCount.java程序。   将WordCount.java复制到linux下的一个目录,这里我复制到/h … 继续阅读hadoop第一个程序WordCount.java的编译运行过程

Hadoop-Streaming实战经验及问题解决方法总结

目录 1.   Join操作分清join的类型很重要… 2.  启动程序中key字段和partition字段的设定… 3.  控制hadoop程序内存的方法… 4.   对于数字key的排序问题… 5.   在mapper中获取map_input_file环境变量的方法… 6.   运行过程中记录数据的方法… 7.  多次运行 … 继续阅读Hadoop-Streaming实战经验及问题解决方法总结