hadoop – 蚂蚁学Python

hadoop

MapReduce文件切分个数计算方法

2023-03-122014-02-27 Leave a comment by crazyant

Hadoop的MapReduce计算的第一个阶段是InputFormat处理的，先将文件进行切分，然后将每个切 … Read more MapReduce文件切分个数计算方法

《大数据时代》是一部科幻小说

2023-03-122014-02-10 3 Comments by crazyant

虽然一直在使用HADOOP、HIVE等技术在处理T级别的数据，认为自己也属于大数据领域的人了，然而对于什么是大 … Read more 《大数据时代》是一部科幻小说

hadoop, hive, linux

shell/hadoop/hive一些有用命令收集

2023-03-122013-09-24 Leave a comment by crazyant

有些命令工作中经常用到，记录在一个文章里用于查阅，本文经常更新。 shell命令 linux统计某个目录下所有 … Read more shell/hadoop/hive一些有用命令收集

hadoop

hadoop第一个程序WordCount.java的编译运行过程

2023-03-122013-08-16 2 Comments by crazyant

java是hadoop开发的标准官方语言，本文下载了官方的WordCount.java并对其进行了编译和打包， … Read more hadoop第一个程序WordCount.java的编译运行过程

hadoop

Hadoop-Streaming实战经验及问题解决方法总结

2023-03-122013-04-28 8 Comments by crazyant

目录 1. Join操作分清join的类型很重要… 2. 启动程序中key字段和partition字 … Read more Hadoop-Streaming实战经验及问题解决方法总结

Hadoop之使用python实现数据集合间join操作

2023-03-122013-04-21 5 Comments by crazyant

文章分析了hadoop借助streaming功能借助python完成map reduce的功能，并对集合间join操作的需求进行阐述，然后进行了具体实例代码的编写，同时对join操作进行了归类和易采坑的总结。