Skip to content

蚂蚁学Python

分享Python干货知识的个人博客

  • 首页
  • pandas
  • 爬虫
  • 推荐系统
  • 关于我
    • 留言小本
    • 冥想资料
    • 编程笔记
    • 常用资源
    • 个人书单
    • 个人箴言

hadoop

Categories 未分类

MapReduce文件切分个数计算方法

2019-07-282014-02-27 Leave a comment by crazyant

Hadoop的MapReduce计算的第一个阶段是InputFormat处理的,先将文件进行切分,然后将每个切 … Read more MapReduce文件切分个数计算方法


Categories 未分类

《大数据时代》是一部科幻小说

2014-02-102014-02-10 3 Comments by crazyant

虽然一直在使用HADOOP、HIVE等技术在处理T级别的数据,认为自己也属于大数据领域的人了,然而对于什么是大 … Read more 《大数据时代》是一部科幻小说


Categories 未分类

shell/hadoop/hive一些有用命令收集

2019-07-302013-09-24 Leave a comment by crazyant

有些命令工作中经常用到,记录在一个文章里用于查阅,本文经常更新。 shell命令 linux统计某个目录下所有 … Read more shell/hadoop/hive一些有用命令收集


Categories 未分类

hadoop第一个程序WordCount.java的编译运行过程

2013-08-162013-08-16 2 Comments by crazyant

java是hadoop开发的标准官方语言,本文下载了官方的WordCount.java并对其进行了编译和打包, … Read more hadoop第一个程序WordCount.java的编译运行过程


Categories 未分类

Hadoop-Streaming实战经验及问题解决方法总结

2013-04-28 6 Comments by crazyant

目录 1.   Join操作分清join的类型很重要… 2.  启动程序中key字段和partit … Read more Hadoop-Streaming实战经验及问题解决方法总结


Categories 未分类

Hadoop之使用python实现数据集合间join操作

2019-07-282013-04-21 5 Comments by crazyant

文章分析了hadoop借助streaming功能借助python完成map reduce的功能,并对集合间join操作的需求进行阐述,然后进行了具体实例代码的编写,同时对join操作进行了归类和易采坑的总结。


微信公众号:蚂蚁学Python

标签

apache c++ django excel flask hadoop hive java javascript jquery jvm linux mac maven mybatis mysql pandas php python qt redis seo shell spark svn tensorflow tomcat ubuntu vim win7 word wordpress 大数据 安全 推荐系统 操作系统 数据分析 数据库 机器学习 爬虫 程序人生 站长 算法 织梦 设计

近期文章

  • Python GIL 全局解释器锁 的 相关资料
  • Python爬取分析拉勾网职位数据
  • Python爬虫的常见依赖库大全
  • Python网络爬虫付费代理IP推荐
  • Python使用Faiss库实现ANN近邻搜索

分享文章

© 2021 蚂蚁学Python • Theme Xena