Spark数据倾斜解决方法

1、避免shuffle,改reduce join为map join,适用于JOIN的时候有一个表是小表的情况,直接使用collect()获取小表的所有数据,然后brodcast,对大表进行MAP,MAP时直接提取broadcast的小表数据实现JOIN; 2、随机数的方案,对于聚合类操作,可以分步骤进行聚合,第一步,在原来的KEY后面加上随机数(比如1~10),然后进行聚合(比如SUM操作);第二 … 继续阅读Spark数据倾斜解决方法

使用PaddlePaddle搭建卷积网络做文本数据分类

PaddlePaddle是百度开源的深度学习框架,采用和cafee类似的layer搭建的方式构建深度神经网络,当前也在试图发布fluid新版本提供算子级别的网络构建技能,最近有一个文本分类的需求,试着使用paddle进行了实验,对paddle的使用体验为: 文档不全,特别简陋 模型库比较好,即使不懂的用法,可以搜索代码查找用法; github的问题回复比较及时 感觉Paddle是在大力推广和发展的 … 继续阅读使用PaddlePaddle搭建卷积网络做文本数据分类

Tomcat内存分析相关方法(jmap和mat)

Linux环境命令行 首先,根据进程命令,获取运行的tomcat的进程ID

在第二列可以看到进程ID 然后使用jmap可以查看内存占比:

输出的结果包括了内存各个部分的占比:

如上可以清楚的看到内存配置 … 继续阅读Tomcat内存分析相关方法(jmap和mat)

如此重要但是经常被忽视的代码架构!

软件开发的生命周期,大致都是一样的流程: 需求分析,产出概念模型 概要设计,包括系统边界设计、内部架构设计、设计决策 详细设计,包括代码架构,业务逻辑实现 开发代码 单元测试、连通测试 部署上线 系统运维 这样的流程,开发代码这个步骤,其实是个分界点,它实现了前面的设计,同时开发好的代码会最终的进行测试和运行。 正常情况下,概念模型、边界交互设计、数据流设计、系统内部架构设计、设计决策等等,都会产 … 继续阅读如此重要但是经常被忽视的代码架构!

Log4j将不同Package的日志输出到不同的文件的方法

随着项目规模的越来越大,会不断的引入新的模块,不同的模块都会打印自己的日志,最后就造成日志根本没法查看,比如我自己的项目中,就存在以下这些日志: 接收外界消息的日志、对外发送消息的日志; 后台常驻线程的处理日志; 外部接口访问的参数、返回结果等接口日志; Service访问数据库产生的SQL日志; 这其中,消息日志和后台线程的日志数据量非常庞大,如果所有日志打印在一个文件中,使用tail -f l … 继续阅读Log4j将不同Package的日志输出到不同的文件的方法

MySQL导入导出数据时遇到Tab符号和换行符号怎么办?

在做ETL(下载、转换、导入)开发的时候,经常会遇到从MySQL中导出数据,经过计算后再导入到MySQL的场景。 那么有一个很难绕过的问题,如果源MySQL的字段中,包含了\t、\n特殊字符,该怎么办? 因为导出文件时,默认是按照\t分割字段、\n分割行,现在字段中出现了\t和\n,这不是乱了吗? 同时导入文件时,load data可以指定fields和lines的分隔符,默认情况都是\t和\n, … 继续阅读MySQL导入导出数据时遇到Tab符号和换行符号怎么办?

使用PHPUnit编写PHP单元测试的方法

局限于Java的testng在eclipse中非常强大的手动单测方法这个框框,我试图一直给eclipse安装PHP的测试框架,却发现一直出问题,最后才发觉,PHPUnit的单测思想是直接的脚本测试PHP文件,避免手工的操作。 测试本来就应该自动化,不是吗?所以我接受了PHPUnit的命令行测试方法,而不是在eclipse中手动的右键运行测试。 PHPUnit官网:https://phpunit.d … 继续阅读使用PHPUnit编写PHP单元测试的方法

Bash Shell怎样检查文件是否存在?

在类Unix系统的Bash环境下,怎样检查文件是否存在呢? Shell中的test命令,可以用来检测文件的类型或者比较数值是否相等,该命令也能用来检查文件是否存在。 可以用如下的命令来进行检查:

下面的命令,则使用Shell的条件表达式,判断/etc/hosts文件是否存在: [crayon-5d58c4fb0f2c74885881 … 继续阅读Bash Shell怎样检查文件是否存在?

Python使用unittest实现简单的单元测试实例

如果项目复杂,进行单元测试是保证降低出错率的好方法,Python提供的unittest可以很方便的实现单元测试,从而可以替换掉繁琐杂乱的main函数测试的方法,将测试用例、测试方法进行统一的管理和维护。 本文给出一个实例,很简单,看一下就明白了。 首先给出一个要测试的Python模块,代码如下:

然后就可以编写测试脚本,代码如下: … 继续阅读Python使用unittest实现简单的单元测试实例