PyCharm开发PySpark程序的配置和实例

对于PyCharm,需要作如下设置:
1、安装pyspark,它会自动安装py4j
2、在edit configuration中,add content root,选择spark下载包的python/pyspark/lib下的pyspark.zip和py4j.zip两个包;

代码实例:

 

输入数据为:

输出 print结果为:

文件中内容为:

pyspark开发起来,有点问题就是当级联过多的时候,类型可能丢失,导致代码没有提示,这点很不爽。

其实对比了python、scala、java,我觉得编写大型的spark代码,用Java是最靠谱的,因为它强类型,代码提示很爽很直观。

 

相关推荐