python spark 教程——Python与Spark命运的相遇

说起大数据，大家第一时间想到的一定是spark，它是一款基于内存的并行计算框架，现在大数据公司很多都是采用 Spark 框架。Spark是用Scala语言开发的，与Java非常相似。它将程序代码编译为用于Spark大数据处理的JVM的字节码。为了支持Spark和Python，Apache Spark社区发布了PySpark。

Apache Spark简介
Spark是个通用的集群计算框架，通过将大量数据集计算任务分配到多台计算机上，提供高效内存计算。Spark是个通用的集群计算框架，通过将大量数据集计算任务分配到多台计算机上，提供高效内存计算。

Spark具有如下几个主要特点：

运行速度快：Spark使用先进的DAG（Directed Acyclic Graph，有向无环图）执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比Hadoop MapReduce快上百倍，基于磁盘的执行速度也能快十倍
容易使用：Spark支持使用Scala、Java、Python和R语言进行编程，简洁的API设计有助于用户轻松构建并行程序，并且可以通过Spark Shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件，这些组件可以无缝整合在同一个应用中，足以应对复杂的计算
运行模式多样：Spark可运行于独立的集群模式中，或者运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源
Python作为最流行的编程语言之一，有众多的开发者，所以Apache Spark社区发布了PySpark。

PySpark简介
Spark 是用Scala 开发的，而 scala 又是基于 Java 语言开发的，那么 Spark 的底层架构就是 Java 语言开发的。如果要使用 Python 来进行与 java 之间通信转换，那必然需要通过 JVM 来转换。

PySpark 是借助 Py4j 实现 Python 调用 Java，来驱动 Spark 应用程序，本质上主要还是 JVM runtime，Java 到 Python 的结果返回是通过本地 Socket 完成。

PySpark 采用了 Python、JVM 进程分离的多进程架构，在 Driver、Executor 端均会同时有 Python、JVM 两个进程。当通过 spark-submit 提交一个 PySpark 的 Python 脚本时，Driver 端会直接运行这个 Python 脚本，并从 Python 中启动 JVM；而在 Python 中调用的 RDD 或者 DataFrame 的操作，会通过 Py4j 调用到 Java 的接口。

总结

今天给大家带来的是PySpark的介绍，PySpark 为用户提供了 Python 层对 RDD、DataFrame 的操作接口，同时也支持了 UDF，通过 Arrow、Pandas 向量化的执行，对提升大规模数据处理的吞吐是非常重要的，一方面可以让数据以向量的形式进行计算，提升 cache 命中率，降低函数调用的开销，另一方面对于一些 IO 的操作，也可以降低网络延迟对性能的影响。

以上就是“python spark 教程——Python与Spark命运的相遇”的详细内容，想要了解更多Python 教程欢迎持续关注编程学习网。

扫码二维码 获取免费视频学习资料

Python编程学习

查看2022高级编程视频教程免费获取