本教程将教您如何使用Apache Spark笔记本中用于大规模数据处理的框架。许多传统框架被设计为在一台计算机上运行。但是,当今许多数据集太大了,无法存储在单台计算机上,即使将数据集存储在一台计算机上(例如本教程中的数据集),也通常可以使用多台计算机更快地处理该数据集。Spark具有许多转换和动作的有效实现,可以将它们组合在一起以执行数据处理和分析。Spark擅长在群集中分布这些操作,同时抽象出许多底层实现细节。Spark的设计重点是可伸缩性和效率。使用Spark,您可以开始使用小型数据集在笔记本电脑上开发解决方案。