您的位置：58脚本 > spark rdd持久化 Spark RDD持久化

spark rdd持久化 Spark RDD持久化

2023-05-03 07:32 Spark编程指南

spark rdd持久化

Spark RDD 持久化

Spark最重要的一个功能是它可以通过各种操作（operations）持久化（或者缓存）一个集合到内存中。当你持久化一个RDD的时候，每一个节点都将参与计算的所有分区数据存储到内存中，并且这些数据可以被这个集合（以及这个集合衍生的其他集合）的动作（action）重复利用。这个能力使后续的动作速度更快（通常快10倍以上）。对应迭代算法和快速的交互使用来说，缓存是一个关键的工具。

你能通过persist()或者cache()方法持久化一个rdd。首先，在action中计算得到rdd；然后，将其保存在每个节点的内存中。Spark的缓存是一个容错的技术-如果RDD的任何一个分区丢失，它可以通过原有的转换（transformations）操作自动的重复计算并且创建出这个分区。

此外，我们可以利用不同的存储级别存储每一个被持久化的RDD。例如，它允许我们持久化集合到磁盘上、将集合作为序列化的Java对象持久化到内存中、在节点间复制集合或者存储集合到Tachyon中。我们可以通过传递一个StorageLevel对象给persist()方法设置这些存储级别。cache()方法使用了默认的存储级别—StorageLevel.MEMORY_ONLY。完整的存储级别介绍如下所示：

Storage Level	Meaning
MEMORY_ONLY	将RDD作为非序列化的Java对象存储在jvm中。如果RDD不适合存在内存中，一些分区将不会被缓存，从而在每次需要这些分区时都需重新计算它们。这是系统默认的存储级别。
MEMORY_AND_DISK	将RDD作为非序列化的Java对象存储在jvm中。如果RDD不适合存在内存中，将这些不适合存在内存中的分区存储在磁盘中，每次需要时读出它们。
MEMORY_ONLY_SER	将RDD作为序列化的Java对象存储（每个分区一个byte数组）。这种方式比非序列化方式更节省空间，特别是用到快速的序列化工具时，但是会更耗费cpu资源—密集的读操作。
MEMORY_AND_DISK_SER	和MEMORY_ONLY_SER类似，但不是在每次需要时重复计算这些不适合存储到内存中的分区，而是将这些分区存储到磁盘中。
DISK_ONLY	仅仅将RDD分区存储到磁盘中
MEMORY_ONLY_2, MEMORY_AND_DISK_2, etc.	和上面的存储级别类似，但是复制每个分区到集群的两个节点上面
OFF_HEAP (experimental)	以序列化的格式存储RDD到Tachyon中。相对于MEMORY_ONLY_SER，OFF_HEAP减少了垃圾回收的花费，允许更小的执行者共享内存池。这使其在拥有大量内存的环境下或者多并发应用程序的环境中具有更强的吸引力。

NOTE:在python中，存储的对象都是通过Pickle库序列化了的，所以是否选择序列化等级并不重要。

Spark也会自动持久化一些shuffle操作（如reduceByKey）中的中间数据，即使用户没有调用persist方法。这样的好处是避免了在shuffle出错情况下，需要重复计算整个输入。如果用户计划重用计算过程中产生的RDD，我们仍然推荐用户调用persist方法。

如何选择存储级别

Spark的多个存储级别意味着在内存利用率和cpu利用效率间的不同权衡。我们推荐通过下面的过程选择一个合适的存储级别：

如果你的RDD适合默认的存储级别（MEMORY_ONLY），就选择默认的存储级别。因为这是cpu利用率最高的选项，会使RDD上的操作尽可能的快。
如果不适合用默认的级别，选择MEMORY_ONLY_SER。选择一个更快的序列化库提高对象的空间使用率，但是仍能够相当快的访问。
除非函数计算RDD的花费较大或者它们需要过滤大量的数据，不要将RDD存储到磁盘上，否则，重复计算一个分区就会和重磁盘上读取数据一样慢。
如果你希望更快的错误恢复，可以利用重复(replicated)存储级别。所有的存储级别都可以通过重复计算丢失的数据来支持完整的容错，但是重复的数据能够使你在RDD上继续运行任务，而不需要重复计算丢失的数据。
在拥有大量内存的环境中或者多应用程序的环境中，OFF_HEAP具有如下优势：
它运行多个执行者共享Tachyon中相同的内存池
它显著地减少垃圾回收的花费
如果单个的执行者崩溃，缓存的数据不会丢失

删除数据

Spark自动的监控每个节点缓存的使用情况，利用最近最少使用原则删除老旧的数据。如果你想手动的删除RDD，可以使用RDD.unpersist()方法

阅读全文

以上是58脚本为你收集整理的spark rdd持久化 Spark RDD持久化全部内容。

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。

全部标签 标签详情

Neo4j - Java简介

neo4j教程

Neo4j提供JAVA API以编程方式执行所有数据库操作。它支持两种类型的API：Neo4j的原生的Java APINeo4j Cypher Java APINeo4j原生...
spring-data-neo4j Spring DATA Neo4j - 结构

neo4j教程

SpringDATA Neo4j模块Spring DATA模块适用于为各种数据库实现DAO层。它通过避免一些不需要的工件（DAO实现）来改进应用程序开发...
mongodb删除集合数据 MongoDB 删除集合

MongoDB教程

MongoDB教程 -MongoDB 删除集合MongoDB的 db.collectionName.drop()用于从数据库中删除集合。语法drop()命令的语法如下db.COLLEC...
SQLite Delete 语句

SQLite教程

SQLite 的 DELETE 查询用于删除表中已有的记录。可以使用带有 WHERE 子句的 DELETE 查询来删除选定行，否则所有的记录都...
redis锁 Redis Sunionstore 命令

Redis教程

Redis Sunionstore 命令Redis 集合(Set)Redis Sunionstore 命令将给定集合的并集存储在指定的集合 destination 中。如...
redis pubsub命令 Redis Punsubscribe 命令

Redis教程

Redis Punsubscribe 命令 Redis 发布订阅 Redis Punsubscribe 命令用于退订所有给定模式的频道。语法 redis Punsubscribe 命令基...
PostgreSQL 索引访问方法接口定义

05-24

目录61.1. 索引的基本 API 结构61.2. 索引访问方法函数61.3. 索引扫描61.4. 索引锁定考虑61.5. 索引唯一性检查61.6. 索引开销估...
PostgreSQL 可扩展性

05-25

BRIN接口具有高层的抽象，要求访问方法实现者只需实现被访问的数据类型的语义。BRIN层本身会负责并发、日志以及对索引结构的搜...
PostgreSQL 系统目录声明规则

06-01

一个目录头文件的关键部分是一个C的结构定义，它描述该目录中每一行的布局。这个结构开始于一个CATALOG宏，它对于C编译器而言只...
Oracle字符串函数 Oracle 字符串函数

Oracle教程

...