Matarialize中文社区-Apache Spark 基本概念和架构

Apache Spark 基本概念和架构

~~情~非~ 2024-07-19 09:25:02

315 Spark,Apache Spark,大数据专栏

Apache Spark 基本概念和架构

什么是Apache Spark

Apache Spark是一个快速的、通用的大数据处理引擎，适用于大规模数据处理。它提供了一个统一的分析引擎，支持批处理、流处理、机器学习和图计算等多种应用场景。

Spark的关键特性

高速处理：通过内存计算和高效的调度机制，提供高性能的数据处理。
易用性：提供了丰富的API，支持Scala、Java、Python和R等多种编程语言。
通用性：支持多种数据处理任务，包括批处理、流处理、机器学习和图计算。
集成性：能够与Hadoop、Mesos、Kubernetes等多种集群管理工具集成，并支持多种数据源（如HDFS、Cassandra、HBase、S3等）。

Spark架构

Spark架构主要由以下组件组成：

Spark应用程序：由Driver Program和多个Executor组成。
- Driver Program：负责运行用户的main函数，创建SparkContext，并将作业分解成任务。
- Executor：在Worker节点上运行，负责执行任务并将结果返回给Driver。
Cluster Manager：负责资源管理和任务调度。Spark支持多种集群管理工具，包括Standalone、YARN、Mesos和Kubernetes。
RDD（Resilient Distributed Dataset）：弹性分布式数据集，是Spark的核心抽象，表示不可变的分布式数据集合。

使用Spark RDD、DataFrame和Dataset进行数据处理

Spark RDD

RDD是Spark的核心数据结构，表示一个不可变的分布式数据集合。它支持两类操作：转换操作（Transformation）和行动操作（Action）。

创建RDD：

val data = Array(1, 2, 3, 4, 5)
val rdd = sc.parallelize(data)

转换操作：
```
val rdd2 = rdd.map(x => x * 2)
```

行动操作：

val sum = rdd2.reduce((x, y) => x + y)
println(sum)

Spark DataFrame

DataFrame是RDD的一个扩展，是一个分布式数据集合，组织成命名列。它类似于数据库表格，并且提供了丰富的优化和API。

创建DataFrame：

val df = spark.read.json("path/to/json/file")

DataFrame操作：

df.select("name", "age").filter($"age" > 21).show()

Spark Dataset

Dataset是DataFrame的一个扩展，是一个强类型的分布式数据集合。它结合了RDD的优势（如类型安全）和DataFrame的优势（如优化）。

创建Dataset：

case class Person(name: String, age: Int)
val ds = Seq(Person("John", 30), Person("Jane", 25)).toDS()

Dataset操作：

ds.filter(person => person.age > 21).show()

使用Spark SQL进行批处理

Spark SQL是Spark的一个组件，允许用户通过SQL查询、Hive查询和Scala、Java、Python和R等语言的API进行结构化数据处理。

创建SparkSession：

val spark = SparkSession.builder.appName("Spark SQL example").getOrCreate()

加载数据：

val df = spark.read.json("path/to/json/file")

SQL查询：

df.createOrReplaceTempView("people")
val sqlDF = spark.sql("SELECT name, age FROM people WHERE age > 21")
sqlDF.show()

使用Spark Streaming进行流处理

Spark Streaming是Spark的一个组件，用于实时数据流处理。它将实时数据流分成小批次，并使用Spark的批处理引擎进行处理。

创建StreamingContext：

val ssc = new StreamingContext(sparkConf, Seconds(1))

处理流数据：

val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()