Spark 各个版本特性
Spark各个版本特性
各个版本特性(官方文档)
https://spark.apache.org/releases/
https://spark.apache.org/news/index.html
Spark 0.6.x
Standalone部署模式进行了简化
Spark 0.7
Python API
增加Spark Streaming
支持maven build
Spark 0.8
支持MLlib库
hadoop yarn正式支持
Spark 0.9
用SparkConf类来配置SparkContext
spark streaming正式版发布
GraphX的测试版出现
mllib库升级,支持python
core升级
Spark 1.0
提出spark-submit脚本和history-server
yarn安全模式整合
spark sql被提出
java8的支持
Spark 1.1
spark增强了磁盘(非内存)的排序的速率
Spark 1.2
shuffle大升级
Graphx正式版发布
Spark 1.3
新增DataFrame API
Spark SQL正式脱离alpha版本
Spark 1.4
正式引入SparkR
Spark Core为应用提供了REST API来获取各种信息
Spark 1.5
Hive支持
Spark 1.6
新增Dataset API
Spark 2.0
用sparksession实现hivecontext和sqlcontext统一
合并dataframe和datasets
Spark 2.1
提升ORC格式文件的读写性能
Spark 2.2
Structured Streaming的生产环境支持已经就绪
Spark 2.3
Structured Streaming 引入了低延迟的连续处理
支持 stream-to-stream joins
Spark 2.4
Scala 2.12
添加了35个高阶函数