如何从CSV、JSON等格式创建DataFrame
在Spark中,你可以使用 `SparkSession` 从CSV和JSON等格式创建 `DataFrame`。以下是如何从这两种格式创建 `DataFrame` 的示例。
1. 从CSV文件创建DataFrame
```scala// 创建SparkSessionval spark = SparkSession.builder().appName("CSV to DataFrame").getOrCreate()// 读取CSV文件val dfFromCSV = spark.read.option("header", "true") // 如果CSV文件包含标题行.option("inferSchema", "true") // 自动推断数据类型.csv("path/to/your/file.csv")// 显示DataFrame内容dfFromCSV.show()```
2. 从JSON文件创建DataFrame
```scala// 创建SparkSessionval spark = SparkSession.builder().appName("JSON to DataFrame").getOrCreate()// 读取JSON文件val dfFromJSON = spark.read.option("multiline", "true") // 如果JSON文件是多行格式.json("path/to/your/file.json")// 显示DataFrame内容dfFromJSON.show()```
3. 其他常用选项
CSV选项:
`delimiter`: 指定分隔符(默认为`,`)。
`quote`: 指定引号字符(默认为`"`)。
JSON选项:
`primitivesAsString`: 将原始数据类型处理为字符串。
注意事项
确保你已经引入了必要的Spark依赖,并且Spark环境已正确配置。
替换 `"path/to/your/file.csv"` 和 `"path/to/your/file.json"` 为实际的文件路径。
这样,你就可以方便地从CSV和JSON文件创建 `DataFrame` 进行数据处理和分析了!