pyspark使用-dataframe操作

一、读取csv文件

1.用pandas读取

import pandas as pd
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName("test").getOrCreate()
f=pd.read_csv("filePath")
df=spark.createDataFrame(f)

但是pandas和spark数据转换的时候速度很慢，所以不建议这么做

2.直接读取

spark.read.format("csv").options(header="True",sep=",",encoding="utf-8",inferschema='true').load("path")

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/stAr-1/p/9677514.html

推荐文章
TCP/IP详解卷一（第二十章 TCP的成块数据流）
TCP/IP详解卷一（第十九章 TCP的交互数据流）
TCP/IP详解卷一（第十八章 TCP连接的建立和终止）
TCP/IP详解卷一（第十七章 TCP:传输控制协议）
TCP/IP详解卷一（第十四章 DNS:域名系统）
TCP/IP详解卷一（第十三章 IGMP：Internet组管理协议）
TCP/IP详解卷一（第十二章广播和多播）
TCP/IP详解卷一（第十一章 UDP：用户数据报协议）
二叉树的遍历
将博客搬至CSDN
Android（一）基于 eclipse 的 Android配置 Java环境
数电模电（四）集成计数器及其应用实验
JAVA 输入输出流本地文件读写
数电模电（三）时序电路触发器基本RS触发器同步RS触发器主从RS触发器 JK触发器主从D触发器
JAVA 师生请假系统课程设计
ACM刷题之路（十六）Acm程序设计竞赛自制模板
天梯赛-L1-064 估值一亿的AI核心代码（20 分)--2019全国CCCC天梯赛L1题解
ACM刷题之路（十五）分治法 + 找规律 ZOJ4085
[CF117C]Cycle
[BZOJ1858/Luogu2572][SCOI2010]序列操作
[Codechef Coders' Legacy 2018 CLSUMG]Sum of Primes
[HDU4630]No Pain No Game
[Luogu4329][COCI2006]Bond
[数论]Gcd/ExGcd欧几里得学习笔记
[数论]线性基学习笔记
[Luogu5190][COCI2010]PROGRAM
IIS7 HTTPS 绑定主机头，嘿嘿，转
React
ios
iOS10 权限配置