Python数据科学速查表 - Spark SQL 基础.pdf
《Python数据科学速查表 - Spark SQL 基础.pdf》由会员分享,可在线阅读,更多相关《Python数据科学速查表 - Spark SQL 基础.pdf(1页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Python 数据科学 速查表 速查表PySpark-SQL 基础天善智能天善智能 商业智能与大数据社区 DataCampLearn Python for Data Science Interactively from pyspark.sql import SparkSession spark=SparkSession .builder .appName(Python Spark SQL basic example).config(spark.some.config.option,some-value).getOrCreate()PySpark 与 Spark SQL spark.stop()
2、终止 SparkSession df.select(firstName,city).write .save(nameAndCity.parquet)df.select(firstName,age).write .save(namesAndAges.json,format=json)创建数据框从 Spark 数据源创建 查询 from pyspark.sql import functions as F Select df.select(firstName).show()显示 firstName 列的所有条目 df.select(firstName,lastName).show()df.selec
3、t(firstName,显示 firstName、age 的所有条目和类型 age,explode(phoneNumber).alias(contactInfo).select(contactInfo.type,firstName,age).show()df.select(dffirstName,dfage+1).show()df.select(dfage 24).show()When df.select(firstName,F.when(df.age 30,1).otherwise(0).show()dfdf.firstName.isin(Jane,Boris).collect()Like
4、df.select(firstName,df.lastName.like(Smith).show()Startswith-Endswith df.select(firstName,df.lastName.startswith(Sm).show()df.select(df.lastName.endswith(th).show()Substring df.select(df.firstName.substr(1,3).alias(name).collect()Between df.select(df.age.between(22,24).show()显示 firstName 和 age 列的所有记
5、录,并对 age 记录添加1显示所有小于24岁的记录显示 firstName,且大于30岁显示1,小于30岁显示0显示符合指定条件的 firstName 列的记录显示 lastName 列中包含 Smith 的 firstName 列的记录显示 lastName 列中以 Sm 开头的 firstName 列的记录显示以 th 结尾的 lastName返回 firstName 的子字符串显示介于22岁至24岁之间的 age 列的记录运行 SQL 查询 df5=spark.sql(SELECT*FROM customer).show()peopledf2=spark.sql(SELECT*FROM
6、 global_temp.people).show()添加、修改、删除列 df=df.withColumn(city,df.address.city).withColumn(postalCode,df.address.postalCode).withColumn(state,df.address.state).withColumn(streetAddress,df.address.streetAddress).withColumn(telePhoneNumber,explode(df.phoneNumber.number).withColumn(telePhoneType,explode(df
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python数据科学速查表 Spark SQL 基础 Python 数据 科学 速查表
限制150内