设为首页
收藏本站
开启辅助访问
切换到窄版
登录
立即注册
社区
IT技术教程分享平台
免费课
实战课
vip专享
积分互换
工具箱
IDES激活
JetBrains全家桶系列激活
搜索
搜索
每日签到
本版
帖子
用户
IT技术教程资源分享平台-永久免费不加密
»
社区
›
程序员自学中心
›
自学Python
›
Spark 2.x + Python 大数据机器学习实战
返回列表
发新帖
Spark 2.x + Python 大数据机器学习实战
[复制链接]
1528
|
2
|
2021-11-9 14:39:36
|
显示全部楼层
|
阅读模式
〖课程介绍〗
Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎。本书用详尽的例子介绍了如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署你的模型。
〖课程目录〗
第一章、搭建Spark 2.x+Python开发环境及基本开发入门
1、快速环境搭建:导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接
2、快速环境搭建:Windows系统如何安装pyspark模块到Anaconda及启动PyCharm了解Spark MLlib机器学习库源码及走读
3、快速环境搭建:使用PyCharm开发Spark程序(读取文本数据封装RDD)
4、PySpark SQL快速开发:结构化海量数据处理框架SparkSQL介绍、DataFrame概述及分析数据两种方式
5、PySpark SQL快速开发:使用SparkSession读取文本数据分析及CSV格式数据分析(封装DataFrame分布式数据集)
6、PySpark SQL快速开发:基于Jupyter Notebook读取航空航天数据、使用DSL分析
7、PySpark SQL快速开发:使用DSL分析航天航空数据及如何将DataFrame转换为Pandas中dataframe
第二章、Python Spark MLlib 创建推荐引擎(ALS算法篇)
8、推荐系统几大分类(不同数据、不同算法)概述、以亚马逊和JD为例查看推荐(检索物品后推荐)及推荐系统预测(评分和行为)
9、协同过滤推荐算法CF核心思想、算法数据(用户对物品的评价)及矩阵分解两种方式(SVD和ALS算法)
10、CF的两种推荐方式(基于用户推荐和基于物品推荐)、计算用户或物品相似度常见四种方式及Spark MLlib中ALS算法核心(数据封装、算法超参数)
11、推荐数据集:电影评分数据、通过源码剖析Spark MLlib中协同过滤算法实现类(Rating、ALS和MatrixFactorizationModel)
12、使用Jupyter Notebook开发电影推荐:读取MovieLens评分数据、组合特征、训练模型、预测评分和为用户或电影进行Top10推荐
第三章、Python Spark MLlib 创建推荐引擎(深入实践篇)
13、回顾综述Spark MLlib中支持推荐系统中不同算法(内容推荐Word2Vector、关联规则FP-Growth和协同过滤ALS)
14、针对电影推荐开发优化:将数据集划分为训练和测试、计算模型评估指标MSE和RMSE值
15、针对电影推荐开发优化:定义函数封装模型评估(依据传递模型和测试数据集)
16、针对电影推荐开发优化:使用多层嵌套FOR循环设置不同超参数值训练和评估模型,获取最佳模型
17、针对电影推荐开发优化:保存加载模型、机器学习简易开发流程和使用PyCharm开发封装模型训练与保存
18、针对电影推荐开发优化:依据输入用户或物品进行相关推荐(加载离线训练完成的模型)
第四章、Python Spark MLlib 构建分类模型
19、综述Spark MLlib中实现常见分类算法库(二分类和多分类)及查看实现源码
20、监督学习算法数据格式标签向量LabelPoint及Kaggle竞赛StumbleUpon数据集说明(预测网址是否长青或短暂)
21、构建分类系统之数据调研、数据过滤转换和类别特征提取方式1-of-K详解
22、构建分类系统之分别定义函数提取类别label和转换类别数据提取特征features
23、构建分类系统之封装数据、划分数据集、使用决策树分类及二分类评估指标PR和ROC
24、构建分类系统之使用集成学习算法随机森林RF训练模型和评估性能
25、构建分类系统之使用梯度提升算法GBT训练模型和评估性能
26、构建分类系统之分别使用朴素贝叶斯、支持向量机SVM和逻辑回归算法训练模型与预测
第五章、Python Spark MLlib 构建回归分析
27、Spark MLlib中回归算法实现库(LR、DT等)、过拟合(L1和L2正则化)和阅读算法库源码
28、BikeSharing数据集调研、读取数据并编写函数提取特征和标签
29、构建回归模型之划分数据集、使用决策树回归算法训练模型及定义函数评估模型
30、构建回归模型之使用随机森林RF和梯度提升GBT回归算法训练模型及评估模型
31、构建回归模型之使用LinearRegressionWithSGD训练模型及引出要转换类别特征数据问题
第六章、Spark ML Pipeline 机器学习流程回归分析
32、回顾复习Spark MLlib中算法(分类、回归和推荐)及基于DataFrame ML几个核心概念剖析
33、_查看Spark ML机器学习库源码及SparkSession读取电影评分数据封装DataFrame
34、基于DataFrame 协同过滤算法ALS进行电影推荐模型训练和相关预测
35、基于DataFrame 决策树回归算法DecisionTreeRegressor训练模型(VectorAssembler特征组合)和评估(RegressionEvaluator)
36、使用VectorIndexer类别特征转换及使用TrainValidationSplit进行超参数调整获取最佳模型
37、使用交叉验证CrossValidator方式训练评估模型找到最佳模型
38、Pipeline管道使用说明、结合共享单车出租预测进行构建Pipeline Model模型和预测
〖下载地址〗
游客,如果您要查看本帖隐藏内容请
回复
〖升级为永久会员免金币下载全站资源〗
全站资源高清无密,每天更新,一次充值,永久可查看网站全部资源:
http://www.mano100.cn/rjyfk_url-url.html
大数据
,
Spark
,
Spark教程
相关帖子
•
Java大数据实战 Storm构建实时流处理
•
大数据项目实战之Python金融应用编程
•
Python3实战Spark大数据分析及调度
•
Spark底层原理底层解析视频教程
•
大数据项目之电商数仓3.0
•
大数据spark SQL项目实战分析
•
基于Spark2.x开发企业级个性化推荐系统
•
【尚硅谷】Flink数据仓库视频教程
主题推荐
Vue零基础入门与项目实战
Go开发企业级内容管理平台
Go语言框架Beego从入门到放弃
2018最新Python高级全栈工程师+人工智能VIP顶级课程-老男孩
Python零基础数据库可视化教程【2021】
Python零基础10天进阶班-2019年
Python Flask框架实战之全栈开发【197节】
python进阶深入浅出(共16天完结)
回复
使用道具
举报
2583151529
|
2021-11-9 15:22:24
|
显示全部楼层
6666666666666666666666
回复
使用道具
举报
xiaoyou
|
2021-11-15 18:36:49
|
显示全部楼层
支持支持支持支持支持
回复
使用道具
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
PHP实战教程
曼陀羅華
9
主题
9
帖子
73
积分
网站编辑
积分
73
发消息
回复楼主
返回列表
前端web开发实战
PHP实战教程
自学Python
Go语言课程
Java课程
API教程
Asp与.Net
数据库专栏
Linux教程
服务器教程
安卓与IOS
游戏开发
产品经理/运营
C/C++/C#
区块链
IT课程
图文推荐
ThinkPHP5与workerman实战—在线客服视频教程
2021-06-16
2020版-Swoole4.2从入门到精通全套高级实战
2020-05-13
PHP与九大接口实战视频教程【80节】
2021-06-16
ThinkPHP6+Swoole+Vue实战客服聊天项目系统
2021-01-12
PHP异步通信框架Swoole实战教程(22集)
2019-06-25
热门排行
1
2024年全网最新JetBrains系列IDE全家桶激活
2
ThinkPHP5与workerman实战—在线客服视频教
3
PHP与九大接口实战视频教程【80节】
4
2020版-Swoole4.2从入门到精通全套高级实战
5
PHP异步通信框架Swoole实战教程(22集)
6
Laravel5.8租房小程序项目实战开发完结版【
7
ThinkPHP6+Swoole+Vue实战客服聊天项目系统
8
微信与支付宝支付一站式讲解与实战【完整版
9
教你怎么打造PHP程序员简历【视频+面试题+
10
TP6&&API接口开发实战uniapp