欢迎来到123培训网!

位置:广东123培训网 > 广东电脑IT培训 > 广东软件系统开发 > 广东软件开发

广州Spark及Hadoop开发员培训 广州腾科IT教育

发布时间:2024-01-18 22:16:49

授课机构:广州腾科网络技术有限公司

地址:广州市天河区棠安路188号(科韵路)

网报价格:¥电询

课程原价:¥电询

咨询热线:该课程是用户免费注册发布,未实名认证!不提供联系方式和报名等咨询服务!信息仅供阅读参考!如侵权请联系我们删除!邮箱:196594267@qq.com

信息由用户发布!仅供参考!

课程详情 学校简介 学校地址 网上报名

 

课程介绍


来看看,你拿不了高薪的原因到底是什么?



①学历一般,专科、普通本科毕业,没有研究生、博士学历
②刚毕业没有职称经验,企业一般不招学徒
③没有技术,学习的东西比较滞后,并且都是理论,职称用不上
④选错行业,现在是互联网时代,IT行业是高薪行业
⑤面试没有技巧,海投简历总算等来面试机会,却因为紧张没能拿到offer
⑥你没自己想象的重要,技术岗位一般无可代替,然后你做的是文职
⑦工作多年,却一直薪水上不去,那你可以考虑换行了
⑧不断的学习才能提升,技能培训相当重要




学习如何使用Hadoop生态系统关键性技术来导入并处理数据。

在为期4天的培训中,学员将学习关键概念和掌握使用新技术和工具将数据采集到Hadoop集群并进行处理。经过学习掌握诸如Spark(包括SparkStreaming和SparkSQL)、Flume、Kafka以及Sqoop这样的Hadoop生态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力。使用Spark,不同行业的开发人员可以为不同的商业应用和系统架构编写复杂的并行应用,得以更**地获取更优的商业决策,帮助决策人员进行及时应对。


一.培训内容

●  经过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:

●  在Hadoop集群上进行分布式存储和处理数据。

●  经过在Hadoop集群上编写、配置和部署ApacheSpark应用。

●  使用Sparkshell进行交互式数据分析。

●  使用SparkSQL查询处理结构化数据。

●  使用SparkStreaming处理流式数据。

●  使用Flume和Kafka为SparkStreaming采集流式数据。


二.培训对象及学员基础

●  本课程适合于具有编程经验的开发员及工程师。无需ApacheHadoop基础。

●  培训内容中对ApacheSpark的介绍所涉及的代码及练习使用Scala和Python,因此需至少掌握这两个编程语言中的一种。

●  需熟练掌握Linux命令行。

●  对SQL有基本了解。


三.课程大纲

1.  Hadoop及生态系统介绍

●  ApacheHadoop概述

●  数据存储和摄取

●  数据处理

●  数据分析和探索

●  其他生态系统工具

●  练习环境及分析应用场景介绍

2.  ApacheHadoop文件存储

●  传统大规模系统的问题

●  HDFS体系结构

●  使用HDFS

●  ApacheHadoop文件格式

3.  ApacheHadoop集群上的数据处理

●  YARN体系结构

●  使用YARN

4.  使用ApacheSqoop导入关系数据

●  Sqoop简介

●  数据导入

●  导入的文件选项

●  数据导出

5.  ApacheSpark基础

●  什么是ApacheSpark

●  使用SparkShell

●  RDDs(可恢复的分布式数据集)

●  Spark里的函数式编程

6.  SparkRDD

●  创建RDD

●  其他一般性RDD操作

7.  使用键值对RDD

●  键值对RDD

●  MapReduce

●  其他键值对RDD操作

8.  编写和运行ApacheSpark应用

●  Spark应用对比SparkShell

●  创建SparkContext

●  创建Spark应用(Scala和Java)

●  运行Spark应用

●  Spark应用WebUI

9.  配置ApacheSpark应用

●  配置Spark属性

●  运行日志

10.  ApacheSpark的并行处理

●  回顾:集群环境里的Spark

●  RDD分区

●  基于文件RDD的分区

●  HDFS和本地化数据

●  执行并行操作

●  执行阶段及任务

11.  Spark持久化

●  RDD演变族谱

●  RDD持久化简介

●  分布式持久化

12.  ApacheSpark数据处理的常见模式

●  常见Spark应用案例

●  迭代式算法

●  机器学习

●  例子:K-Means

13.  DataFrames和SparkSQL

●  ApacheSparkSQL和SQLContext

●  创建DataFrames

●  变更及查询DataFrames

●  保存DataFrames

●  DataFrames和RDD

●  SparkSQL对比Impala和Hive-on-Spark

●  Spark2.x版本上的ApacheSparkSQL

14.  ApacheKafka

●  什么是ApacheKafka

●  ApacheKafka概述

●  如何扩展ApacheKafka

●  ApacheKafka集群架构

●  ApacheKafka命令行工具

15.  使用ApacheFlume采集实时数据

●  什么是ApacheFlume

●  Flume基本体系结构

●  Flume源

●  Flume槽

●  Flume通道

●  Flume配置

 16.  集成ApacheFlume和ApacheKafka

●  概要

●  应用案例

●  配置

17.  ApacheSparkStreaming:DStreams介绍

●  ApacheSparkStreaming概述

●  例子:Streaming访问计数

●  DStreams

●  开发Streaming应用

18.  ApacheSparkStreaming:批处理

●  批处理操作

●  时间分片

●  状态操作

●  滑动窗口操作

19.  ApacheSparkStreaming:数据源

●  Streaming数据源概述

●  ApacheFlume和ApacheKafka数据源

●  例子:使用Direct模式连接Kafka数据源

20.  结论


Cloudera大数据课程体系

广州腾科网络技术有限公司简介

广州腾科网络技术有限公司是一家从事IT技能培训、IT技术外包服务的专业公司,是广东省计算机学会理事单位。紧贴客户需求,量身定制的尊贵服务,严谨细致的专业水平,全球领先的培训解决方案和技术服务,使腾科成为IT技术发展潮流的先驱者。腾科公司总部位于广州,在广州、上海、青岛等地设有共8个培训中心。 业务范围目前主要涉及Cisco、Java 、RedHat Linux、Oracle、EXIN、CIW、F5、CISSP等各种IT技能的培训。

  • 学校名称:广州腾科网络技术有限公司

    固定电话:该课程是用户免费注册发布,未实名认证!不提供联系方式和报名等咨询服务!信息仅供阅读参考!如侵权请联系我们删除!邮箱:196594267@qq.com

    授课地址:广州市天河区棠安路188号(科韵路) 预约参观