您所在的位置:首页 > 厂商培训

数据分析师课程

第一部分:

Hadoop 基础

Hadoop的动机

Hadoop 概况

HDFS

MapReduce

Hadoop 生态圈

实验场景介绍

实验: 用Hadoop工具导入数据

Pig简介

什么是 Pig? Pig的特性

Pig使用案例

和Pig交互

用Pig进行基本数据分析

Pig Latin 语法

数据装载

简单数据类型

Field 定义

数据输出

表结构视图

数据过滤和排序

常用功能

实验: 用Pig 执行ETL流程

 

 

第二部分:

Pig处理复杂数据

存储格式

复杂/Nested嵌套的数据类型

成群

处理复杂数据的内置功能

迭代成群的数据

实验:用Pig分析广告战役的数据

Pig的多数据组操作

集成多数据组的技术

Pig链接多数据组

组操作

数据组分裂

实验:用Pig分析离散的数据组

扩展 Pig

用参数带来灵活性

Macros 和 Imports

UDFs

Contributed Functions

用其他语言和Pig一起处理数据

实验: 用流处理和UDFs扩展Pig Pig 故障排查和优化

Pig故障排查

记录日志

使用Hadoop Web 界面

演示: 用Web 界面排查一个故障的任务

Data 采样和故障排查

性能简介

理解执行计划(Execution Plan)

提高你Pig任务性能的窍门

第三部分:

Hive简介

什么是 Hive?

Hive表结构和数据存储

对比Hive和传统数据库

Hive vs. Pig

Hive使用案例

和Hive的互操作

Hive的关系数据分析

Hive 数据库和表

基本HiveQL 语法

数据类型

链接数据组

通用内建功能

实验: 在Shell, 脚本和Hue上运行运行Hive 查询

第四部分:

Hive 数据管理

Hive 数据格式

创建数据库和 由 Hive管理的表

向 Hive装载 数据

改变数据库和表

自治表格

用视图简化查询

排列查询结果

数据的访问控制

实验: Hive的数据管理

 

第五部分:

Hive 的文本处理

文本处理简介

文本处理简介

重要的字符串(String)功能

使用Hive 的标准表达式(Regular Expressions) Sentiment Analysis and N-Grams 实验:通过敏感性分析(Sentiment Analysis)收获洞察

Hive 优化

理解查询性能

控制任务执行计划

分区

Bucketing

索引数据

Hive扩展

SerDes

用定制脚本完成数据转型

自定义功能

Parameterized Queries

实验:Hive的数据转型

第六部分:

Impala 简介

什么是 Impala?

Impala 和 Hive和 Pig的不同

Impala 和关系数据库的不同

局限和未来方向

使用Impala Shell

采样Impala分析数据

基本语法

数据类型

过滤, 排序, and Limiting Results

链接和组队数据

提升 Impala 性能

实验: Impala的交互式分析

为任务选择最优的工具

对比 MapReduce, Pig, Hive, Impala和关 系数据库

选择哪个?