学习清单

网上找的大数据工程师技能图谱,参照学习
职场机器学习入门

大数据通用处理平台

Spark
Flink
Hadoop

分布式存储

HDFS

资源调度

Yarn
Mesos

数据分析/数据仓库(SQL类)

Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
ElasticSearch
Logstash
Kibana

消息队列

Kafka(纯日志类,大吞吐量)
RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ

流式计算

Storm/JStorm
Spark Streaming
Flink

日志收集

Scribe
Flume

编程语言

Java
Python
R
Ruby
Scala

数据分析挖掘

MATLAB
SPSS
SAS

数据可视化

R
D3.js
ECharts
Excle
Python

机器学习

机器学习基础

聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络

机器学习工具

Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习工具)

算法

数据结构

栈,队列,链表

散列表

二叉树,红黑树,B树

常用算法

排序

​ 插入排序

​ 桶排序

​ 堆排序

​ 快速排序

最大子数组

最长公共子序列

最小生成树

最短路径

矩阵的存储和运算

分布式一致性

paxos

raft

gossip

云计算

云服务

SaaS

PaaS

IaaS

Openstack

Docker

Hadoop 家族技能图谱

Hadoop

Zookeeper

Avro

Chukwa

Ambari

Whirr

Bigtop

HCatalog

Hue

HBase

Pig

Sqoop

Cassandra

Hama

Flume

Giraph

Oozie

Crunch

Hive

Mahout

Hive 技能图谱

Hive介绍

Hive系统架构

MetaStore

Derby

MySQL

HDFS

/user/hive/warehouse

MapReduce

Hive配置文件

hive-env.sh

hive-site.xml

hive-log4j.properties

Hive命令行

hive-config

hive shell

quit,exit

reset

set

add,list,delete FILES

! <命令>

dfs <命令>

HQL

source FILES

hive service

hive-service cli

hive-service hiveserver

hive-service metastore

hive-service hwi

hive-service jar

HiveQL

语法关键字

show databases

show PARTITIONS

show tables

create table

load data(local) inpath

Select*from

desc,alert,drop

limit,as,case when then,union

like,group by,having

order by,sort by

cluster by

数据类型

简单类型

    tinyint,smallint,int,bigint

    float,double

    boolean

    string

    timestamp

    binary

复杂类型

    arry

    map

    struct

内部表

外部表

HDFS

HBase

Cassandra

DynamoDB

表查询

单表查询

lnner joins

Outer joins

Semi joins

Map joins

子查询

视图

数据表设计

每日一表

每日一表分区

按桶分散数据

Hive优化

表分区Partitions

表存储桶buckets

表压缩

索引

bitmap indexes

执行计划

控制Mapper.Reduce数量

访问方式

Hive Shell

Java JDBC API

Thrift Client

RHive

自定义函数

自定义函数UDF

自定义聚合函数UADF

Hive安全

认证

hive.files.umask.value

hive.metastore.authorization.storage.checks

hive.metastore.execute.setugi

授权

hive.security.authorization.enabled

hive.security.authorization.createtable.owner.grants

hive.security.authorization.createtable.user.grants

权限模型

User

Group

Role

Web控制台

hwi:9999

软件集成

Zookeeper

Thrift

Ooize

HCatalog

AWS

Hive案例

Mahout 技能图谱

Mahou介绍

推荐

协同过滤

基于用户协同过滤

基于物品协同过滤

相似度矩阵

欧氏距离

Pearson距离

余弦距离cosine

Spearman’s rank correlation coefficient

Tanimoto coefficient

log-likelihood

近邻算法

按值取近邻

按比例取近邻

推荐算法

UserBasedRecommender

ItemBasedRecommender

SlopeOneRecommender

SVDRecommender

KnnltemBasedRecommender

TreeClusteringRecommender

算法检验

全查率Recall

准查率Precision

数据模型

UserID,ltemID,PreferenceValue

UserID,ItemID

Hadoop集群部署

聚类

数据模型

DenseVector

RandomAccessSparseVector

SequentialAccessSpareVector

距离算法

欧式距离

欧式平方距离

马氏距离

余弦距离

Tanimoto距离

带权重距离

标准化距离

normalization

聚类算法

k-means

Canopy

Fuzzy k-means

Dirichlet

Topic moseling on LDA

Hadoop集群部署

分类

系统模块

训练营

测试营

分类算法

训练过程

建立分类器

验证模块

真实数据

调整参数

执行分类过程

预测结果

检验结果

自动构建

工作流

训练模型

定义目标变量

历史数据

定义预测变量

分类算法

通过学习算法训练分类器

验证模型

运行测试集

参数调优

生产环境

启动模型对真实数据计算

分类模型

分类算法

Stochastic gradient descent(SGD)

    Online_ogisticRession

    CrossFoldLearner

    Adaptivel_ogisticRegression

Support vector machine(SVM)

Naive Bayes

Complemetary naive Bayes

Random forests
-------------本文结束 感谢您的阅读-------------
作者GonewithGt
有问题请 留言 或者私信我的 微博
满分是10分的话,这篇文章你给几分