网上找的大数据工程师技能图谱,参照学习
职场机器学习入门
大数据通用处理平台
Spark
Flink
Hadoop
分布式存储
HDFS
资源调度
Yarn
Mesos
数据分析/数据仓库(SQL类)
Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
ElasticSearch
Logstash
Kibana
消息队列
Kafka(纯日志类,大吞吐量)
RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ
流式计算
Storm/JStorm
Spark Streaming
Flink
日志收集
Scribe
Flume
编程语言
Java
Python
R
Ruby
Scala
数据分析挖掘
MATLAB
SPSS
SAS
数据可视化
R
D3.js
ECharts
Excle
Python
机器学习
机器学习基础
聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络
机器学习工具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习工具)
算法
数据结构
栈,队列,链表
散列表
二叉树,红黑树,B树
图
常用算法
排序
插入排序
桶排序
堆排序
快速排序
最大子数组
最长公共子序列
最小生成树
最短路径
矩阵的存储和运算
分布式一致性
paxos
raft
gossip
云计算
云服务
SaaS
PaaS
IaaS
Openstack
Docker
Hadoop 家族技能图谱
Hadoop
Zookeeper
Avro
Chukwa
Ambari
Whirr
Bigtop
HCatalog
Hue
HBase
Pig
Sqoop
Cassandra
Hama
Flume
Giraph
Oozie
Crunch
Hive
Mahout
Hive 技能图谱
Hive介绍
Hive系统架构
MetaStore
Derby
MySQL
HDFS
/user/hive/warehouse
MapReduce
Hive配置文件
hive-env.sh
hive-site.xml
hive-log4j.properties
Hive命令行
hive-config
hive shell
quit,exit
reset
set
add,list,delete FILES
! <命令>
dfs <命令>
HQL
source FILES
hive service
hive-service cli
hive-service hiveserver
hive-service metastore
hive-service hwi
hive-service jar
HiveQL
语法关键字
show databases
show PARTITIONS
show tables
create table
load data(local) inpath
Select*from
desc,alert,drop
limit,as,case when then,union
like,group by,having
order by,sort by
cluster by
数据类型
简单类型
tinyint,smallint,int,bigint
float,double
boolean
string
timestamp
binary
复杂类型
arry
map
struct
表
内部表
外部表
HDFS
HBase
Cassandra
DynamoDB
表查询
单表查询
lnner joins
Outer joins
Semi joins
Map joins
子查询
视图
数据表设计
每日一表
每日一表分区
按桶分散数据
Hive优化
表分区Partitions
表存储桶buckets
表压缩
索引
bitmap indexes
执行计划
控制Mapper.Reduce数量
访问方式
Hive Shell
Java JDBC API
Thrift Client
RHive
自定义函数
自定义函数UDF
自定义聚合函数UADF
Hive安全
认证
hive.files.umask.value
hive.metastore.authorization.storage.checks
hive.metastore.execute.setugi
授权
hive.security.authorization.enabled
hive.security.authorization.createtable.owner.grants
hive.security.authorization.createtable.user.grants
权限模型
User
Group
Role
Web控制台
hwi:9999
软件集成
Zookeeper
Thrift
Ooize
HCatalog
AWS
Hive案例
Mahout 技能图谱
Mahou介绍
推荐
协同过滤
基于用户协同过滤
基于物品协同过滤
相似度矩阵
欧氏距离
Pearson距离
余弦距离cosine
Spearman’s rank correlation coefficient
Tanimoto coefficient
log-likelihood
近邻算法
按值取近邻
按比例取近邻
推荐算法
UserBasedRecommender
ItemBasedRecommender
SlopeOneRecommender
SVDRecommender
KnnltemBasedRecommender
TreeClusteringRecommender
算法检验
全查率Recall
准查率Precision
数据模型
UserID,ltemID,PreferenceValue
UserID,ItemID
Hadoop集群部署
聚类
数据模型
DenseVector
RandomAccessSparseVector
SequentialAccessSpareVector
距离算法
欧式距离
欧式平方距离
马氏距离
余弦距离
Tanimoto距离
带权重距离
标准化距离
normalization
聚类算法
k-means
Canopy
Fuzzy k-means
Dirichlet
Topic moseling on LDA
Hadoop集群部署
分类
系统模块
训练营
测试营
分类算法
训练过程
建立分类器
验证模块
真实数据
调整参数
执行分类过程
预测结果
检验结果
自动构建
工作流
训练模型
定义目标变量
历史数据
定义预测变量
分类算法
通过学习算法训练分类器
验证模型
运行测试集
参数调优
生产环境
启动模型对真实数据计算
分类模型
分类算法
Stochastic gradient descent(SGD)
Online_ogisticRession
CrossFoldLearner
Adaptivel_ogisticRegression
Support vector machine(SVM)
Naive Bayes
Complemetary naive Bayes
Random forests