这里面的代码需要能够熟练写出。
学习清单
网上找的大数据工程师技能图谱,参照学习
职场机器学习入门
C++数值范围
C++各数据类型的取值范围
操作系统
《操作系统真象还原》相关笔记
https://www.cnblogs.com/20135223heweiqin/p/5444617.html
C++知识点
Function
设定编译器的状态或者是指示编译器完成一些特定的动作。#pragma指令对每个编译器给出了一个方法,在保持与C和C++语言完全兼容的情况下,给出主机或操作系统专有的特征。依据定义,编译指示是机器或操作系统专有的,且对于每个编译器都是不同的。
并发
记录并发相关知识点
内存模型
Java线程-工作内存-内存操作-主内存
每个Java线程都有自己对应的工作内存,工作内存线程私有,必须通过主内存进行数据交换。
内存间交互操作
主内存和工作内存之间有具体的交互协议,实现从主内存到交互内存的拷贝和同步。有lock,unlock,read,load,use,assign,store,write。规定了一系列的访问规则。
volatile关键字
- 可见性:一个线程对volatile修饰的变量修改之后,立刻对其它线程可见。但是,有些运算可能并非原子的,不能保证并发安全。使用情况需要满足:
- 运算结果并不依赖变量的当前值,或者能够确保只有单一线程能够修改变量的值。
- 变量不需要与其它的状态共同参与不变性约束。
- 禁止语义重排
- 相当于添加了内存屏障
内存模型特性
- 对于long和double类型需要注意JVM对64数据是否为原子的
- 原子性:synchronized关键字
- 可见性:volatile synchronized final关键字实现
- 有序性:volatile
happen-before原则
Java内存模型下有一些天然的先行发生关系:
- 程序次序规则
- 管程锁定规则
- volatile规则
- 线程启动规则
- 线程终止规则
- 线程中断规则
- 对象终结规则
- 传递性
Java线程实现
- 线程实现
- 内核级线程
- 一般通过轻量级进程包装内核线程,然后再使用
- 轻量级进程和线程之间1:1
- 由于需要在用户态和内核态之间切换,系统调用代价较高
- 用户线程
- 线程建立,同步,销毁,调度完全在用户态中完成。
- 进程和线程之比为1:N
- 用户线程加轻量级线程
- 混合使用,进程和线程之间N:M
- 内核级线程
- Java线程实现
- 1.2之前是用户线程
- 1.2之后是基于操作系统原生线程来实现的
- Java线程调度
- 协同式线程调度:线程执行完通知其它线程执行
- 好处是实现简单
- 坏处是线程执行时间不可控制,如果一个线程编写有问题,容易造成阻塞。
- 抢占式线程调度
- 每个线程由系统来分配执行时间。
- 协同式线程调度:线程执行完通知其它线程执行
- 线程状态转换
- 新建
- 运行:包括系统线程中的Running和Ready,有可能在等待CPU调度
- 无限期等待:需要等待被其它线程唤醒。
- 没有设置TimeOut的Object.wait()
- 没有设置TimeOut的Thread.join()
- LockSupport.park()
- 有限期等待:一定时间之后被系统自动唤醒
- Thread.sleep()
- 设置TimeOut的Object.wait()
- 设置TimeOut的Thread.join()
- LockSupport.parkNanos()
- LockSupport.parkUntil()
- 阻塞:等待获得排它锁,在等待另一个线程释放锁时发生。
- 结束
线程安全
- 定义
- 当多个线程访问一个类时,如果不用考虑这些线程在运行时环境下的调度和交替执行,并且不需要额外的同步,或者在调用代码代码不必作其他的协调,这个类的行为仍然是正确的,那么称这个类是线程安全的。
- 特征
- 代码本身封装了所有必要的正确性保障手段
- Java操作共享数据分类(线程安全程度由强到弱)
- 不可变
- String,Long,Double,BigInteger等为不可变对象
- AtomicInteger和AtomiLong则为可变类
- 绝对线程安全
- java.util.Vector,方法被synchronized修
- 相对线程安全:特定的执行顺序需要同步
- Vector,HashTable,Collections
- 线程兼容:对象本身是线程非线程安全的,但是可以使用同步手段让对象在并发情况下安全使用。
- 线程对立:无法同步的代码。
- 不可变
- 线程安全的实现
- 互斥同步
- 可以使用临界区,互斥量,和信号量、
- synchronized关键字,Java里面会在同步块前后加上monitorenter和monitorexist关键字,重量级操作
- ReentrantLock和synchronized很相似,写法上不太同
- 等待可中断
- 可实现公平锁
- 锁绑定多个条件
- 非阻塞同步
- 基于冲突检测和乐观并发策略,先操作,有冲突,再补偿,需要硬件指令支持。
- Test-and-set,Fetch-and-Increment,Swap,Compare-and-Swap(CAS),Load-Linked/Store-Conditional
- 无同步方案
- 可重入代码
- 线程本地存储
- 互斥同步
- 锁优化(1.5到1.6)
- 适应性自旋
- 自旋锁,多处理器上,一个线程请求资源被上锁,可以占用CPU自旋(忙循环),避免线程切换。
- 适应性自旋意味着自旋时间不是固定的,由前一次在同一个锁上的自旋时间及锁拥有者的状态来决定。
- 锁消除
- 对不可能存在数据竞争的代码进行锁消除
- 锁粗化
- 如果虚拟机探测到一连串的对象都涉及到一个锁,可以将锁扩展到这个操作序列的外部。
- 轻量级锁
- 传统锁使用互斥量来实现
- 轻量级锁通过CAS,对象头信息中的锁标志位实现。如果存在竞争关系,轻量级锁会膨胀为重量级锁。
- 偏向锁
- 消除数据在无竞争情况下的同步原语。
- 适应性自旋
MySQL锁
锁是计算机协调多个进程或线程并发访问某一资源的机制。锁保证数据并发访问的一致性、有效性;锁冲突也是影响数据库并发访问性能的一个重要因素。锁是Mysql在服务器层和存储引擎层的的并发控制。
加锁是消耗资源的,锁的各种操作,包括获得锁、检测锁是否是否已解除、释放锁等。
设计模式
Semphore
限制线程并发的数量
Exchanger
在两个线程之间传输数据
Tensorflow常用函数
智能算法
PSO
粒子群算法(Particle Swarm Optimization)是在仿真生物群体社会活动的基础上,通过模拟群体生物相互协同寻优能力,从而构造出的一种新的智能优化算法。它具有易理解、易实现、全局搜索能力强、收敛速度快、设置参数少等优点,在科学研究和工程领域都受到了广泛的应用。
原理
在粒子群优化算法中,每个优化问题的潜在解都是搜索空间中的一只鸟,称之为“粒子”。所有的粒子都有一个由被优化的函数决定的适应值,每个粒子还有一个速度决定他们飞翔的方向和距离。然后粒子们就追随当前的最优粒子在解空间中搜索。优化开始时先初始化为一群随机粒子(随机解)。然后通过迭代找到最优解。在每一次迭代中,粒子通过跟踪两个极值来更新自己。第一个极值就是整个种群目前找到的最优解。这个极值是全局最优解。另外也可以不用整个种群而只是用其中一部分作为粒子的邻居,那么在所有邻居中的极值就是全局最优解。第二个极值是粒子本身所找到的最优解,称为个体极值。这是因为粒子仅仅通过跟踪全局极值或者局部极值来更新位置,不可能总是获得较好的解。这样在优化过程中,粒子在追随全局极值或局部极值的同时追随个体极值则圆满的解决了这个问题。
实现
粒子群优化算法具有编程简单,易实现的特点。下面给出其实现的具体步骤:
步骤1:初始化。初始搜索点的位置X0i及其速度V0i通常是在允许的范围内随机产生的,每个粒子的Pbest坐标设置为其当前位置,且计算出其相应的个体极值(即个体极值点的适应度值),而整个邻域的最优粒子就是该粒子邻域中个体极值中最好的,记录该最好值的粒子序号,并将Nbesti设置为该最好粒子的当前位置。
步骤2:评价每一个粒子。计算粒子的适应度值,如果好于该粒子当前的个体极值,则将Pbest设置为该粒子的位置,且更新个体极值。如果在该粒子的邻域内所有粒子的个体极值中最好的好于当前的Nbesti,则将Nbesti设置为该粒子的位置,记录该粒子的序号,且更新Nbesti的函数值。
步骤3:粒子的更新。用式(2.1)和式(2.2)对每一个粒子的速度和位置进行更新。
步骤4:检验是否符合结束条件。如果当前的迭代次数达到了预先设定的最大次数(或达到最小错误要求),则停止迭代,输出最优解,否则转到步骤2。
代码
|
|
JVM
记录JVM相关知识点
深度学习的应用
QA
NER
Recurrent neural networks for Chinese named entity recognition in TensorFlow
Relation Extraction
Chinese Relation Extraction by biGRU
Deep Learning In Alibaba
Query-Title
DSSM & Multi-view DSSM TensorFlow实现
文本分析
- 文本分类
- 基于语义向量距离:将文本按照语义映射成高维的向量特征,通过向量距离来分类
- 基于文本关键词、主题:首先提取文本关键词、主题等信息,然后通过这些词语的对照关系来进行分类
- 文本打标签
- 文本情感分析
- 文本关键词抽取
- TF-IDF
- LDA
- 基于Graph:将每个词与相关连的词构成图的结构
- 文本摘要
- 关键句抽取
- 解析原文主谓宾,基于语义自动生成
- 文本相似度分析
- 文本语义向量化,详细
- 通过向量距离判断文本的语义距离
推荐系统
PaddlePaddle提供的模型
深度学习101:包括个性化推荐,情感分析,语义角色标注,机器翻译等
Word2Vec
- CBOW
- Skip-gram
- Huffuman
- Negative Sampling
文本分类
- CNN
- RNN
- LSTM
- 栈式双向LSTM
- 双层序列的文本分类:对于长文本,可以将文本分为多个序列,对每个序列用卷积、池化提取特征,再进行分类。
点击率预估
广告展示步骤
- 获取与用户搜索词相关的广告集合
- 业务规则和相关性过滤
- 根据拍卖机制和 CTR 排序
- 展出广告
发展阶段
- Logistic Regression(LR) / GBDT + 特征工程
- LR + DNN 特征
- DNN + 特征工程
- Google广告点击预估
Wide & Deep Learning
谷歌在 16 年提出,将稀疏特征和Dense Embedding分别用LR和DNN结合在一起。
排序学习(Learning to Rank)
- Pointwise 方法
Pointwise方法是通过近似为回归问题解决排序问题,输入的单条样本为得分-文档,将每个查询-文档对的相关性得分作为实数分数或者序数分数,使得单个查询-文档对作为样本点(Pointwise的由来),训练排序模型。预测时候对于指定输入,给出查询-文档对的相关性得分。
- Pairwise方法(RankNet)
Pairwise方法是通过近似为分类问题解决排序问题,输入的单条样本为标签-文档对。对于一次查询的多个结果文档,组合任意两个文档形成文档对作为输入样本。即学习一个二分类器,对输入的一对文档对AB(Pairwise的由来),根据A相关性是否比B好,二分类器给出分类标签1或0。对所有文档对进行分类,就可以得到一组偏序关系,从而构造文档全集的排序关系。该类方法的原理是对给定的文档全集SS,降低排序中的逆序文档对的个数来降低排序错误,从而达到优化排序结果的目的。
- Listwise方法(LambdaRank)
Listwise方法是直接优化排序列表,输入为单条样本为一个文档排列。通过构造合适的度量函数衡量当前文档排序和最优排序差值,优化度量函数得到排序模型。由于度量函数很多具有非连续性的性质,优化困难。
深度结构化语义模型 (Deep Structured Semantic Models, DSSM)
DSSM使用DNN模型在一个连续的语义空间中学习文本低纬的表示向量,并且建模两个句子间的语义相似度。本例演示如何使用PaddlePaddle实现一个通用的DSSM 模型,用于建模两个字符串间的语义相似度,模型实现支持通用的数据格式,用户替换数据便可以在真实场景中使用该模型。
命名实体识别
- 序列标注可以分为Sequence Classification、Segment Classification和Temporal Classification三类