记录机器学习相关知识点

Logistic Regression

详解并行逻辑回归
 Logistic Regression 的前世今生（理论篇）

线性回归

如果X或Y进行变换后满足线性关系，这种称为广义的线性回归
$$
\mathbf{Y} = \mathbf{g^{-1}}(\mathbf{X\theta})
$$
线性回归的L1正则化通常称为Lasso回归，它和一般线性回归的区别是在损失函数上增加了一个L1正则化的项，L1正则化的项有一个常数系数来调节损失函数的均方差项和正则化项的权重。求解方法为坐标轴下降法（coordinate descent）和最小角回归法（ Least Angle Regression）

Ridge回归的求解比较简单，一般用最小二乘法。这里给出用最小二乘法的矩阵推导形式，和普通线性回归类似。

　　　　令
$$
J(\mathbf\theta)的导数等于0
$$
得到下式：

$$
\mathbf{X^T(X\theta - Y) + \alpha\theta} = 0
$$
　　　　整理即可得到最后的的结果：

$$
\mathbf{\theta = (X^TX + \alpha E)^{-1}X^TY}
$$
　　　其中E为单位矩阵。

贝叶斯

$$
C{result} = \underbrace{argmax}{C_k}P(Y=Ck)\prod{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k)
$$

$$
P(Xj=x{jl}|Y=Ck) = \frac{x{jl} + \lambda}{m_k + n\lambda}
$$

$$
P(Xj=x{jl}|Y=C_k) = P(j|Y=Ck)x{jl} + (1 - P(j|Y=Ck)(1-x{jl})
$$

$$
P(X_j=x_j|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp\Bigg{(}-\frac{(x_j - \mu_k)^2}{2\sigma_k^2}\Bigg{)}
$$

三种贝叶斯模型详解

Essay

无痛的机器学习
代码梯度下降含代码
*动量

稀疏编码

Sparse code

分布式深度学习

分布式深度学习原理和算法

Seq2Seq汇总

各类Seq2Seq模型对比及《Attention Is All You Need》中技术详解

Attention is all you need

机器翻译之Facebook的CNN与Google的Attention

集成学习

Stacking

Kaggle

Kaggle技巧

词向量

wordRank，与 word2vec、fastText

贝叶斯模型

朴素贝叶斯的三个常用模型：高斯、多项式、伯努利

三种模型推导

HMM

HMM推导

HMM实现

xgboost

模型求解方法

最小二乘法：令倒数为0，对方程组求解。
$$
\mathbf{\theta} = (\mathbf{X^{T}X})^{-1}\mathbf{X^{T}Y}
$$
梯度下降法：批梯度下降，随机梯度下降，小批量梯度下降法
$$
\theta_i = \thetai - \alpha\sum\limits{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, …x_n^{(j)}) - y_j)x_i^{(j)}
$$

$$
\theta_i = \thetai - \alpha (h\theta(x_0^{(j)}, x_1^{(j)}, …x_n^{(j)}) - y_j)x_i^{(j)}
$$

$$
\theta_i = \thetai - \alpha \sum\limits{j=t}^{t+x-1}(h_\theta(x_0^{(j)}, x_1^{(j)}, …x_n^{(j)}) - y_j)x_i^{(j)}
$$

SGD,momentum,Adagrad ,RMSProp,Adam

牛顿法/拟牛顿法