记录机器学习相关知识点
Logistic Regression
详解并行逻辑回归
Logistic Regression 的前世今生(理论篇)
线性回归
如果X或Y进行变换后满足线性关系,这种称为广义的线性回归
$$
\mathbf{Y} = \mathbf{g^{-1}}(\mathbf{X\theta})
$$
线性回归的L1正则化通常称为Lasso回归,它和一般线性回归的区别是在损失函数上增加了一个L1正则化的项,L1正则化的项有一个常数系数来调节损失函数的均方差项和正则化项的权重。求解方法为坐标轴下降法(coordinate descent)和最小角回归法( Least Angle Regression)
Ridge回归的求解比较简单,一般用最小二乘法。这里给出用最小二乘法的矩阵推导形式,和普通线性回归类似。
令
$$
J(\mathbf\theta)的导数等于0
$$
得到下式:
$$
\mathbf{X^T(X\theta - Y) + \alpha\theta} = 0
$$
整理即可得到最后的的结果:
$$
\mathbf{\theta = (X^TX + \alpha E)^{-1}X^TY}
$$
其中E为单位矩阵。
贝叶斯
$$
C{result} = \underbrace{argmax}{C_k}P(Y=Ck)\prod{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k)
$$
$$
P(Xj=x{jl}|Y=Ck) = \frac{x{jl} + \lambda}{m_k + n\lambda}
$$
$$
P(Xj=x{jl}|Y=C_k) = P(j|Y=Ck)x{jl} + (1 - P(j|Y=Ck)(1-x{jl})
$$
$$
P(X_j=x_j|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp\Bigg{(}-\frac{(x_j - \mu_k)^2}{2\sigma_k^2}\Bigg{)}
$$
Essay
稀疏编码
分布式深度学习
Seq2Seq汇总
各类Seq2Seq模型对比及《Attention Is All You Need》中技术详解
机器翻译之Facebook的CNN与Google的Attention
集成学习
Kaggle
词向量
贝叶斯模型
HMM
xgboost
模型求解方法
最小二乘法:令倒数为0,对方程组求解。
$$
\mathbf{\theta} = (\mathbf{X^{T}X})^{-1}\mathbf{X^{T}Y}
$$
梯度下降法:批梯度下降,随机梯度下降,小批量梯度下降法
$$
\theta_i = \thetai - \alpha\sum\limits{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, …x_n^{(j)}) - y_j)x_i^{(j)}
$$
$$
\theta_i = \thetai - \alpha (h\theta(x_0^{(j)}, x_1^{(j)}, …x_n^{(j)}) - y_j)x_i^{(j)}
$$
$$
\theta_i = \thetai - \alpha \sum\limits{j=t}^{t+x-1}(h_\theta(x_0^{(j)}, x_1^{(j)}, …x_n^{(j)}) - y_j)x_i^{(j)}
$$
SGD,momentum,Adagrad ,RMSProp,Adam
牛顿法/拟牛顿法
数据降维
PCA
SVD
Auto-Encoder
语言模型
n-gram
NN:可以看成概率