QA
NER
Recurrent neural networks for Chinese named entity recognition in TensorFlow
Relation Extraction
Chinese Relation Extraction by biGRU
Deep Learning In Alibaba
Query-Title
DSSM & Multi-view DSSM TensorFlow实现
文本分析
- 文本分类
- 基于语义向量距离:将文本按照语义映射成高维的向量特征,通过向量距离来分类
- 基于文本关键词、主题:首先提取文本关键词、主题等信息,然后通过这些词语的对照关系来进行分类
- 文本打标签
- 文本情感分析
- 文本关键词抽取
- TF-IDF
- LDA
- 基于Graph:将每个词与相关连的词构成图的结构
- 文本摘要
- 关键句抽取
- 解析原文主谓宾,基于语义自动生成
- 文本相似度分析
- 文本语义向量化,详细
- 通过向量距离判断文本的语义距离
推荐系统
PaddlePaddle提供的模型
深度学习101:包括个性化推荐,情感分析,语义角色标注,机器翻译等
Word2Vec
- CBOW
- Skip-gram
- Huffuman
- Negative Sampling
文本分类
- CNN
- RNN
- LSTM
- 栈式双向LSTM
- 双层序列的文本分类:对于长文本,可以将文本分为多个序列,对每个序列用卷积、池化提取特征,再进行分类。
点击率预估
广告展示步骤
- 获取与用户搜索词相关的广告集合
- 业务规则和相关性过滤
- 根据拍卖机制和 CTR 排序
- 展出广告
发展阶段
- Logistic Regression(LR) / GBDT + 特征工程
- LR + DNN 特征
- DNN + 特征工程
- Google广告点击预估
Wide & Deep Learning
谷歌在 16 年提出,将稀疏特征和Dense Embedding分别用LR和DNN结合在一起。
排序学习(Learning to Rank)
- Pointwise 方法
Pointwise方法是通过近似为回归问题解决排序问题,输入的单条样本为得分-文档,将每个查询-文档对的相关性得分作为实数分数或者序数分数,使得单个查询-文档对作为样本点(Pointwise的由来),训练排序模型。预测时候对于指定输入,给出查询-文档对的相关性得分。
- Pairwise方法(RankNet)
Pairwise方法是通过近似为分类问题解决排序问题,输入的单条样本为标签-文档对。对于一次查询的多个结果文档,组合任意两个文档形成文档对作为输入样本。即学习一个二分类器,对输入的一对文档对AB(Pairwise的由来),根据A相关性是否比B好,二分类器给出分类标签1或0。对所有文档对进行分类,就可以得到一组偏序关系,从而构造文档全集的排序关系。该类方法的原理是对给定的文档全集SS,降低排序中的逆序文档对的个数来降低排序错误,从而达到优化排序结果的目的。
- Listwise方法(LambdaRank)
Listwise方法是直接优化排序列表,输入为单条样本为一个文档排列。通过构造合适的度量函数衡量当前文档排序和最优排序差值,优化度量函数得到排序模型。由于度量函数很多具有非连续性的性质,优化困难。
深度结构化语义模型 (Deep Structured Semantic Models, DSSM)
DSSM使用DNN模型在一个连续的语义空间中学习文本低纬的表示向量,并且建模两个句子间的语义相似度。本例演示如何使用PaddlePaddle实现一个通用的DSSM 模型,用于建模两个字符串间的语义相似度,模型实现支持通用的数据格式,用户替换数据便可以在真实场景中使用该模型。
命名实体识别
- 序列标注可以分为Sequence Classification、Segment Classification和Temporal Classification三类