深度学习主要为自然语言处理的研究带来了两方面的变化:一方面是使用统一的分布式(低维、稠密、连续)向量表示不同粒度的语言单元,如词、短语、句子和篇章等;另一方面是使用循环、卷积、递归等神经网络模型对不同的语言单元向量进行组合,获得更大语言单元的表示。

第1章 引言

1.1 自然语言处理的挑战

1.2 神经网络和深度学习

1.3 自然语言处理中的深度学习

1.4 本书的覆盖面和组织结构

1.5 本书未覆盖的内容

1.6 术语

1.7 数学符号

第一部分 有监督分类与前馈神经网络

第2章 学习基础与线性模型

2.1 有监督学习和参数化函数

2.2 训练集、测试集和验证集

2.3 线性模型

2.3.1 二分类

2.3.2 对数线性二分类

2.3.3 多分类

2.4 表示

2.5 独热和稠密向量表示

2.6 对数线性多分类

2.7 训练和优化

2.7.1 损失函数

2.7.2 正则化

2.8 基于梯度的优化

2.8.1 随机梯度下降

2.8.2 实例

2.8.3 其他训练方法

第3章 从线性模型到多层感知器

3.1 线性模型的局限性:异或问题

3.2 非线性输入转换

3.3 核方法

3.4 可训练的映射函数

第4章 前馈神经网络

4.1 一个关于大脑的比喻

4.2 数学表示

4.3 表达能力

4.4 常见的非线性函数

4.5 损失函数

4.6 正则化与丢弃法

4.7 相似和距离层

4.8 嵌入层

第5章 神经网络训练

5.1 计算图的抽象概念

5.1.1 前向计算

5.1.2 反向计算(导数、反向传播)

5.1.3 软件

5.1.4 实现流程

5.1.5 网络构成

5.2 实践经验

5.2.1 优化算法的选择

5.2.2 初始化

5.2.3 重启与集成

5.2.4 梯度消失与梯度爆炸

5.2.5 饱和神经元与死神经元

5.2.6 随机打乱

5.2.7 学习率

5.2.8 minibatch

第二部分 处理自然语言数据

第6章 文本特征构造

6.1 NLP分类问题中的拓扑结构

6.2 NLP问题中的特征

6.2.1 直接可观测特征

6.2.2 可推断的语言学特征

6.2.3 核心特征与组合特征

6.2.4 n元组特征

6.2.5 分布特征

第7章 NLP特征的案例分析

7.1 文本分类:语言识别

7.2 文本分类:主题分类

7.3 文本分类:作者归属

7.4 上下文中的单词:词性标注

7.5 上下文中的单词:命名实体识别

7.6 上下文中单词的语言特征:介词词义消歧

7.7 上下文中单词的关系:弧分解分析

第8章 从文本特征到输入

8.1 编码分类特征

8.1.1 独热编码

8.1.2 稠密编码(特征嵌入)

8.1.3 稠密向量与独热表示

8.2 组合稠密向量

8.2.1 基于窗口的特征

8.2.2 可变特征数目:连续词袋

8.3 独热和稠密向量间的关系

8.4 杂项

8.4.1 距离与位置特征

8.4.2 补齐、未登录词和词丢弃

8.4.3 特征组合

8.4.4 向量共享

8.4.5 维度

8.4.6 嵌入的词表

8.4.7 网络的输出

8.5 例子:词性标注

8.6 例子:弧分解分析

第9章 语言模型

9.1 语言模型任务

9.2 语言模型评估:困惑度

9.3 语言模型的传统方法

9.3.1 延伸阅读

9.3.2 传统语言模型的限制

9.4 神经语言模型

9.5 使用语言模型进行生成

9.6 副产品:词的表示

第10章 预训练的词表示

10.1 随机初始化

10.2 有监督的特定任务的预训练

10.3 无监督的预训练

10.4 词嵌入算法

10.4.1 分布式假设和词表示

10.4.2 从神经语言模型到分布式表示

10.4.3 词语联系

10.4.4 其他算法

10.5 上下文的选择

10.5.1 窗口方法

10.5.2 句子、段落或文档

10.5.3 句法窗口

10.5.4 多语种

10.5.5 基于字符级别和子词的表示

10.6 处理多字单元和字变形

10.7 分布式方法的限制

第11章 使用词嵌入

11.1 词向量的获取

11.2 词的相似度

11.3 词聚类

11.4 寻找相似词

11.5 同中选异

11.6 短文档相似度

11.7 词的类比

11.8 改装和映射

11.9 实用性和陷阱

第12章 案例分析:一种用于句子意义推理的前馈结构

12.1 自然语言推理与 SNLI数据集

12.2 文本相似网络

第三部分 特殊的结构

第13章 n元语法探测器:卷积神经网络

13.1 基础卷积池化

13.1.1 文本上的一维卷积

13.1.2 向量池化

13.1.3 变体

13.2 其他选择:特征哈希

13.3 层次化卷积

第14章 循环神经网络:序列和栈建模

14.1 RNN抽象描述

14.2 RNN的训练

14.3 RNN常见使用模式

14.3.1 接收器

14.3.2 编码器

14.3.3 传感器

14.4 双向RNN

14.5 堆叠RNN

14.6 用于表示栈的RNN

14.7 文献阅读的注意事项

第15章 实际的循环神经网络结构

15.1 作为RNN的CBOW

15.2 简单RNN

15.3 门结构

15.3.1 长短期记忆网络

15.3.2 门限循环单元

15.4 其他变体

15.5 应用到RNN的丢弃机制

第16章 通过循环网络建模

16.1 接收器

16.1.1 情感分类器

16.1.2 主谓一致语法检查

16.2 作为特征提取器的RNN

16.2.1 词性标注

16.2.2 RNNCNN文本分类

16.2.3 弧分解依存句法分析

第17章 条件生成

17.1 RNN生成器

17.2 条件生成(编码器)

17.2.1 序列到序列模型

17.2.2 应用

17.2.3 其他条件上下文

17.3 无监督的句子相似性

17.4 结合注意力机制的条件生成

17.4.1 计算复杂性

17.4.2 可解释性

17.5 自然语言处理中基于注意力机制的模型

17.5.1 机器翻译

17.5.2 形态屈折

17.5.3 句法分析

第四部分 其他主题

第18章 用递归神经网络对树建模

18.1 形式化定义

18.2 扩展和变体

18.3 递归神经网络的训练

18.4 一种简单的替代——线性化树

18.5 前景

第19章 结构化输出预测

19.1 基于搜索的结构化预测

19.1.1 基于线性模型的结构化预测

19.1.2 非线性结构化预测

19.1.3 概率目标函数(CRF)

19.1.4 近似搜索

19.1.5 重排序

19.1.6 参考阅读

19.2 贪心结构化预测

19.3 条件生成与结构化输出预测

19.4 实例

19.4.1 基于搜索的结构化预测:一阶依存句法分析

19.4.2 基于NeuralCRF的命名实体识别

19.4.3 基于柱搜索的NERCRF近似

第20章 级联、多任务与半监督学习

20.1 模型级联

20.2 多任务学习

20.2.1 多任务设置下的训练

20.2.2 选择性共享

20.2.3 作为多任务学习的词嵌入预训练

20.2.4 条件生成中的多任务学习

20.2.5 作为正则的多任务学习

20.2.6 注意事项

20.3 半监督学习

20.4 实例

20.4.1 眼动预测与句子压缩

20.4.2 弧标注与句法分析

20.4.3 介词词义消歧与介词翻译预测

20.4.4 条件生成:多语言机器翻译、句法分析以及图像描述生成

20.5 前景

第21章 结论

21.1 我们学到了什么

21.2 未来的挑战