机器学习名词翻译 - xd21303/Notebook GitHub Wiki

tensor 张量
sparse 稀疏

准确率 (accuracy)
分类模型的正确预测所占的比例。在多类别分类中，准确率的定义如下：正确的预测数/样本总数在二元分类中，准确率的定义如下：（真正例数+真负例数）/ 样本总数

批次 (batch)
模型训练的一次迭代（即一次梯度更新）中使用的样本集。

分桶 (bucketing)
将一个特征（通常是连续特征）转换成多个二元特征（称为桶或箱），通常是根据值区间进行转换。例如，您可以将温度区间分割为离散分箱，而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位，则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱，将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱，并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。

分类数据 (categorical data)
例如性别['男'，'女'] 需要转化为 sparse tensor 稀疏张量

continuous data 连续数据例如数字[1,2,3,4,5,6] 可转化为 bucketized 分桶

协同过滤 (collaborative filtering)
根据很多其他用户的兴趣来预测某位用户的兴趣。协同过滤通常用在推荐系统中。

收敛 (convergence)

交叉熵 (cross-entropy)
对数损失函数向多类别分类问题进行的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度。

困惑度 (perplexity)
一种衡量指标，用于衡量模型能够多好地完成任务。例如，假设任务是读取用户使用智能手机键盘输入字词时输入的前几个字母，然后列出一组可能的完整字词。此任务的困惑度 (P) 是：为了使列出的字词中包含用户尝试输入的实际字词，您需要提供的猜测项的个数。

密集层 (dense layer)
是全连接层的同义词。

全连接层 (fully connected layer) 一种隐藏层，其中的每个节点均与下一个隐藏层中的每个节点相连。

嵌套 (embeddings)
一种分类特征，以连续值特征表示。通常，嵌套是指将高维度向量映射到低维度的空间。例如，您可以采用以下两种方式之一来表示英文句子中的单词：

表示成包含百万个元素（高维度）的稀疏向量，其中所有元素都是整数。向量中的每个单元格都表示一个单独的英文单词，单元格中的值表示相应单词在句子中出现的次数。由于单个英文句子包含的单词不太可能超过 50 个，因此向量中几乎每个单元格都包含 0。少数非 0 的单元格中将包含一个非常小的整数（通常为 1），该整数表示相应单词在句子中出现的次数。
表示成包含数百个元素（低维度）的密集向量，其中每个元素都包含一个介于 0 到 1 之间的浮点值。这就是一种嵌套。

在 TensorFlow 中，会按反向传播损失训练嵌套，和训练神经网络中的任何其他参数时一样。

周期 (epoch)
在训练时，整个数据集的一次完整遍历，以便不漏掉任何一个样本。因此，一个周期表示（N/批次规模）次训练迭代，其中 N 是样本总数。

样本 (example) 数据集的一行。一个样本包含一个或多个特征，此外还可能包含一个标签。另请参阅有标签样本和无标签样本。

假负例 (FN, false negative)
被模型错误地预测为负类别的样本。例如，模型推断出某封电子邮件不是垃圾邮件（负类别），但该电子邮件其实是垃圾邮件。

假正例 (FP, false positive)
被模型错误地预测为正类别的样本。例如，模型推断出某封电子邮件是垃圾邮件（正类别），但该电子邮件其实不是垃圾邮件。

假正例率（false positive rate, 简称 FP 率）
ROC 曲线中的 x 轴。FP 率的定义如下：假正例数/（假正例数+真负例数）

特征列 (FeatureColumns)
一组相关特征，例如用户可能居住的所有国家/地区的集合。样本的特征列中可能包含一个或多个特征。
TensorFlow 中的特征列内还封装了元数据，例如：

特征的数据类型
特征是固定长度还是应转换为嵌套
特征列可以包含单个特征。

“特征列”是 Google 专用的术语。特征列在 Yahoo/Microsoft 使用的 VW 系统中称为“命名空间”，也称为场。

指示列（indicator_column）
表示分类列的多重编码，与独热编码对应

one-hot 编码 (one-hot encoding)