AI入门——理解特征与映射

首先把他当成黑盒理解吧，后面有的数学逻辑推导，救命。

第一个问题：

一个数据A：(23,45,67)，作为一个tensor而言，具有(1,3)的shape

通过多层Linear得到一个新的数据B，tensor具有（1，4）的shape。

如果A的三个数据代表物理世界的三维坐标，那么B代表什么？

这是本文要介绍的两个概念——特征与映射（模式）。

什么是特征？广义来讲，任何神经网络中间层都可以叫做特征，神经网络的输入也可以叫做特征。从信息的角度理解，特征是包含了特定信息的item。

但我们为了更好的理解神经网络设计的两种思路，以后的特征，没有特定说明，均指代狭义特征。

我将狭义特征定义为：对具备物理意义的数据进行特定处理，得到的易于被网络学习，但不易于被人类读取的，包含相同信息的数据。一般情况下，这个数据相比有物理意义的数据维度更高（tensor shape变大，也就是channle变多），频率更低（信息密度角度）。

一个经典的特征例子：

这是自然语言处理中的经典encoder-decoder结构，由两个模块构成。一个人类看得懂的句子“I am a student”被encoder编码为你看不懂的一组数字。然后被Decoder解码为人类看得懂的新句子。这个中间的数据信息就是特征，包含了原本的语意“我是个学生”，尽管你看不懂。

接下来我们再聊聊映射。顾名思义，映射是一个数据应该通过一种特定的方式得到一个对应的数据。最简单的例子，y=x+1 。那么对于x=1而言，映射后的数据就是2。

（ps：一般情况下，官方可能翻译为“模式”而非映射。为了便于新手理解，我使用映射一词。但实际上模式更为准确。）

再比如，上面的encoder-decoder结构中。如果你讲encoder和decoder结合起来当作一个模块，那么这个模块的作用其实就是映射，讲“我是个学生”从英文映射到德语。

本章简要介绍了特征与映射的概念，在后续的AI学习中，我们会遇到许多文章中会采用模块化的设计，一个模块具体的作用，以及模块之间的信息传递，需要根据网络的抽象程度和具体的任务设计确定。

Miles629