深度学习（3）-TensorFlow入门（常数张量和变量）

news2026/2/14 16:11:43

低阶张量操作是所有现代机器学习的底层架构，可以转化为TensorFlow API。

张量，包括存储神经网络状态的特殊张量（变量）。
张量运算，比如加法、relu、matmul。
反向传播，一种计算数学表达式梯度的方法（在TensorFlow中通过GradientTape对象来实现）。

然后是高阶深度学习概念。这可以转化为Keras API。

层，多层可以构成模型。
损失函数，它定义了用于学习的反馈信号。（必须是可微的）
优化器，它决定学习过程如何进行。
评估模型性能的指标，比如精度。
训练循环，执行小批量梯度随机下降。

常数张量和变量

要使用TensorFlow，我们需要用到一些张量。创建张量需要给定初始值。例如，可以创建全1张量或全0张量（见代码清单3-1），也可以从随机分布中取值来创建张量（见代码清单3-2）。

代码清单3-1　全1张量或全0张量

import tensorflow as tf
x = tf.ones(shape=(2, 1))
#←----等同于np.ones(shape=(2, 1))
print(x)
x = tf.zeros(shape=(2, 1))
#←----等同于np.zeros(shape=(2, 1))
print(x)

代码清单3-2　随机张量

x = tf.random.normal(shape=(3, 1), mean=0., stddev=1.)
#←----从均值为0、标准差为1的正态分布中抽取的随机张量，等同于np.random.normal(size=(3, 1), loc=0., scale=1.)
# mean的中文含义就是均值

print(x)

x = tf.random.uniform(shape=(3, 1), minval=0., maxval=1.)
#←----从0和1之间的均匀分布中抽取的随机张量，等同于np.random.uniform(size=(3, 1), low=0., high=1.)
print(x)

NumPy数组和TensorFlow张量之间的一个重要区别是，TensorFlow张量是不可赋值的，它是常量。举例来说，在NumPy中，你可以执行以下操作，如代码清单3-3所示。

代码清单3-3　NumPy数组是可赋值的

import numpy as np
x = np.ones(shape=(2, 2))
x[0, 0] = 0.

如果在TensorFlow中执行同样的操作（如代码清单3-4所示），那么程序会报错：EagerTensor object does not support item assignment（EagerTensor对象不支持对元素进行赋值）。

代码清单3-4　TensorFlow张量是不可赋值的

x = tf.ones(shape=(2, 2))  ←----程序会报错，因为张量是不可赋值的
x[0, 0] = 0.

要训练模型，我们需要更新其状态，而模型状态是一组张量。如果张量不可赋值，那么我们该怎么做呢？这时就需要用到变量（variable）。tf.Variable是一个类，其作用是管理TensorFlow中的可变状态。要创建一个变量，你需要为其提供初始值，比如随机张量，如代码清单3-5所示。

>>> v = tf.Variable(initial_value=tf.random.normal(shape=(3, 1)))
>>> print(v)
array([[-0.75133973],
       [-0.4872893 ],
       [ 1.6626885 ]], dtype=float32)

变量的状态可以通过其assign方法进行修改，如代码清单3-6所示。

代码清单3-6　为TensorFlow变量赋值

>>> v.assign(tf.ones((3, 1)))
array([[1.],
       [1.],
       [1.]], dtype=float32)

这种方法也适用于变量的子集，如代码清单3-7所示。

代码清单3-7　为TensorFlow变量的子集赋值

>>> v[0, 0].assign(3.)
array([[3.],
       [1.],
       [1.]], dtype=float32)

与此类似，assign_add()和assign_sub()分别等同于+=和-=的效果，如代码清单3-8所示。

代码清单3-8　使用assign_add()

>>> v.assign_add(tf.ones((3, 1)))
array([[2.],
       [2.],
       [2.]], dtype=float32)

就像NumPy一样，TensorFlow提供了许多张量运算来表达数学公式。我们来看几个例子，如代码清单3-9所示。

代码清单3-9　一些基本的数学运算

a = tf.ones((2, 2))
b = tf.square(a)  ←----求平方
c = tf.sqrt(a)  ←----求平方根
d = b + c  ←----两个张量（逐元素）相加
e = tf.matmul(a, b)  ←----计算两个张量的积（详见第2章）
e *= d  ←----两个张量（逐元素）相乘

重要的是，代码清单3-9中的每一个运算都是即刻执行的：任何时候都可以打印出当前结果，就像在NumPy中一样。我们称这种情况为急切执行（eager execution）。

本文可运行全部代码集合，大家可以直接在装了tensorflow的python3环境下运行。

import tensorflow as tf
x = tf.ones(shape=(2, 1))
#←----等同于np.ones(shape=(2, 1))
print(x)
x = tf.zeros(shape=(2, 1))
#←----等同于np.zeros(shape=(2, 1))
print(x)

x = tf.random.normal(shape=(3, 1), mean=0., stddev=1.)
#←----从均值为0、标准差为1的正态分布中抽取的随机张量，等同于np.random.normal(size=(3, 1), loc=0., scale=1.)
# mean的中文含义就是均值

print(x)

x = tf.random.uniform(shape=(3, 1), minval=0., maxval=1.)
#←----从0和1之间的均匀分布中抽取的随机张量，等同于np.random.uniform(size=(3, 1), low=0., high=1.)
print(x)

import numpy as np
x = np.ones(shape=(2, 2))
x[0, 0] = 0.

print(x)

v = tf.Variable(initial_value=tf.random.normal(shape=(3, 1)))
print(v)

v.assign(tf.ones((3, 1)))
print(v)

v[0, 0].assign(3.)
print(v)

v.assign_add(tf.ones((3, 1)))
print(v)