微分畅叙录

一直以来,我都对网上对微分的讨论都不以为意,因为这是个想清楚后就一句话的东西,过多的讨论疑似不必要地复杂化了问题的核心。但最近心血来潮,对讨论微分这一概念颇有兴趣,也想起了第一次接触微积分时对微分略感神秘的回忆。

知乎上一个热门的问题是“为什么几乎所有教科书上对微分的讲解都不明不白”,其实是个好问题。这其中掺杂了历史的、教材的、教师的、网络的等等种种原因。每个原因都很有说法,但梳理这种背景不太适合这里做(不过后面会适时谈及)。本文的主要目的是梳理微分这一概念。

一言蔽之:微分是线性映射。

从导数到微分

我们知道,一元函数f的导数的定义式是
f'(x)=\lim _ {h\to0}\frac{f(x+h)-f(x)}{h}.Leibniz发明微积分时用的符号是\frac{\mathrm df}{\mathrm dx},当时理解为两个无穷小的商,因此导数也被称作微商。而f'(x)的符号是Lagrange率先使用的,两种符号如今都广泛使用。尽管如此,现代数学中“无穷小的商”的理解被摒弃,代之以严谨的极限定义,如前所示。定义了导数后,就可变换得到
f(x+h)=f(x)+f'(x)h+o(h),\quad h\to0.函数改变量的主要部分是一个h的齐次线性函数h\mapsto f'(x)h,很多人把这个线性主要部分f'(x)h作为函数fx处的微分,定义\mathrm df(x)=f'(x)\, \mathrm dx,其中\mathrm dx是无穷小。这种属于Leibniz式的古典理解。

严谨地看,我们不应采纳“\mathrm dx是无穷小”这种有问题的说法。回到\mathrm df(x _ 0)=f'(x _ 0)h,这里暂时用x _ 0代替x。考虑恒等映射\operatorname{Id}(x)=x,导数是x'=1,于是\mathrm d(\operatorname{Id}(x _ 0))=1\cdot h=h。为了简便,恒等映射常会被简单记为x,于是,\mathrm dx(x _ 0)=h。我们得到了微分
\mathrm df(x _ 0):=f'(x _ 0)\, \mathrm dx(x _ 0).可以简单写成\mathrm df(x )=f'(x )\, \mathrm dx

微分的现代定义

从现代数学的视角来看,我们更应把微分定义为一个线性映射。设U,V是两个线性空间,线性映射指的是映射T:U\to V,满足条件T(u _ 1+u _ 2)=Tu _ 1+Tu _ 2T(ku)=k\, Tu

微分:函数导数确定的线性映射
\begin{aligned}\mathrm df(x):\mathbb R&\to\mathbb R,\\h&\mapsto f'(x)h,\end{aligned}称作是f的微分。如果L(\mathbb R,\mathbb R)是一元实线性函数的全体,那么\mathrm df就是把可微区域映到L(\mathbb R,\mathbb R)

如前所述,恒等映射\operatorname{Id}(x)=x的微分是自身:\mathrm dx:h\mapsto h,所以,函数fx点上的微分可以用它来表示:
\mathrm df(x)=f'(x)\, \mathrm dx.这种观点定义微分的概念,好处在于便于推广到高维空间和微分流形上。下面讨论多元映射的微分。

多元微分:设\boldsymbol f:\mathbb R^n\to\mathbb R^m,如果存在一个线性映射T\in L(\mathbb R^n,\mathbb R^m)使得下列极限存在:
\lim _ {\boldsymbol h\to\boldsymbol 0}\frac{|\boldsymbol f(\boldsymbol x+\boldsymbol h)-\boldsymbol f(\boldsymbol x)-T\boldsymbol h|}{|\boldsymbol h|}=0,那么称\boldsymbol f\boldsymbol x可微。这个线性映射T是唯一确定的,称作映射在该点的微分,记作
\mathrm d\boldsymbol f(\boldsymbol x):=T.\mathbb R^n,\mathbb R^m都取标准基,\mathrm d\boldsymbol f(\boldsymbol x)在这基下的矩阵就是映射在该点的导数,记作\boldsymbol f'(\boldsymbol x)(也有的用这个记微分)或D\boldsymbol f(\boldsymbol x)


由线性代数,取定基后,线性映射和矩阵构成一一对应。因此,在取标准基时,微分和导数可以视同一物,这也是为什么很多定义只引入其中一个叫法。

\boldsymbol f:\mathbb R^n\to\mathbb R^m可微,可微则偏导数都存在,这n个偏导数完全确定了\mathrm d\boldsymbol f(\boldsymbol x):设其矩阵D\boldsymbol f(\boldsymbol x)(i,j)元是a _ {ij},那么由可微条件,
\begin{aligned}\boldsymbol f(\boldsymbol x+t\boldsymbol e _ j)&=\boldsymbol f(\boldsymbol x)+\boldsymbol f'(\boldsymbol x)(t\boldsymbol e _ j)+o(t),\quad t\to0,\\&\phantom{{}=\boldsymbol f(\boldsymbol x)+{}}\boldsymbol f'(\boldsymbol x)(t\boldsymbol e _ j)=\sum _ {i=1}^mta _ {ij}\boldsymbol e' _ i,\\f _ i(\boldsymbol x+t\boldsymbol e _ j)&=f _ i(\boldsymbol x)+ta _ {ij}+o(t),\quad t\to0,\\\implies{} a _ {ij}&=\frac{\partial f _ i}{\partial x _ j}(\boldsymbol x).\end{aligned}这表明导数D\boldsymbol f(\boldsymbol x)是由所有偏导数构成的矩阵,也叫Jacobi矩阵。

现在确定的微分如下:
\begin{gathered}\mathrm d\boldsymbol f(\boldsymbol x)\boldsymbol e _ j=\sum _ {i=1}^m\frac{\partial f _ i}{\partial x _ j}(\boldsymbol x)\boldsymbol e _ i',\\\implies{}\mathrm d\boldsymbol{f} (\boldsymbol{x}) \boldsymbol{h}=\sum _ {i=1}^{m}\Big\{\sum _ {j=1}^{n}\frac{\partial f _ i}{\partial x _ j}(\boldsymbol{x}) h _ {j}\Big\} \boldsymbol{e}' _ {i},\end{gathered}其中\boldsymbol h=(h _ 1,\dots,h _ n)\mathbb R^n的标准基是(\boldsymbol e _ 1,\dots,\boldsymbol e _ n)\mathbb R^m的标准基是(\boldsymbol e _ 1',\dots,\boldsymbol e _ m')

:设多元函数y=f(x _ 1,\dots,x _ n)可微,考虑坐标函数f _ j(\boldsymbol x)=x _ j,可得\mathrm df _ j(\boldsymbol x)\boldsymbol h=h _ j,也是个一样的坐标函数。于是线性映射\mathrm dy可由n个线性映射线性表示:
\mathrm dy=\frac{\partial f}{\partial x _ 1}(\boldsymbol x)\, \mathrm dx _ 1+\dots+\frac{\partial f}{\partial x _ n}(\boldsymbol x)\, \mathrm dx _ n.

微分流形

“微分是线性映射”这一观点已经和Leibniz最初的观点相去甚远,它得益于现代微分几何的发展。下面粗略地一瞥微分在流形上的推广。

M,N是(光滑)流形,它们之间有一个映射F:M\to N;对p\in MF在其上的微分是一个线性映射\mathrm dF _ p

线性映射是两个线性空间之间的映射,现在\mathrm dF _ p所要的线性空间是什么?回答是,点p和点F(p)上的切空间,记作T _ pM,T _ {F(p)}N。切空间里的向量是切向量。之前在Euclid空间就没有这么麻烦的考虑,例如平面上的一个向量自然和这个平面相切。

现在的问题又来到了切向量是什么?这时候就需要用一种间接、迂回的方式刻画了。点p上的一个切向量v,可以是p上的“导子”derivation,线性作用在(定义在流形的)函数上,v:f\mapsto vf\in\mathbb R,满足v(fg)=f(p)\, vg+g(p)\, vf,和乘法求导形似。例如,偏导数算子\partial/\partial x _ i就是一个导子;又如沿一个向量求方向导数也是个导子。。

现在设v\in T _ pM是一个切向量,那么\mathrm d F _ p(v)是怎样一个T _ {F(p)}N中的切向量?已知的是导子v作用在一个M上的函数gv(g);现在假设f:N\to\mathbb R,要知道v如何影响f,我们用F连接起两个流形M,N上的函数,考虑的是f\circ F。微分后\mathrm dF_p(v)作用在f:N\to\mathbb R上定义为v作用在f\circ F上,也就是由该式确定:\mathrm dF _ p(v)(f)=v(f\circ F)。可以验证这样定义的微分确实是线性的,\mathrm dF _ p(v)也确实是F(p)上的导子。

对于\mathbb R^nn个偏导数算子\frac{\partial}{\partial x^1}| _ p,\dots,\frac{\partial}{\partial x^n}| _ p构成T _ p\mathbb R^n的一组基。(这里遵循惯例采用了上标。)

:验证\mathrm d\sin x=\cos x\, \mathrm dx。切向量v\in T _ x\mathbb R可被基表示为v=v^1\frac{\partial }{\partial x},两边分别为
\begin{gathered}\mathrm d\sin x\, (v)(f)=v^1\frac{\partial }{\partial x}f(\sin x)=v^1\frac{\partial f}{\partial x}\Big| _ {\sin x}\cos x,\\\cos x\, \mathrm dx _ {\sin x}(v)(f)=\cos x\cdot \Big(v^1\frac{\partial}{\partial x}f\Big)\Big| _ {\sin x}.\end{gathered}值得注意的是,右边计算的是恒等映射的微分(也是恒等映射),因此是在点\sin x上求切空间T _ {\sin x}\mathbb R里的切向量。

:现在考虑F:\mathbb R^n\to\mathbb R^m,定义域、值域分别采用坐标(x^1,\dots,x^n),(y^1,\dots,y^m)。然后可以计算\mathrm dF _ p在一个基切向量上的作用
\begin{gathered}\mathrm dF _ p\Big(\frac{\partial}{\partial x^i}\Big| _ p\Big)f=\frac{\partial}{\partial x^i}\Big| _ p(f\circ F)=\frac{\partial f}{\partial y^j}(F(p))\frac{\partial F^j}{\partial x^i}(p),\\\implies\mathrm dF _ p\Big(\frac{\partial}{\partial x^i}\Big| _ p\Big)=\frac{\partial F^j}{\partial x^i}(p)\frac{\partial }{\partial y^j}\Big| _ {F(p)}.\end{gathered}写成矩阵形式,就得到了线性映射\mathrm dF _ p在整个基上的作用:
\begin{aligned} &\begin{bmatrix} \mathrm dF _ p(\frac{\partial}{\partial x^1}| _ p)&\cdots&\mathrm dF _ p(\frac{\partial}{\partial x^n}| _ p) \end{bmatrix} \\ ={}&\begin{bmatrix} \frac{\partial }{\partial y^1}\Big| _ {F(p)}&\cdots&\frac{\partial }{\partial y^m}\Big| _ {F(p)} \end{bmatrix} \begin{bmatrix} \frac{\partial F^1}{\partial x^1}(p)&\cdots &\frac{\partial F^1}{\partial x^n}(p) \\ \vdots&\ddots&\vdots \\ \frac{\partial F^m}{\partial x^1}(p)&\cdots &\frac{\partial F^m}{\partial x^n}(p) \end{bmatrix}. \end{aligned}这表明微分\mathrm dF _ p在这基下的矩阵是Jacobi矩阵,和前面一致。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注