咖啡图片
正在将巧克力泡入咖啡
ntainer" style="display: none">
文章

数学工具

工科数学基础

数学工具

三角函数和双曲函数

三角函数是定义在单位圆上的,参数双曲函数是定义在单位等轴双曲线上的。双曲函数和三角函数在复平面上仅仅差一个正交旋转。

三角函数常用公式如下

\[\begin{aligned} % 辅助角公式 &a\sin x + b\cos x = \sqrt{a^2 + b^2}\sin(x + \varphi),\quad \tan\varphi = \frac{b}{a}\\ &\\ % 和差角公式 &\sin(x + y) = \sin(x)\cos(y) + \cos(x)\sin(y)\\ &\sin(x - y) = \sin(x)\cos(y) - \cos(x)\sin(y)\\ &\cos(x + y) = \cos(x)\cos(y) - \sin(x)\sin(y)\\ &\cos(x - y) = \cos(x)\cos(y) + \sin(x)\sin(y)\\ &\tan(x + y) = \frac{\tan(x) + \tan(y)}{1 - \tan(x)\tan(y)}\\ &\tan(x - y) = \frac{\tan(x) - \tan(y)}{1 + \tan(x)\tan(y)}\\ &\\ % 二倍角公式 &\sin2x = 2\sin x\cos x\\ &\cos2x = \cos^2x - \sin^2x = 2\cos^2x - 1 = 1 - 2\sin^2x\\ &\tan2x = \frac{2\tan x}{1 - \tan^2x}\\ &\\ % 半角公式 &\sin\frac{x}{2} = \pm\sqrt{\frac{1 - \cos x}{2}}\\ &\cos\frac{x}{2} = \pm\sqrt{\frac{1 + \cos x}{2}}\\ &\tan\frac{x}{2} = \pm\sqrt{\frac{1 - \cos x}{1 + \cos x}} = \frac{\sin x}{1 + \cos x} = \frac{1 - \cos x}{\sin x}\\ &\\ % 和差化积公式 &\sin x + \sin y = 2\sin\frac{x + y}{2}\cos\frac{x - y}{2}\\ &\sin x - \sin y = 2\cos\frac{x + y}{2}\sin\frac{x - y}{2}\\ &\cos x + \cos y = 2\cos\frac{x + y}{2}\cos\frac{x - y}{2}\\ &\cos x - \cos y = -2\sin\frac{x + y}{2}\sin\frac{x - y}{2}\\ &\\ % 积化和差公式 &\sin x\cos y = \frac{1}{2}[\sin(x + y) + \sin(x - y)]\\ &\cos x\sin y = \frac{1}{2}[\sin(x + y) - \sin(x - y)]\\ &\cos x\cos y = \frac{1}{2}[\cos(x + y) + \cos(x - y)]\\ &\sin x\sin y = -\frac{1}{2}[\cos(x + y) - \cos(x - y)]\\ &\\ % 不同三角函数复合 &\sin(\arccos x)=\sqrt{1 - x^{2}}\quad(- 1\leqslant x\leqslant1)\\\ &\sin(\arctan x)=\frac{x}{\sqrt{1 + x^{2}}}\quad(x\in R)\\ &\cos(\arcsin x)=\sqrt{1 - x^{2}}\quad(-1\leqslant x\leqslant1)\\ &\cos(\arctan x)=\frac{1}{\sqrt{1 + x^{2}}}\quad(x\in R)\\ &\tan(\arcsin x)=\frac{x}{\sqrt{1 - x^{2}}}\quad(- 1< x<1)\\ &\tan(\arccos x)=\frac{\sqrt{1 - x^{2}}}{x}\quad(0 < x\leqslant1\text{或}-1\leqslant x<0) \end{aligned}\]

函数图像(注意反三角函数的定义域)

相关微积分公式

函数的凹凸性

拐点:函数的二阶导数等于零且左右两侧二阶导数符号不同的点,函数的凹凸性在此点发生改变

凹凸性:如果一个有实值函数 f 对任意该区间内不相等的\(x\)和\(y\)和任意\(t \in [0, 1]\)有

\[f(tx+(1−t)y)\geqslant tf(x)+(1−t)f(y)\]

则称\(f\)在某区间(或者某个向量空间中的凸集)上是凹的

注:国内部分数学教材的定义与国际相反,但经济学教材又与国际相同,此处以维基百科的定义为准,即图像的凹凸性与函数图像感受一致,但函数凹凸性与函数图像相反。

极值点和极值

驻点:一元函数中一阶导数为 0 的点,多元函数中所有偏导数同时为 0 的点,是极值点的候选点

极值点:函数取得局部极大值或局部极小值的点。多元函数极值点处所有偏导数为 0(极值点的必要条件是驻点)。一元函数可导的驻点为极值点。二元函数判定驻点中的极值点方法为:计算函数在驻点\((x_{0},y_{0})\)处的二阶偏导数:\(A = f_{xx}(x_{0},y_{0})\),\(B = f_{xy}(x_{0},y_{0})\),\(C = f_{yy}(x_{0},y_{0})\)。

  • 若\(AC - B^2>0\)且\(A>0\),则\(f(x_{0},y_{0})\)是极小值
  • 若\(AC - B^2>0\)且\(A<0\),则\(f(x_{0},y_{0})\)是极大值
  • 若\(AC - B^2<0\),则\((x_{0},y_{0})\)不是极值点,是鞍点
  • 若\(AC - B^2 = 0\),此方法无法判定

比较开区域内驻点处的函数值和边界上的最值可得到闭区域内函数的最值。

拉格朗日乘子法

用于求解条件极值,即自变量除了定义域的限制外,还有其它约束的函数极值问题。

设要求函数\(z = f(x,y)\)在约束条件\(\varphi(x,y)=0\)下的极值,步骤如下

  1. 构建拉格朗日函数:引入拉格朗日乘数\(\lambda\),构造\(L(x,y,\lambda)=f(x,y)+\lambda\varphi(x,y)\)
  2. 求偏导数并令其为零:\(L(x,y,\lambda)\)分别对\(x\)、\(y\)、\(\lambda\)求偏导并令为 0,得到方程组

    \[\begin{cases}L_{x} = f_{x}(x,y)+\lambda\varphi_{x}(x,y)=0\\ L_{y} = f_{y}(x,y)+\lambda\varphi_{y}(x,y)=0\\ L_{\lambda}=\varphi(x,y)=0\end{cases}\\\]
  3. 解方程组:解上述方程组,求出\(x\)、\(y\)和\(\lambda\)的值。这些解对应的点\((x,y)\)就是可能的极值点。

  4. 判断极值:将求得的可能极值点代入原函数\(f(x,y)\),比较这些点的函数值大小,从而确定是极大值还是极小值。

拉格朗日乘子法的基本思想是通过引入拉格朗日乘数\(\lambda\),将条件极值问题转化为无条件极值问题。从几何角度来看,约束条件\(\varphi(x,y)=0\)表示一条曲线(在二维空间中),而函数\(z = f(x,y)\)表示一个曲面。条件极值就是在这条曲线上找到使曲面\(z = f(x,y)\)取得极值的点。拉格朗日函数\(L(x,y,\lambda)\)的驻点恰好对应着在约束条件下函数\(f(x,y)\)的可能极值点。另外注意,该方法只是一种必要条件,即极值一定满足这个条件,但是满足这个条件的也不一定是极值,该方法只是提供了一种求条件极值的可能。

拉格朗日方程

拉格朗日方程是从能量约束的角度描述力学系统的分析方法,可以高效解决经典牛顿力学难以处理的多约束多自由度问题。方程如下,其中\(\mathcal{L}\)为拉格朗日量,\(T\)为系统动能,\(V\)为系统势能,\(q_i\)为广义坐标,根据研究的系统而定,通常为线位移\(x\)或角位移\(\theta\)

\[\begin{aligned} &\frac{\text{d}}{\text{d}t}\left(\frac{\partial \mathcal{L}}{\partial \dot{q}_i}\right) - \frac{\partial \mathcal{L}}{\partial q_i} = Q_i\\ &\mathcal{L} = T - V\\ \end{aligned}\]

拉格朗日方程的一个常见用法是,代入线位移和角位移的坐标列出两个方程,进行拉普拉斯变换后联立得到系统的传递函数。

洛必达法则

洛必达法则用于在满足一定条件的前提下,求解未定式的极限。\(x \to a\)时,\(f(x),g(x)\)均\(\to 0\)或均\(\to \infty\),\(\lim_{x \to a}\frac{f(x)}{g(x)}\)可能存在也可能不存在,这个式子称为未定式。法则的内容为,在满足以下三个条件时,有\(\lim_{x \to a}\frac{f(x)}{g(x)} = \lim_{x \to a} \frac{f'(x)}{g'(x)}\)

  1. \(x \to a\)时,\(f(x),g(x)\)均\(\to 0\)或均\(\to \infty\)
  2. 在\(x \in \mathring{U}(a, \delta)\)内,\(f'(x),g'(x)\)均存在且\(g'(x) \neq 0\)
  3. \(\lim_{x \to a} \frac{f'(x)}{g'(x)}\)存在或为无穷大

由此可以得到几个常用的极限

\[\begin{aligned} \lim_{x \to 0} \frac{\sin(x)}{x} &= 1 \\ \lim_{x \to \infty} \frac{x^\alpha}{\text{e}^x} &= 0 \\ \lim_{x \to \infty} \frac{\ln x}{x^\alpha} &= 0 \\ \lim_{x \to \infty} \left( 1 + \frac{1}{x} \right)^x &= \text{e} \end{aligned}\]

梯度和各类导数

导数表征了函数值对自变量微小变化的敏感程度。

  • 一元函数导数:设\(f(x)\)在\(x_{0}\)的某邻域有定义且在\(x_{0}\)处连续,若\(\lim_{x \to x_{0}}\frac{f(x) - f(x_{0})}{x - x_{0}}\)存在,则称\(f(x)\)在\(x_{0}\)处可导,称该值为\(f(x)\)在\(x_{0}\)处的导数,记为\(f'(x_{0})\)。类似地可定义高阶导数。反函数的导数为原函数导数的倒数。

  • 多元函数偏导数:设函数\(z = f(x,y)\)在点\((x_{0},y_{0})\)的某一邻域内有定义,若极限\(\lim_{\Delta x\to 0}\frac{f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})}{\Delta x}\)存在,则称该值为函数\(z = f(x,y)\)在点\((x_{0},y_{0})\)处对\(x\)的偏导数,记作\(f_{x}(x_{0},y_{0})\),\(\frac{\partial z}{\partial x}\vert_{(x_{0},y_{0})}\),\(\frac{\partial f}{\partial x}\vert_{(x_{0},y_{0})}\)或\(z_{x}\vert_{(x_{0},y_{0})}\)。对\(y\)的偏导数类似。二元函数中,求偏导数相当于在函数的两个方向上求切线斜率。高阶偏导数有纯偏导(\(\frac{\partial^2 z}{\partial x^2}\)、\(\frac{\partial^2 z}{\partial y^2}\))和混合偏导(\(\frac{\partial^2 z}{\partial x \partial y}\)、\(\frac{\partial^2 z}{\partial y \partial x}\))。当二阶偏导数连续时,两个混合偏导相等。

  • 多元函数方向导数:设函数\(z = f(x,y)\)在点\(P(x_{0},y_{0})\)的某一邻域\(U(P)\)内有定义,自点\(P\)引射线\(l\),设\(x\)轴正向到射线的转角为\(\varphi\),在射线上取一点\(P'(x_0 + \Delta x, y_0 + \Delta y) \in U(P)\),记\(\rho=\sqrt{(\Delta x)^2 + (\Delta y)^2}\)。如果以下极限存在,则称此极限为函数\(f(x,y)\)在点\(P\)沿方向\(l\)的方向导数,记作\(\frac{\partial f}{\partial l}\vert{(x_0,y_0)}\)。

    \[\lim_{\rho \to 0}\frac{f(x_{0} + \Delta x,y_{0} + \Delta y)-f(x_{0},y_{0})}{\rho}\]

    若函数\(z = f(x,y)\)在点\((x,y)\)可微,那么函数在该点沿任意方向的方向导数都存在,且有

    \[\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}\cos\varphi+\frac{\partial f}{\partial y}\sin\varphi\]

    方向导数刻画了函数在某一点沿着某一方向的变化率。

  • 梯度:梯度和方向导数联系紧密,梯度常用来表示物理量在空间中的变化趋势(如温度场、电场等)。设函数\(z = f(x,y)\)在平面区域\(D\)内具有一阶连续偏导数,则对于每一点\(P(x,y)\in D\),都可确定一个向量\(\frac{\partial f}{\partial x}\vec{i}+\frac{\partial f}{\partial y}\vec{j}\),这个向量称为函数\(f(x,y)\)在点\(P(x,y)\)的梯度,记作\(\nabla f(x,y)\)或\(\text{grad} f(x,y)\) \(\nabla f(x,y)=\frac{\partial f}{\partial x}\vec{i}+\frac{\partial f}{\partial y}\vec{j}\) 梯度的方向是函数在该点处方向导数取得最大值的方向;梯度的模\(\vert\nabla f(x,y)\vert=\sqrt{(\frac{\partial f}{\partial x})^2 + (\frac{\partial f}{\partial y})^2}\)就是函数在该点的最大方向导数的值。

微分和全微分

微分的实质,是用切线增量近似曲线增量,是函数的局部线性化。

  • 一元函数的微分:设\(f(x)\)在某区间\(I\)有定义,\(x_{0},x_{0} + \Delta x \in I\),若\(\Delta y = f(x_{0} + \Delta x) - f(x_{0}) = A\Delta x + o(x)\),其中\(A\)不依赖于\(\Delta x\)仅与\(x\)有关,\(o(x)\)是\(x\to 0\)时\(x\)的高阶无穷小,则称\(f(x)\)在\(x_{0}\)可微,\(A\Delta x\)为\(f(x)\)在\(x_{0}\)处相应于\(\Delta x\)的微分,记为\(\text{d}y_{x=x_{0}}\),\(\text{d}y\)称为\(\Delta y\)的线性主部,是\(\Delta x\)的线性函数。若\(f(x)\)在\(I\)上每一点均可微,则\(f(x)\)是\(I\)上的可微函数。一元微分计算式如下

    \[\text{d}y = f'(x_{0}) \text{d}x\]
  • 全微分:设函数\(z = f(x,y)\)在点\((x,y)\)的某邻域内有定义,若函数在点\((x,y)\)处的全增量\(\Delta z = f(x + \Delta x,y + \Delta y)-f(x,y)\)可以表示为\(\Delta z = A\Delta x + B\Delta y + o(\rho)\),其中\(A\)、\(B\) 不依赖于\(\Delta x\)、\(\Delta y\)仅与\(x\)、\(y\)有关,\(\rho=\sqrt{(\Delta x)^2 + (\Delta y)^2}\),\(o(\rho)\)是\(\rho\to0\)时\(\rho\)的高阶无穷小,则称函数\(z = f(x,y)\)在点\((x,y)\)可微,\(A\Delta x + B\Delta y\)称为函数\(z = f(x,y)\)在点\((x,y)\)的全微分,记作\(\text{d}z\),将\(\Delta x\)、\(\Delta y\)分别记作\(\text{d}x\)、\(\text{d}y\)。全微分法则提供了全微分的计算式 \(\text{d}z = f_{x}(x_{0}, y_{0}) \text{d}x + f_{y}(x_{0}, y_{0}) \text{d}y\)

一阶微分具有形式不变性:设\(y = f(u)\),无论\(u\)是自变量还是中间变量,一阶微分\(\text{d}y = f'(u)\text{d}u\)的形式保持不变;而高阶微分由于含有交叉项则不具有这一性质。

链式法则

链式法则描述了复合函数的求导规律

  • 一元函数:设\(y = f(u)\),\(u = g(x)\),且\(g(x)\)在\(x\)处可导,\(f(u)\)在对应的\(u = g(x)\)处可导,则复合函数\(y = f(g(x))\)在\(x\)处可导 \(y^\prime = f^\prime(g(x))\cdot g^\prime(x)\)
  • 多元函数:设\(z = f(u,v)\),\(u = \varphi(x,y)\),\(v = \psi(x,y)\),如果\(\varphi(x,y)\)和\(\psi(x,y)\)在点\((x,y)\)处可微,\(f(u,v)\)在对应的点\((u,v)\)处可微,则复合函数\(z = f(\varphi(x,y),\psi(x,y))\)在点\((x,y)\)处可微 \(\begin{cases} \frac{\partial z}{\partial x}=\frac{\partial f}{\partial u}\frac{\partial u}{\partial x}+\frac{\partial f}{\partial v}\frac{\partial v}{\partial x}\\ \frac{\partial z}{\partial y}=\frac{\partial f}{\partial u}\frac{\partial u}{\partial y}+\frac{\partial f}{\partial v}\frac{\partial v}{\partial y} \end{cases}\)

初等函数求导公式

\[\begin{aligned} \frac{\text{d}}{\text{d}x} (c) &= 0 \\ \frac{\text{d}}{\text{d}x} (x^n) &= n x^{n-1} \\ \frac{\text{d}}{\text{d}x} (\text{e}^x) &= \text{e}^x \\ \frac{\text{d}}{\text{d}x} (\ln x) &= \frac{1}{x} \\ \frac{\text{d}}{\text{d}x} (\log_{a} x) &= \frac{1}{x \ln a}\\ \frac{\text{d}^n}{\text{d}x^n} (x^m) &= \frac{m!}{(m-n)!} x^{m-n}, \quad m \geqslant n \text{ 时} \\ \frac{\text{d}^n}{\text{d}x^n} (x^m) &= 0, \quad m < n \text{ 时} \\ \frac{\text{d}^n}{\text{d}x^n} (\text{e}^x) &= \text{e}^x \\ \frac{\text{d}^n}{\text{d}x^n} (\ln x) &= (-1)^{n-1} \frac{(n-1)!}{x^n} \\ \frac{\text{d}^n}{\text{d}x^n} \left( \frac{1}{x} \right) &= (-1)^n \frac{n!}{x^{n+1}} \\ \frac{\text{d}^n}{\text{d}x^n} \left( \frac{1}{x \pm 1} \right) &= (-1)^n \frac{n!}{(x \pm 1)^{n+1}} \\ \frac{\text{d}^n}{\text{d}x^n} \left( \frac{1}{1 - x} \right) &= n! \frac{1}{(1 - x)^{n+1}} \\ \frac{\text{d}^n}{\text{d}x^n} (a^x) &= (\ln a)^n a^x \\ \frac{\text{d}^n}{\text{d}x^n} (\sin x) &= \sin\left(x + \frac{n\pi}{2}\right) \\ \frac{\text{d}^n}{\text{d}x^n} (\cos x) &= \cos\left(x + \frac{n\pi}{2}\right) \end{aligned}\]

各类积分含义

不定积分的概念起源于找原函数,属于微分学的内容。对一元函数,在\(I\)上,若\(F'(x) = f(x)\),则\(F(x)\)称为\(f(x)\)的原函数;若\(f(x)\)在\(I\)上连续,则\(f(x)\)在\(I\)上有原函数。对二元函数,设函数\(z = f(x,y)\)在区域\(D\)内具有一阶连续偏导数,如果存在一个函数\(u(x,y)\),使得\(\text{d}u(x,y)=f(x,y)\text{d}x + g(x,y)\text{d}y\),其中\(\text{d}u=\frac{\partial u}{\partial x}\text{d}x+\frac{\partial u}{\partial y}\text{d}y\),那么称\(u(x,y)\)是\(f(x,y)\)的一个原函数。

定积分源于求曲边梯形的面积;重积分源于求曲顶柱体的体积和非匀质物体的质量;第一类曲线积分源于求曲线形构件的质量,第二类曲线积分源于求变力做功;第一类曲面积分源于求曲面形构件的质量,第二类曲面积分源于求曲面一侧的流量。积分广泛用于求解弧长、面积、体积、变力功、液体侧压力、引力、质量、质心、转动惯量等实际问题。

\[\begin{aligned} &\int f(x)\text{d}x \quad &一元函数不定积分\\ &\int_{a}^{b}f(x)\text{d}x \quad &一元函数定积分\\ &\iint_{D}f(x,y)\text{d}\sigma \quad &二重积分\\ &\iiint_{\Omega}f(x,y,z)\text{d}V \quad &三重积分\\ &\int_{L}f(x,y)\text{d}s \quad &第一类曲线积分\\ &\int_{L}P(x, y)\text{d}x + Q(x, y)\text{d}y \quad &第二类曲线积分\\ &\iint_{\Sigma}f(x,y,z)\text{d}S \quad &第一类曲面积分\\ &\iint_{\Sigma}P(x,y,z)\text{d}y\text{d}z + Q(x,y,z)\text{d}z\text{d}x + R(x,y,z)\text{d}x\text{d}y \quad &第二类曲面积分\\ \end{aligned}\]

各类积分联系

第一类曲线积分\(\int_{L}f(x,y)\text{d}s\)与第二类曲线积分\(\int_{L}P(x,y)\text{d}x + Q(x,y)\text{d}y\)之间的关系如下,其中\(\alpha\)和\(\beta\)分别为积分路径\(L\)上点的单位切向量与坐标轴正向的夹角

\[\int_{L}P(x,y)\text{d}x + Q(x,y)\text{d}y=\int_{L}(P(x,y)\cos\alpha + Q(x,y)\cos\beta)\text{d}s\]

第一类曲面积分\(\iint_{\sum}(P\cos\alpha + Q\cos\beta + R\cos\gamma)\text{d}S\)与第二类曲面积分\(\iint_{\sum}\vec{F}\cdot \text{d}\vec{S}\)之间的关系如下,其中\(\Sigma\)为有向曲面,其在点\((x,y,z)\)处的单位法向量为\(\vec{n}=(\cos\alpha,\cos\beta,\cos\gamma)\),向量场\(\vec{F}(x,y,z)=(P(x,y,z),Q(x,y,z),R(x,y,z))\)

\[\begin{aligned} \iint_{\Sigma}(P\cos\alpha + Q\cos\beta + R\cos\gamma)\text{d}S=\iint_{\Sigma}P\text{d}y \text{d}z + Q\text{d}z\text{d}x + R\text{d}x\text{d}y\\ \text{d}\vec{S}=\vec{n}\text{d}S = (\cos\alpha \text{d}S,\cos\beta \text{d}S,\cos\gamma \text{d}S)=(\text{d}y\text{d}z,\text{d}z\text{d}x,\text{d}x\text{d}y) \end{aligned}\]

格林公式将封闭曲线的线积分和区域上的二重积分建立联系:设闭区域\(D\)由分段光滑的曲线\(L\)围成,函数\(P(x,y)\)及\(Q(x,y)\)在\(D\)上具有一阶连续偏导数,有如下关系,其中\(L\)是\(D\)的取正向的边界曲线

\[\iint_{D}(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y})\text{d}x\text{d}y=\oint_\text{L}P\text{d}x + Q\text{d}y\]

高斯公式将闭曲面上的第二类曲面积分和闭曲面所围成空间区域内的三重积分建立联系:设空间闭区域\(\varOmega\)由分片光滑的闭曲面\(\Sigma\)所围成,函数\(P(x,y,z)\)、\(Q(x,y,z)\)、\(R(x,y,z)\)在\(\varOmega\)上具有一阶连续偏导数,有如下关系(散度的三重积分=通量),其中\(\Sigma\)是\(\varOmega\)的整个边界曲面的外侧。

\[\iiint_{\varOmega}(\frac{\partial P}{\partial x}+\frac{\partial Q}{\partial y}+\frac{\partial R}{\partial z})\text{d}V=\iint_{\Sigma}P\text{d}y\text{d}z +Q\text{d}z\text{d}x + R\text{d}x\text{d}y = \iint_{\Sigma}\vec{A}\cdot \text{d}\vec{S}\]

斯托克斯公式是格林公式在空间曲线上的推广,将空间曲线积分和曲面积分建立联系:设\(\varGamma\)为分段光滑的空间有向闭曲线,\(\Sigma\)是以\(\varGamma\)为边界的分片光滑的有向曲面,\(\varGamma\)的正向与\(\Sigma\)的侧符合右手规则,函数\(P(x,y,z)\)、\(Q(x,y,z)\)、\(R(x,y,z)\)在包含曲面\(\Sigma\)在内的一个空间区域内具有一阶连续偏导数,有如下关系(旋度的第二类曲面积分,即旋度场的通量=环量)

\[\iint_{\Sigma}(\frac{\partial R}{\partial y}-\frac{\partial Q}{\partial z})\text{d}y\text{d}z + (\frac{\partial P}{\partial z}-\frac{\partial R}{\partial x})\text{d}z\text{d}x + (\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y})\text{d}x\text{d}y=\oint_{\varGamma}P\text{d}x + Q\text{d}y + R\text{d}z\]

微分方程

微分方程,即含有未知数及其导数的方程;求解微分方程,就是从这个隐性关系中提取明确的变量关系,从几何意义上说,就是根据切线画曲线。

微分方程按不同分类标准有多种分类方式。常微分方程(ODE)是仅含有一个独立变量的微分方程;偏微分方程(PDE)是含有两个及以上独立变量的微分方程。偏微分方程通常被作为一个独立的数学分支进行研究。根据附加条件的不同,微分方程解决的问题可分为初值问题(IVP)和边界值(BVP)问题两类。初值问题的未知函数及其导数的独立变量取值相同;边界值问题的未知函数及其导数的独立变量取值不同。线性方程中未知函数及其导数的各项都是一次的,且不包含未知函数的乘积或非线性函数。非线性方程中未知函数或其导数有乘积、幂次、非线性函数等情况。简化后的方程中所有非零项的指数相等称为齐次方程。

\(n\)阶线性微分方程通式如下,若\(g(x) = 0\)则称为齐次线性微分方程,否则称为非齐次线性微分方程;若所有系数\(k_\text{j}(x), j = 0, 1, 2, \cdots, n\)均为常数,则称为常系数线性微分方程,否则称为变系数线性微分方程

\[k_{n}(x)y^{(n)} + k_{n - 1}(x)y^{(n - 1)} + \cdots + k_{1}(x)y' + k_{0}(x)y = g(x)\]

微分方程解的特性:通解是所有满足方程的函数的集合;特解是满足某些初始条件或边界条件的解。

对于线性微分方程解,\(n\)阶齐次线性微分方程一定有\(n\)个线性无关的解;它们构成该\(n\)阶齐次线性微分方程的基本解组;该方程的通解可以用这\(n\)个线性无关的解加权线性叠加表示。线性微分方程的通解一定是所有解;非线性微分方程则不一定。

非齐次线性微分方程\(k_{n}(x)y^{(n)} + k_{n - 1}(x)y^{(n - 1)} + \cdots + k_{1}(x)y' + k_{0}(x)y = g(x)\)对应的齐次线性微分方程为\(k_{n}(x)y^{(n)} + k_{n - 1}(x)y^{(n - 1)} + \cdots + k_{1}(x)y' + k_{0}(x)y = 0\)。令\(y_{p}\)为非齐次方程\(L(y) = g(x)\)的特解,\(y_{h}\)为对应齐次方程的通解,则非齐次方程的通解为\(y = y_{p} + y_{h}\),即:非齐次方程通解 = 对应齐次方程通解 + 非齐次方程特解

初值问题通常具有唯一解,解可能只在\(t_{0}\)附近的一个区间有效,且解对初始条件敏感;边界值问题可能无解或有多个解,解通常在整个区间\([t_{1}, t_{2}]\)上定义,解的类型可能受边界值约束。

微分方程的标准形式为

\[y' = f(x, y) \\ \frac{\text{d}y}{\text{d}x} = \frac{M(x, y)}{-N(x, y)}\\ M(x, y) \, \text{d}x + N(x, y) \, \text{d}y = 0\]

特定形式微分方程的解法

恰当方程

函数\(g(x, y)\)满足下式则称为恰当方程,恰当方程的解为\(g(x, y) = C\)

\[\text{d}g(x, y) = M(x, y) \, \text{d}x + N(x, y) \, \text{d}y\\ \frac{\partial M(x, y)}{\partial y} = \frac{\partial N(x, y)}{\partial x} \quad (两式等价)\]

解法: 利用\(\frac{\partial g(x, y)}{\partial x} = M(x, y)\)对\(x\)积分,常数项为\(h(y)\), 再利用\(\frac{\partial g(x, y)}{\partial y} = N(x, y)\)解出

例如:\(2xy \, \text{d}x + (1 + x^2) \, \text{d}y = 0\\\)

\[\begin{aligned} \frac{\partial M(x, y)}{\partial y} &= \frac{\partial N(x, y)}{\partial x} = 2x\\ \frac{\partial g(x, y)}{\partial x} &= M(x, y) = 2xy\\ g(x, y) &= x^2y + h(y)\\ \frac{\partial g(x, y)}{\partial y} &= x^2 + h'(y) = N(x, y) = 1 + x^2\\ h'(y) &= 1\\ h(y) &= y + C_{1}\\ g(x, y) &= x^2y + y + C_{1} = C\\ x^2y + y &= C_{2}\\ \end{aligned}\]

若原方程不是恰当方程,在某些特殊情形下可以转化为恰当方程:令\(I(x, y)\)为积分因子,则\(I(x, y) [M(x, y) \, \text{d}x + N(x, y) \, \text{d}y] = 0\) 可以转化为恰当方程

  1. 满足\(\frac{1}{N} \left( \frac{\partial M}{\partial y} - \frac{\partial N}{\partial x} \right) \equiv g(x)\),即结果仅为\(x\)的函数,则\(I(x, y) = \text{e}^{\int g(x)\text{d}x}\)
  2. 满足\(\frac{1}{M} \left( \frac{\partial M}{\partial y} - \frac{\partial N}{\partial x} \right) \equiv h(y)\),即结果仅为\(y\)的函数,则\(I(x, y) = \text{e}^{-\int h(y)\text{d}y}\)
  3. 满足\(M = yf(xy), N = xg(x, y)\),则\(I(x, y) = \frac{1}{xM - yN}\)

一阶线性微分方程

这种微分方程有固定的解的形式,此处省略推导直接给出结论

\[\begin{aligned} y' + p(x)y &= q(x)\\ 则:y &= \frac{\int q(x) \text{e}^{\int p(x) \, \text{d}x} \, \text{d}x + C}{\text{e}^{\int p(x) \, \text{d}x}}\\ 也可用恰当方程的方式解得:y &= \frac{\int I(x) q(x) \, \text{d}x + C}{I(x)} \end{aligned}\]

例如:\(y' + \frac{4}{x}y = x^4\)

\[\begin{aligned}I(x) &= \text{e}^{\int \frac{4}{x} \, \text{d}x} = x^4 \\ y &= \frac{\int x^8 \, \text{d}x + C}{x^4} = \frac{1}{9}x^5 + \frac{C}{x^4} \end{aligned}\]

全微分方程

一阶微分方程\(P(x,y)\text{d}x + Q(x,y)\text{d}y = 0\)的左端恰好是某个二元函数\(u(x,y)\)的全微分,即\(\text{d}u(x,y)=P(x,y)\text{d}x + Q(x,y)\text{d}y\),那么称该方程为全微分方程。判定时,如果\(P(x,y)\)和\(Q(x,y)\)在某区域\(D\)内具有一阶连续偏导数,且\(\frac{\partial P}{\partial y}=\frac{\partial Q}{\partial x}\)

当方程\(P(x,y)\text{d}x + Q(x,y)\text{d}y = 0\)是全微分方程时,其通解为\(u(x,y)=C\),其中\(u(x,y)\)是满足\(\text{d}u = P\text{d}x + Q\text{d}y\)的函数,可通过积分来求得\(u(x,y)\)

\[u(x,y)=\int_{x_{0}}^{x}P(x,y_{0})\text{d}x+\int_{y_{0}}^{y}Q(x,y)\text{d}y\]

差分方程

差分方程有递归方程和非递归方程之分,关系到 FIR 和 IIR 滤波器的设计,有必要在此处提出。

  • 递归方程(IIR)——无限脉冲响应系统:N 阶线性常系数差分方程如下

    \[\sum_{k = 0}^{N}a_k y[n - k] = \sum_{k = 0}^{M}b_k x[n - k]\\ y[n] = \frac{1}{a_0}\left( \sum_{k = 0}^{M}b_kx[n - k] - \sum_{k = 1}^{N}a_ky[n - k] \right)\]

    这叫递归方程,需要附加条件

  • 非递归方程(FIR)——有限脉冲响应系统:当 N = 0 时

    \[y[n] = \sum_{k = 0}^{M} \frac{b_k}{a_0} x[n - k]\]

    这叫非递归方程,不需要附加条件。

    这个系统的单位脉冲响应如下,响应一定是稳定的,因为冲激响应有限长。

    \[h[n] = \begin{cases} \frac{b_n}{a_n}, 0 \le n \le M\\ 0, 其它 \end{cases}\]

卷积

卷积是一种用来组合数组和函数的方法,从直观上来说就是翻转、滑动、叠加,本质上是一种加权求和。卷积的信号可以认为是卷积核,根据核的不同数据特点,会对被卷积的信号作不同处理。在图像处理、多项式乘法、随机变量求和等方面都是核心的方法。连续域叫卷积积分,离散域叫卷积和。一维卷积的定义式如下

\[f*g(t) = \int_{-\infty}^{\infty} f(\tau) g(t - \tau) \text{d}\tau\]

结合卷积运算,可以用单位冲激响应表示系统响应,从而反应系统特性。在线性时不变系统中,可以由单位冲激信号构成一切信号。

\[\begin{aligned} &y(t) = x(t)*h(t) = \int_{-\infty}^{+\infty}x(\tau)h(t - \tau)\text{d}\tau \\ &y[n] = x[n]*h[n] = \sum_{k = - \infty}^{+\infty}x[k] h[n - k] \end{aligned}\]

三大信号变换

通过特定形式的积分变换,可以极大简化微分、积分和卷积这类消耗计算资源比较大的运算,便于算法在硬件平台的部署;再加上快速傅里叶变换(FFT)算法的出现,使得这种“变换——处理——逆变换”的模式十分普遍。这里介绍三种主要的积分变换:傅里叶变换(频域) / 傅里叶级数、拉普拉斯变换(复频域 / s 域)和 z 变换(z 域)。(积分变换即通过积分将一个函数从其原始函数空间映射到另一个函数空间,使得原始函数的某些属性在变换后的函数空间中更容易表征和操作)

image-20250323221145886

三大变换的定义式如下,在定义式之外,三大变换最常用的其实是由定义可以推导出的性质以及一些常用的变换对,此处仅给出定义式,性质和常用变换对不再一一列举。

\[\begin{aligned} &连续傅里叶变换:\quad x(t) = \frac{1}{2\pi} \int_{-\infty}^{+\infty} X(\text{j}\omega)\text{e}^{\text{j}\omega t} \text{d}\omega \quad &X(\text{j}\omega) = \int_{-\infty}^{+\infty} x(t)\text{e}^{-\text{j}\omega t} \text{d}t\\ &离散傅里叶变换:\quad x[n] = \frac{1}{2\pi} \int_{0}^{2\pi} X(\text{e}^{\text{j}\omega}) \text{e}^{\text{j}\omega n} \text{d}\omega \quad &X(\text{e}^{\text{j}\omega}) = \sum_{n=-\infty}^{+\infty} x[n] \text{e}^{-\text{j}\omega n}\\ &拉普拉斯变换:\quad x(t) = \frac{1}{2\pi \text{j}} \int_{\sigma - \text{j}\infty}^{\sigma + \text{j}\infty} X(s)\text{e}^{st} \text{d}s \quad &X(s) = \int_{-\infty}^{+\infty} x(t)\text{e}^{-st} \text{d}t\\ &z 变换:\quad x[n] = \frac{1}{2\pi \text{j}} \oint X(z) z^{n-1} \text{d}z &\quad X(z) = \sum_{n=-\infty}^{+\infty} x[n] z^{-n}\\ \end{aligned}\]

由于复指数信号/三角函数的完备正交性,任何周期信号都可以用一系列成谐波关系的正弦信号来表示。换句话说,复指数信号和正弦信号是信号的一种基本组成单元,傅里叶变换就是建立在这一基本特性上的。拉普拉斯变换,可以理解为在傅里叶变换的基础上加入衰减因子,从而可以研究原本不收敛的信号。由于计算机只能够存储和处理离散的信号,于是离散时间傅里叶变换(DTFT)和\(z\)变换应运而生。针对离散时间傅里叶变换进行优化,又出现了快速傅里叶变换(FFT)。拉普拉斯变换和 z 变换是几乎对等的关系,前者针对连续域,后者针对离散域。另外,傅里叶变换在某种程度上,可以看作是拉普拉斯变换和 z 变换的特殊情况。

image-20250323221220483

nabla 算子

nabla 算子记为\(\nabla\),有三种运算,分别对应了场论中的梯度、散度和旋度

梯度:设\(f\)为数量场,\(\nabla f\)将数量场变为向量场(向量的数量乘法 ),其结果就是\(f\)的梯度。梯度方向指向函数值增加最快的方向,大小刻画了具体有多快,梯度与等值面垂直。

image-20250526220853915

散度:设\(\boldsymbol{f}\)为向量场,\(\nabla\)与向量场做内积\(\nabla\cdot\boldsymbol{f}\),可将向量场变成数量场,运算结果称为散度,散度是这种内积的均值(内积描述两个向量的共线程度)。散度的大小描述了发散的程度;散度是通量的局部描述(通量的体密度),通量为正表示净流出(源),通量为负则表示净流入(汇)。

image-20250526220841161

旋度:设\(\boldsymbol{f}\)为向量场,\(\nabla\)与向量场做外积,可将向量场变成向量场,运算得到的向量场称为旋度,旋度是这种外积的均值(外积描述两个向量的垂直程度)。旋度的大小描述了旋转的程度,是环量的局部描述(环量的面密度)。旋转的方向满足右手螺旋定则。给定不同的轴,可在不同的平面求漩涡强度,旋度描述了最大的可能值和方向 。由于叉乘的特殊性,旋度一般定义在三维空间,若要推广到高维空间,则需要引入外微分等新的概念。

image-20250526220916816

此外,\(\nabla\)可以和自己作内积,对应计算的是梯度的散度;\(\nabla\)可以和自己做外积(结果记为\(\Delta\),拉普拉斯算子),得到的是多元函数的二阶导(Hessian 矩阵)

image-20250526220943708

拉普拉斯算子和方程

拉普拉斯算子(Laplacian)是所有二阶导数相加的运算,是梯度的散度。令函数的 Laplacian 为零,即为拉普拉斯方程。Laplacian 等于 0 的函数可看作一种平衡状态,因此也被称为谐波函数(Harmonic)。

正交曲线坐标系可以理解为几个坐标方向对应的切向量两两正交的坐标系,笛卡尔坐标系、圆柱坐标系、球坐标系都是正交曲线坐标系。在正交曲线坐标系中,,每个坐标方向有自己的尺度因子,称为拉梅系数\(h_{i}=\left\vert\frac{\partial \mathbf{r}}{\partial q_{i}}\right\vert\)。正交曲线坐标系下,标量函数的拉普拉斯算子定义如下

\[\begin{align*} &\text{正交曲线坐标系通用形式:} \\ &\nabla^2 f = \frac{1}{h_1 h_2 h_3} \left[ \frac{\partial}{\partial u_1} \left( \frac{h_2 h_3}{h_1} \frac{\partial f}{\partial u_1} \right) + \frac{\partial}{\partial u_2} \left( \frac{h_1 h_3}{h_2} \frac{\partial f}{\partial u_2} \right) + \frac{\partial}{\partial u_3} \left( \frac{h_1 h_2}{h_3} \frac{\partial f}{\partial u_3} \right) \right] \\ \end{align*}\]

常见正交曲线坐标系标量函数的拉普拉斯算子分别如下

\[\begin{aligned} &\nabla^2 f = \frac{\partial^2 f}{\partial x^2} + \frac{\partial^2 f}{\partial y^2} + \frac{\partial^2 f}{\partial z^2} &\quad\text{三维直角坐标系}\\ &\nabla^2 f = \frac{1}{\rho} \frac{\partial}{\partial \rho} \left( \rho \frac{\partial f}{\partial \rho} \right) + \frac{1}{\rho^2} \frac{\partial^2 f}{\partial \varphi^2} + \frac{\partial^2 f}{\partial z^2} &\quad\text{圆柱坐标系}\\ &\nabla^2 f = \frac{1}{r^2} \frac{\partial}{\partial r} \left( r^2 \frac{\partial f}{\partial r} \right) + \frac{1}{r^2 \sin\theta} \frac{\partial}{\partial \theta} \left( \sin\theta \frac{\partial f}{\partial \theta} \right) + \frac{1}{r^2 \sin^2\theta} \frac{\partial^2 f}{\partial \varphi^2} &\quad\text{球坐标系} \end{aligned}\]

函数内积

函数内积即定义域重叠部分的的积分,定义式如下,其中\(w(x)\)为权重函数,用于表示不同坐标系下积分微元的尺度因子

\[\langle f, g \rangle_{w} = \int_{a}^{b} f(x) \cdot \overline{g(x)} \cdot w(x) \, \text{d}x\]

相空间

在物理学中,描述位置和动量关系的空间称为相空间。微分方程可以用相空间表示,微分方程是一种运动规律的隐式描述,通过在相空间中以向量场的形式可视化出来,就能知道相空间中状态点的变化趋势,也就得到了微分方式所描述的运动规律。有的时候并不能严格求解质点的位置和动量随时间变化的函数,但只要知道了位置的导数与动量、以及动量的导数与位置之间的关系,就可以知道质点在相空间中的变化规律,即相轨迹。(哈密顿力学指出,位置和动量随时间的变化一定等于哈密顿函数的某些导数,因此找到系统的哈密顿量就可以知道系统的运动规律)。

以二阶微分方程为例,以\(x\)作为横轴,\(\dot{x}\)作为纵轴,在相平面中画出向量场(比如以颜色代表场的流速),就可以得知运动规律。

解析几何基础

对集合中的元素定义加和数乘以及交换律结合律分配律,零向量负向量单位元,就得到向量空间;在向量空间中定义内积就得到欧几里得空间,此处的讨论均基于三维欧氏空间。基本的概念和度量包括

  • 坐标:一组基下的表示系数,同样的点在不同基下的坐标可能不同,可以通过基变换相互转化

  • 投影:一种降维的映射,矩阵在其列空间上的投影矩阵为\(P = A(A^{\text{T}}A)^{-1}A^{\text{T}}\)

  • 距离:点到点、点到线、点到面、平行线之间、不共面的线之间、平行面之间,都有相应的计算公式

  • 夹角:共面直线之间、线与面之间、面与面之间,都有相应的计算公式

  • 数量积/内积/点积:衡量向量间的相似程度

    \[\vec{a}\cdot\vec{b}=a_{x}b_{x} + a_{y}b_{y} + a_{z}b_{z}\]
  • 向量积/外积/叉积:衡量向量间的垂直程度

    \[\begin{aligned} \vec{c} &= \vec{a}\times\vec{b}= \begin{vmatrix} \vec{i} & \vec{j} & \vec{k} \\ a_{x} & a_{y} & a_{z} \\ b_{x} & b_{y} & b_{z} \end{vmatrix} = \vec{i}(a_{y}b_{z} - a_{z}b_{y}) - \vec{j}(a_{x}b_{z} - a_{z}b_{x}) + \vec{k}(a_{x}b_{y} - a_{y}b_{x})\\ |c| &= |a||b|\sin \theta\quad方向符合右手螺旋定则 \end{aligned}\]
  • 混合积:表示三个向量张成的平行六面体体积 \([\vec{a},\vec{b},\vec{c}]= (\vec{a}\times\vec{b})\cdot\vec{c}= \begin{vmatrix} a_{x} & a_{y} & a_{z} \\ b_{x} & b_{y} & b_{z} \\ c_{x} & c_{y} & c_{z} \end{vmatrix} = a_{x}\begin{vmatrix} b_{y} & b_{z} \\ c_{y} & c_{z} \end{vmatrix} - a_{y}\begin{vmatrix} b_{x} & b_{z} \\ c_{x} & c_{z} \end{vmatrix} + a_{z}\begin{vmatrix} b_{x} & b_{y} \\ c_{x} & c_{y} \end{vmatrix}\)

通过同一个点的直线构成直线系、通过同一条直线的平面构成平面束。

平面方程有以下几种表达方式:

\[\begin{aligned} &A(x - x_{0})+B(y - y_{0})+C(z - z_{0})=0\quad &点法式\\ &\begin{vmatrix} x - x_{1} & y - y_{1} & z - z_{1} \\ x_{2} - x_{1} & y_{2} - y_{1} & z_{2} - z_{1} \\ x_{3} - x_{1} & y_{3} - y_{1} & z_{3} - z_{1} \end{vmatrix}=0 \quad &三点式\\ &Ax + By + Cz + D = 0\quad &一般式\\ &\frac{x}{a}+\frac{y}{b}+\frac{z}{c}=1 \quad &截距式 \end{aligned}\]

直线方程有以下几种表达方式

\[\begin{aligned} &\frac{x - x_{0}}{m}=\frac{y - y_{0}}{n}=\frac{z - z_{0}}{p}\quad &对称式\\ &\frac{x - x_{1}}{x_{2} - x_{1}}=\frac{y - y_{1}}{y_{2} - y_{1}}=\frac{z - z_{1}}{z_{2} - z_{1}}\quad &两点式\\ &\begin{cases}A_{1}x + B_{1}y + C_{1}z+D_{1} = 0\\A_{2}x + B_{2}y + C_{2}z+D_{2} = 0\end{cases}\quad &一般式\\ &\begin{cases}x = x_{0}+mt\\y = y_{0}+nt\\z = z_{0}+pt\end{cases}\quad &参数式 \end{aligned}\]

常见的二次曲面方程如下

\[\begin{aligned} &\frac{x^2}{a^2}+\frac{y^2}{b^2}+\frac{z^2}{c^2}=1\quad &椭球面\\ &z=\frac{x^2}{a^2}+\frac{y^2}{b^2}\quad &椭圆抛物面\\ &z=\frac{x^2}{a^2}-\frac{y^2}{b^2}\quad &双曲抛物面\\ &\frac{x^2}{a^2}+\frac{y^2}{b^2}-\frac{z^2}{c^2}=1\quad &单叶双曲面\\ &\frac{x^2}{a^2}-\frac{y^2}{b^2}-\frac{z^2}{c^2}=1\quad &双叶双曲面\\ &\frac{x^2}{a^2}+\frac{y^2}{b^2}-\frac{z^2}{c^2}=0\quad &椭圆锥面\\ &(x - x_{0})^2+(y - y_{0})^2+(z - z_{0})^2 = R^2\quad &球面\\ &F(x,y)=0(母线平行于z轴)\quad &柱面\\ &(\sqrt{x^2 + y^2}-a)^2+z^2 = b^2\quad &环面 \end{aligned}\]

空间曲线切线和法平面、空间曲面切平面和法线方程如下:

\[\begin{aligned} &\frac{x - x_{0}}{x^{\prime}(t_{0})}=\frac{y - y_{0}}{y^{\prime}(t_{0})}=\frac{z - z_{0}}{z^{\prime}(t_{0})} \quad &\text{空间曲线切线方程}\\ &x^{\prime}(t_{0})(x - x_{0})+y^{\prime}(t_{0})(y - y_{0})+z^{\prime}(t_{0})(z - z_{0})=0 \quad &\text{空间曲线法平面方程}\\ &f_{x}'(x - x_{0})+f_{y}'(y - y_{0})+(-1)(z - z_{0})=0 \quad &\text{空间曲面切平面方程}\\ &\frac{x - x_{0}}{f_{x}'}=\frac{y - y_{0}}{f_{y}'}=\frac{z - z_{0}}{-1} \quad &\text{空间曲面法线方程} \end{aligned}\]

投影矩阵

将向量\(\mathbf{p}\)在向量\(\mathbf{q}\)上的投影记为\(\text{proj}_{\mathbf{q}}\),\(\mathbf{p}\)垂直于\(\mathbf{q}\)的分量记为\(\text{perp}_{\mathbf{q}}\)

\[\begin{aligned} \text{proj}_{\mathbf{q}} \mathbf{p} &= \frac{\mathbf{p} \cdot \mathbf{q}}{\|\mathbf{q}\|^2} \mathbf{q} \\ \text{perp}_{\mathbf{q}} \mathbf{p} &= \mathbf{p} - \text{proj}_{\mathbf{q}} \mathbf{p} \\ &= \mathbf{p} - \frac{\mathbf{p} \cdot \mathbf{q}}{\|\mathbf{q}\|^2} \mathbf{q} \\ \end{aligned}\]

将点积和模长展开,整理成矩阵形式,即可提取出向量\(\mathbf{q}\)的投影矩阵\(\mathbf{Q}\)

\[\begin{aligned} \text{proj}_{\mathbf{q}} \mathbf{p} &= \frac{1}{\|\mathbf{q}\|^2} \begin{bmatrix} q_x^2 & q_x q_y & q_x q_z \\ q_x q_y & q_y^2 & q_y q_z \\ q_x q_z & q_y q_z & q_z^2 \end{bmatrix} \begin{bmatrix} p_x \\ p_y \\ p_z \end{bmatrix}\\ &= \mathbf{Q} \cdot \mathbf{p} \end{aligned}\]

叉积矩阵

向量\(\mathbf{p}\)与向量\(\mathbf{q}\)的叉积如下

\[\mathbf{p} \times \mathbf{q} =\begin{bmatrix} p_y q_z - p_z q_y\\ p_z q_x - p_x q_z\\ p_x q_y - p_y q_x \end{bmatrix}\]

用待定系数法整理成矩阵形式,即可提取出向量\(\mathbf{p}\)的叉积矩阵\([\mathbf{p}]_\times\)

\[\begin{aligned} \mathbf{p} \times \mathbf{q} &= \begin{bmatrix} 0 & -p_z & p_y \\ p_z & 0 & -p_x \\ -p_y & p_x & 0 \end{bmatrix} \begin{bmatrix} q_x \\ q_y \\ q_z \end{bmatrix}\\ &= [\mathbf{p}]_\times \cdot \mathbf{q} \end{aligned}\]

基变换和坐标变换

设旧基构成的矩阵为\(\mathbf{A}=[\alpha_1, \alpha_2,\cdots, \alpha_n]\),\(\alpha_i\)为这组基下的基向量,\(\mathbf{x}=(x_1, x_2, \cdots, x_n)^\top\)为旧基下的坐标;新基构成的矩阵为\(\mathbf{B}=[\beta_1, \beta_2,\cdots, \beta_n]\),\(\beta_i\)为这组基下的基向量,\(\mathbf{y}=(y_1, y_2, \cdots, y_n)^\top\)为新基下的坐标;某向量\(\xi\)在两坐标系下的表示分别为\(\xi = \mathbf{A}\mathbf{x} = \mathbf{B}\mathbf{y}\),用旧基来表示新基即为基变换

\[\begin{aligned} &\beta_{1} = p_{11} \alpha_{1} + p_{21} \alpha_{2} + \cdots + p_{n1} \alpha_{n} \\ &\beta_{2} = p_{12} \alpha_{1} + p_{22} \alpha_{2} + \cdots + p_{n2} \alpha_{n} \\ &\quad \vdots \\ &\beta_{n} = p_{1n} \alpha_{1} + p_{2n} \alpha_{2} + \cdots + p_{nn} \alpha_{n} \\ \end{aligned}\]

基变换写成矩阵形式如下,其中\(\mathbf{P}\)称为过渡矩阵

\[\mathbf{B} = \mathbf{A} \mathbf{P}, \quad \mathbf{P} = \begin{bmatrix} p_{11} & p_{12} & \cdots & p_{1n} \\ p_{21} & p_{22} & \cdots & p_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ p_{n1} & p_{n2} & \cdots & p_{nn} \end{bmatrix}\\\]

由\(\xi = \mathbf{A} \mathbf{x} = \mathbf{B} \mathbf{y} = \mathbf{A} \mathbf{P} \mathbf{y}\),可得坐标变换\(\mathbf{x} = \mathbf{P} \mathbf{y}, \quad \mathbf{y} = \mathbf{P}^{-1} \mathbf{x}\)

分布函数和概率密度函数

离散型随机变量的概率一般用分布律描述,离散的分布律即变量的取值范围和取每个值的概率。连续性随机变量的概率一般用累积分布函数(CDF,简称分布函数)描述,一维随机变量的分布函数如下,表示随机变量\(X\)落在\(x\)左侧的概率

\[F(x) = P(X \leqslant x)\]

概率密度函数(PDF)是分布函数的导数,定义如下。概率密度是概率的概率,即有\(f(x)\)这么大的概率使得事件发生的概率为\(x\)

\[F(x) = \int_{-\infty}^{x} f(t) \, \text{d}t \quad 其中f(x)为概率密度函数\]

由分布函数或概率密度函数可以计算概率

\[P(x_1 < X \leqslant x_2) = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x)\text{d}x\]

对于二维随机变量,不作说明默认两个变量是不独立的,它们的分布函数称为联合分布函数,对应的概率密度称为联合概率密度

\[F(x, y) = P(X \leqslant x, Y \leqslant y)\\ F(x, y) = \int_{-\infty}^{x} \int_{-\infty}^{y} f(u, v) \, \text{d}u \text{d}v\\\]

如果只考虑其中一个变量的分布,则通过积分消除一个另一个变量的影响,此时称为边缘分布函数和边缘概率密度

\[\begin{aligned} F_X(x) &= P(X \leqslant x) = F(x, +\infty) \\ F_Y(y) &= P(Y \leqslant y) = F(+\infty, y) \\ f_X(x) &= \int_{-\infty}^{+\infty} f(x, y) \, \text{d}y \\ f_Y(y) &= \int_{-\infty}^{+\infty} f(x, y) \, \text{d}x \\ \end{aligned}\]

贝叶斯公式

贝叶斯公式中涉及条件概率和全概率公式,先进行说明

条件概率公式如下,其中\(P(A\vert B)\)为 B 条件下 A 发生的概率,\(P(B)\)为条件 B 发生的概率,\(P(AB)\)为 A、B 同时发生的概率。条件概率的本质是样本空间的缩小,因为只在条件发生的情况下考虑了。

\[P(A|B) = \frac{P(AB)}{P(B)} \quad (P(B) > 0)\]

全概率公式如下,其中\(B_1, B_2, \dots, B_n\)是样本空间的一个互斥且完备的划分,\(P(B_i)\)是条件\(B_i\)发生的概率,\(P(A\vert B_i)\)是条件\(B_i\)下 A 发生的概率。全概率公式代表由原因推结果的过程。

\[P(A) = \sum_{i=1}^{n} P(A|B_i)P(B_i)\\\]

贝叶斯公式如下,其中分母为全概率,分子为条件概率,\(P(H)\)为先验概率,\(P(E\vert H)\)为似然概率,\(P(H\vert E)\)为后验概率。贝叶斯公式给出了先验概率和后验概率的关系。事件\(E\)(Evidence)为结果,事件\(H\)(Hypothesis)为原因,贝叶斯公式代表由结果推原因的过程。

\[P(H|E) = \frac{P(E|H)P(H)}{P(E)} = \frac{P(E|H)P(H)}{\sum_{j=1}^{n} P(E|H_j)P(H_j)} \\\]

泊松分布和高斯分布

泊松分布描述了某一时间段内发生某件事多少次的概率,是二项分布的极限。

\[P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \quad (k = 0, 1, 2, \dots),\lambda为单位时间内事件的平均发生次数\\\]

高斯分布描述了大量独立变量随机扰动后的总体结果的概率分布,自然界和社会中许多现象都近似服从高斯分布。另外,中心极限定理指出,无论每个变量本身服从什么分布,只要它们是独立的且样本数量足够多,它们的平均值或总和总是近似服从高斯分布。高斯分布有许多很好的数学性质:一是连续可微,二是高维高斯分布的边缘分布仍然是高斯分布,三是具有可加性,即有限个相互独立的服从高斯分布的随机变量的线性组合仍然服从高斯分布。

\[\begin{aligned} 一维高斯分布概率密度函数:&f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \quad \mu为均值,\sigma为标准差\\ 二维高斯分布概率密度函数:&f(x, y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1 - \rho^2}} \exp\left\{ -\frac{1}{2(1 - \rho^2)} \left[ \frac{(x - \mu_1)^2}{\sigma_1^2} - 2\rho\frac{(x - \mu_1)(y - \mu_2)}{\sigma_1\sigma_2} + \frac{(y - \mu_2)^2}{\sigma_2^2} \right] \right\}\\ &\mu_1、\mu_2为均值,\sigma_1、\sigma_2为标准差,\rho为相关系数\\ \end{aligned}\]

用矩阵表示高维高斯如下

\[\begin{aligned} G(x) &= \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)\\ G(\mathbf{x}) &= \frac{1}{2\pi \sqrt{|\mathbf{\Sigma}|}} \exp\left( -\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) \right),\\ &\text{其中 } \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix},\quad \mathbf{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix},\quad \mathbf{\Sigma} = \begin{bmatrix} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{bmatrix}\\ G(\mathbf{x}) &= \frac{1}{(2\pi)^{3/2} \sqrt{|\mathbf{\Sigma}|}} \exp\left( -\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^\top \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) \right),\\ &\text{其中 } \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix},\quad \mathbf{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \mu_3 \end{bmatrix},\quad \mathbf{\Sigma} = \begin{bmatrix} \sigma_{11} & \sigma_{12} & \sigma_{13} \\ \sigma_{21} & \sigma_{22} & \sigma_{23} \\ \sigma_{31} & \sigma_{32} & \sigma_{33} \end{bmatrix}\\ \mathbf{\mu}为均值&,决定分布的形状\\ \mathbf{\Sigma}为协方&差矩阵,为半正定的对称矩阵,对角线元素为方差,其余元素为协方差,决定分布的形状 \end{aligned}\]

随机变量的数字特征

  • 期望:表征大量重复实验下的平均值

    \[\begin{aligned} E(X) &= \sum_{k=1}^{\infty} x_k P(X = x_k) \quad (离散型随机变量) \\ E(X) &= \int_{-\infty}^{+\infty} x f(x) \, \text{d}x \quad (连续型随机变量) \\ \end{aligned}\]
  • 方差:表征数据的离散程度或波动程度

    \[D(X) = E\left\{ [X - E(X)]^2 \right\}=E(X^2)-[E(X)]^2 \\\]
  • 协方差:表征两个随机变量之间的相关程度,大于零为正相关,小于零为负相关,等于零为不相关

    \[\text{Cov}(X, Y) = E\left\{ [X - E(X)][Y - E(Y)] \right\}= E(XY) - E(X)E(Y) \\\]
  • 相关系数:表征两个随机变量之间的线性相关程度,是为了消除量纲对协方差的影响而定义的数字特征 \(\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}} \quad |\rho_{XY}| \leqslant 1\\\)

这些数字特征满足以下性质

\[\begin{aligned} E(aX+bY+c) &= aE(X)+bE(Y)+c\\ X,Y独立时,E(XY) &= E(X)E(Y), \text{Cov}(X,Y)=0\\ D(aX+b) &= a^2D(X)\\ D(X\pm Y) &= D(X)+D(Y)\pm 2\text{Cov}(X,Y)\\ \text{Cov}(X,a) &= 0\\ \text{Cov}(X,Y) &= \text{Cov}(Y,X)\\ \text{Cov}(X,X) &= D(X)\\ \text{Cov}(aX,bY) &= ab\text{Cov}(X,Y)\\ \text{Cov}(X_1+X_2,Y) &= \text{Cov}(X_1,Y) + \text{Cov}(X_2,Y) \end{aligned}\]

Rodrigue 旋转公式

在三维空间中,给定旋转轴(需要归一化为单位向量)和旋转角度可由 Rodrigue(罗德里格) 旋转公式得到旋转后的结果以及旋转矩阵。公式推导如图,将被旋转的向量分解为平行于旋转轴和垂直于旋转轴两个方向,并使用投影矩阵、叉积矩阵可以计算得出。

实质上,罗德里格公式描述了将叉乘矩阵进行指数映射得到旋转矩阵这个过程,将指数幂泰勒展开并按照\([\mathbf{u}]_\times\)和\([\mathbf{u}]_\times^2\)整理再应用正余弦的泰勒展开就能得到这个公式。

罗德里格公式如下,其中\(\mathbf{u}\)为旋转轴方向的单位向量,\(\theta\)为要旋转的角度,\(\mathbf{p}\)被旋转的向量,\(\mathbf{p}'\)为旋转后的向量,\(\mathbf{R}\)为提取出的旋转矩阵

\[\begin{aligned} \mathbf{p}' &= \mathbf{p} \cos \theta + (\mathbf{u} \times \mathbf{p}) \sin \theta + \mathbf{u} (\mathbf{u} \cdot \mathbf{p})(1 - \cos \theta)\\ &= \mathbf{R} \mathbf{p}\\ \mathbf{R} &= \mathbf{I} + \sin\theta \, [\mathbf{u}]_\times + (1 - \cos\theta) \, [\mathbf{u}]_\times^2\\ [\mathbf{u}]_\times &= \begin{bmatrix} 0 & -u_z & u_y \\ u_z & 0 & -u_x \\ -u_y & u_x & 0 \end{bmatrix}\\ \end{aligned}\]

二维的旋转矩阵简化如下,其中\([1]_\times=\begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix}\),表示旋转 90° 的旋转矩阵,作用相当于虚数单位\(\text{i}\)。二维旋转矩阵加以扩展可以得到三维空间绕 xyz 坐标轴分别的旋转矩阵,可用于欧拉角表示的旋转计算。

\[\begin{aligned} \mathbf{R} &= \mathbf{I} \cos\theta + [1]_\times \sin\theta \\ &= \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \end{aligned}\]

四元数和旋转表示

正如复数可以描述二维空间中的旋转,四元数(quaternion)可以描述三维空间中的旋转,相较于旋转矩阵使用了更少的自由度,又避免了欧拉角的万向锁问题。四元数相较于旋转矩阵减少了计算量,一方面是自由度减少使得需要计算的乘加次数减少,另一方面是一旦完成四元数的构建,就不再需要计算三角函数。

四元数本身是四维空间的基,由一个实部和三个虚部构成,其中\(w、x、y、z \in \mathbb{R}\),\(i、j、k\)为虚数单位,虚数单位之间的乘法满足右手定则

\[q = w\cdot 1 + x\cdot i + y\cdot j + z\cdot k\\ i^2 = j^2 = k^2 = ijk = -1\\ i\cdot j = k, i\cdot k = -j\]

四元数乘法不满足交换律,这一点与矩阵相同,三维空间中的旋转同样是关心顺序的。单位四元数的逆\(q^{-1}\)为其共轭(虚部全部取反)。四元数的乘法运算法则及其其它更多规则见参考资料相关部分。

设三维旋转的轴为单位向量\(\mathbf{u} = [u_x, u_y, u_z]^\top\),旋转角度为\(\theta\),则该旋转对应的四元数如下,单位四元数与旋转轴角一一对应。一个点(或向量)的旋转通过\(v' = q\cdot v \cdot q^{-1}\)完成,也可以转化为旋转矩阵之后计算。

\[q = \cos(\frac{\theta}{2}) + \sin(\frac{\theta}{2})(u_xi + u_yj + u_zk)\]

旋转轴+旋转角度、欧拉角、旋转矩阵、四元数都可以表示三维空间中的旋转,它们之间的转换关系见:各种旋转方式间的转化

欧拉公式

\[\begin{aligned} e^{ix} &= \cos x + i\sin x \quad &(欧拉公式)\\ e^{i\pi} &= -1 \quad &(欧拉恒等式) \end{aligned}\]

欧拉公式是是数学中最优美、最深刻的等式之一,将自然对数底数、虚数单位、圆周率、乘法单位元和加法单位元联系在一个公式中。公式本身有太多太多可以挖掘的含义。

  • 复平面上,单位复数\(e^{ix}\)代表角度为\(x\)的旋转,提供了复数乘法的几何解释
  • 由欧拉公式,复指数信号和正弦信号可以相互表示 \(e^{j\omega t} = \cos(\omega t) + j\sin(\omega t)\\ e^{-j\omega t} = \cos(\omega t) - j\sin(\omega t) \\ \sin(\omega t) = \frac{e^{j\omega t} - e^{-j\omega t}}{2j}\\ \cos(\omega t) = \frac{e^{j\omega t} + e^{-j\omega t}}{2}\)
  • 相位分析、傅里叶变换、简谐振动的表达形式\(e^{j\omega t}\)
  • 以加法群和乘法群的角度看待数字,即将数字看作一种作用而不是被操作的对象。e 的指数函数是一种从复数加法群映射到复数乘法群并保持群的结构和运算的映射,虚轴映射为单位圆。(只有\(e^x\)一个函数满足导数等于本身)。指数函数的输入看作滑动作用,输出看作伸缩和旋转作用。

泰勒公式

泰勒公式的来源,是微分在某一点对函数进行的局部线性化;泰勒公式将其推广为,用多项式函数对函数进行全局逼近,用多项式构造出满足精度要求的目标函数。

带皮亚诺余项的泰勒公式:设\(f(x)\)在\(x_{0}\)的某邻域内具有直到\(n\)阶的导数,则对此邻域中的任何\(x\)有

\[\displaystyle f(x) = f(a) + f'(a)(x - a) + \frac{f''(a)}{2!}(x - a)^2 + \cdots \\+ \frac{f^{(n)}(a)}{n!}(x - a)^n + o((x - a)^n)\]

带拉格朗日余项的泰勒公式:设\(f(x)\)在\(x_{0}\)的某邻域内具有直到\(n + 1\)阶的导数,则对此邻域中的任何\(x\)有

\[\displaystyle f(x) = f(a) + f'(a)(x - a) + \frac{f''(a)}{2!}(x - a)^2 + \cdots \\+ \frac{f^{(n)}(a)}{n!}(x - a)^n + \frac{f^{(n+1)}(\xi)}{(n+1)!}(x - a)^{n+1}\]

多元函数的泰勒公式:设函数\(z = f(x,y)\)在点\((x_{0},y_{0})\)的某一邻域内具有直到\(n + 1\)阶的连续偏导数,则对于该邻域内的任意一点\((x,y)\),公式如下,其中,\(R_\text{n}=\frac{1}{(n + 1)!}[(x - x_{0})\frac{\partial}{\partial x}+(y - y_{0})\frac{\partial}{\partial y}]^{n + 1}f(\xi,\eta)\),\((\xi,\eta)\)是介于\((x_{0},y_{0})\)和\((x,y)\)之间的某一点,\(f_{x},f_{y},f_{xx},f_{xy},f_{yy}\)等分别表示\(f(x,y)\)对 x,y 的一阶、二阶偏导数。

\[\begin{aligned} f(x,y)=f(x_{0},y_{0})&+(x - x_{0})f_{x}(x_{0},y_{0})\\ &+(y - y_{0})f_{y}(x_{0},y_{0})+\frac{1}{2!}[(x - x_{0})^2f_{xx}(x_{0},y_{0})\\ &+2(x - x_{0})(y - y_{0})f_{xy}(x_{0},y_{0})+(y - y_{0})^2f_{yy}(x_{0},y_{0})]+\cdots\\ &+\frac{1}{n!}[(x - x_{0})\frac{\partial}{\partial x}+(y - y_{0})\frac{\partial}{\partial y}]^nf(x_{0},y_{0})+\text{R}_\text{n} \end{aligned}\]

群论基础

群论是描述对称性的数学工具,对称性是指经过一定的操作后看起来和原来一样的性质。群是一种规定了特殊乘法的集合(此处乘法只是代指一种特定的运算规则,并非一定是算数中的乘法),在这个乘法的框架下,集合中的元素满足以下四条性质,注意这种乘法并不满足交换律,也就是说,运算是关心顺序的,描述一个元素与另一个元素相乘的时候必须强调左乘还是右乘(一般的群不满足交换律,满足交换律的群称为阿贝尔群)。

  • 恒等元:存在运算后不改变另一元素的元素
  • 逆元素:每个元素都存在一个与它运算后等于恒等元的元素
  • 封闭性:运算的结果仍在集合之内
  • 结合律:改变运算顺序不改变运算结果

一个群必然能代表一种对称性,一种对称性必然能找到一个群来描述,例如满足三次旋转对称性的群称为\(C_3\)群;实数加法群对应数轴的平移对称性,非零实数乘法群对应数轴的缩放对称性。(时间和空间的原点和单位长度的选取都是任意的)。

群的操作集合称为群空间,集合中元素的个数称为群的阶次。大的对称性中可能包含小的对称性,这在群论中对应于子群的概念,类似于集合中子集的概念,只是要求仍然满足群的四条性质以及子群中所规定的这个特殊的乘法运算需要与父群相同。

如果一个群可以映射到另一个群上并保持对应元素的乘法结果不变,则该映射称为同态映射,简称同态。如果在同态映射的基础上还是双射(一一映射),则称该映射为同构映射,即两个群是同构的。两个同构的群在代数上完全相同。

李群和李代数

李群是一类特殊的群,它们代表的对称性是连续且光滑的。另一方面,李群也是一个光滑的流形,任意一个点在充分放大之后都能看作一个直角坐标系构成的空间。实际上,李群就是群和光滑流形的交集;拥有群结构的光滑流形就是李群,具有光滑流形性质的群就是李群。

如何解释对称性是光滑的:用类似坐标的数字来定位群中元素所在的位置,称为群的参数,参数就是一组实数(对于多个实数的情况,可以视作 n 维空间到群元素的一一映射),这种对应关系可以理解为一个一一映射,即一个参数唯一地对应群中的一个元素;那么群元素就可以用对应的参数来表示。另外,群中的单位元一般对应于 n 维空间中的原点。例如,假设群中元素为\(a、b、c\),对应的参数分别为\(\alpha、\beta、\gamma\),如果有\(c = a\cdot b\),那么对应的参数一定有某种联系\(c(\gamma) = a(\alpha)\cdot b(\beta)\)。一般地,群元素的参数映射可以写成一个多元函数,其中一个元素的参数发生变换,导致乘积元素对应的参数也发生一定的变化,变化的方式就是按照映射的方式。连续光滑的对称变换,代表着一个元素的改变导致的乘积元素的改变也是光滑的,即这个参数对应的这个函数映射关系是光滑的(光滑即函数无穷阶可导)。

对两个群元素做乘法,就相当于将对应的两组参数按照参数映射关系合成一组参数。如果参数之间的这个函数关系是光滑的,那就说明这个群的元素的参数是可以光滑地移动的,这样的群就是李群。参数个数代表李群维数。很多事物的对称性都满足元素本身有无穷多个,是不可列的,但元素之间具有可以连续光滑转变的联系;比如直线代表一维平移对称性,平面代表二维平移对称性(平移对称性即平移之后看起来和原来完全相同),半径为\(\pi\)的球代表三维旋转对称性。

光滑流形可以简单理解为一种光滑的 n 维几何体,满足没有棱角、重叠,任意两个点之间可以光滑移动;且任意一个点在充分放大之后都存在一个局部坐标系与欧几里得空间同胚,甚至微分同胚(不限制维度),将这个局部坐标系的维度定义为这个流形的维度。通过建立映射来将两个流形等效起来的方法称为微分同胚,意思是一个流形能够连续地变换为另一个流形(连续就是不撕开、不折叠、不拼接)。两个流形之间能建立一个光滑的一一映射,则这个映射称为微分同胚。在拓扑学中,两个微分同胚的流形就可以视作相等的。比如球面就是一个二维流形,假设地球是光滑的,居住在地球上的我们认为自己生活在一个二维平面上;圆就是一维流形,光滑环面也是一个二维流形。李群的一大特点就是,群元素的参数变化是光滑的,就好像在光滑流形上移动一个点,两者可以完美地对应起来,流形上的点对应于群中的元素。

正交矩阵可以分为纯旋转以及旋转+反演两类,区别在于行列式为 1 或-1,这也是正交群两个单连通的分支。由于单位元属于纯旋转的分支,那么纯旋转可以单独地看作一个李群,称为特殊正交群(Special Orthogonal),记为\(SO(n)\)。正交群的独立参数个数为\(\frac{1}{2}n(n-1)\)。对于三维特殊正交群,独立参数有 3 个,是一个三维李群,对应的一个表示矩阵如下(用 XYZ 欧拉角表示的旋转矩阵)

\[\begin{aligned} R &= \begin{pmatrix} \cos \alpha_3 \cos \alpha_2 & -\sin \alpha_3 \cos \alpha_1 + \sin \alpha_1 \cos \alpha_3 \sin \alpha_2 & -\sin \alpha_1 \sin \alpha_3 + \cos \alpha_1 \cos \alpha_3 \sin \alpha_2 \\ \cos \alpha_2 \sin \alpha_3 & \cos \alpha_3 \cos \alpha_1 + \sin \alpha_1 \sin \alpha_2 \sin \alpha_3 & -\sin \alpha_1 \cos \alpha_3 + \cos \alpha_1 \sin \alpha_2 \sin \alpha_3 \\ -\sin \alpha_2 & \sin \alpha_1 \cos \alpha_2 & \cos \alpha_1 \cos \alpha_2 \end{pmatrix}\\ &= \begin{pmatrix} 1 & 0 & 0 \\ 0 & \cos \alpha_1 & -\sin \alpha_1 \\ 0 & \sin \alpha_1 & \cos \alpha_1 \end{pmatrix} \begin{pmatrix} \cos \alpha_2 & 0 & \sin \alpha_2 \\ 0 & 1 & 0 \\ -\sin \alpha_2 & 0 & \cos \alpha_2 \end{pmatrix} \begin{pmatrix} \cos \alpha_3 & -\sin \alpha_3 & 0 \\ \sin \alpha_3 & \cos \alpha_3 & 0 \\ 0 & 0 & 1 \end{pmatrix}\\ &=R_z(\alpha_3) \cdot R_y(\alpha_2) \cdot R_x(\alpha_1) \end{aligned}\]

球面是二维流形,而\(SO(3)\)群的流形是一个无法在三维完整呈现的特殊球体。平面中的刚体运动记为\(SE(2)\)表示,空间中的刚体运动记为\(SE(3)\)表示。

李群的参数所在的空间可以看作一个 n 维直角坐标系,李群本身可以看作一个流形。群的元素可以用矩阵表示,现在把表示看作一个多元映射,每一组参数都能对应到一个矩阵。注意这里矩阵只是作为一种跟群参数建立联系的方式,任何一种能建立联系的光滑一一映射都可以。群参数所在的直角坐标系的原点对应群的单位元,对应矩阵表示的单位矩阵。关注单位元处一个很小的区域之内的元素,利用导数进行近似,满足原来李群的特殊乘法运算,因此它们单独构成一个群,称为李群的无穷小群。近似产生的修正项,是偏导数坐标系中的矢量。多个变量的光滑函数的图像是高维的流形,那么偏导数的组合就是流形的切面,也就是说,以偏导数在某一点处的值为基底的空间,就是流形在该点处的切空间,n 维流形的切空间也是 n 维的。这个无穷小元素的表示矩阵,也就是群元素变成了单位矩阵再加上一个切空间的矢量。而对于一般区域内的元素,可以通过求极限的方式证明,相应的映射为指数映射。切空间是线性的向量空间,在切空间中可以进行微积分运算,切空间的维度等于流形的自由度。

现在将群元素的参数对应到切空间上的矢量,一个很自然的问题是,两个元素的乘积是什么,即两个矢量指数映射的乘积是什么。定义对数映射为指数映射的逆映射,并用无穷级数展开后,可以定义李括号为\([\mathbf{A}, \mathbf{B}] = \mathbf{A}\mathbf{B} - \mathbf{B}\mathbf{A}\),其中\(\mathbf{A}、\mathbf{B}\)均为群元素对应参数的矩阵表示,可以得到以下式子,又称为 BCH 公式,用于描述两个李代数元素对应的李群元素乘积所对应的李代数元素。

\[\begin{aligned} &{\exp(\mathbf{A})}{\exp(\mathbf{B})}\\ &{\exp(\mathbf{K})}\\ &=\exp\left(\mathbf{A}+\mathbf{B}+\frac{1}{2}[\mathbf{A},\mathbf{B}]+\frac{1}{12}([\mathbf{A},[\mathbf{A},\mathbf{B}]]+[\mathbf{B},[\mathbf{B},\mathbf{A}]])+\cdots\right) \end{aligned}\]

当两个元素对易,即\(\mathbf{A}=\mathbf{B}\)时,有\({\exp(\mathbf{A})}{\exp(\mathbf{B})}=\exp{(\mathbf{A}+\mathbf{B})}\)。这里,矩阵指数用于将李代数元素,如反对称矩阵等,映射到李群元素,如旋转矩阵、变换矩阵等。三维旋转中,李代数是三维的反对称矩阵空间。

李括号满足以下几个基本性质。由于指数映射之后是李群中的元素,因此指数映射满足群的四条公理,且李群的参数光滑,由此可以推导出下面的性质

\[\begin{aligned} &[\mathbf{B},\mathbf{A}]=\mathbf{B}\mathbf{A}-\mathbf{A}\mathbf{B}=-[\mathbf{A},\mathbf{B}] \quad [\mathbf{A},\mathbf{A}]=\mathbf{0} \quad &反对称性\\ &[a\mathbf{A}+b\mathbf{C},\mathbf{B}]=(a\mathbf{A}+b\mathbf{C})\mathbf{B}-\mathbf{B}(a\mathbf{A}+b\mathbf{C})\\ &\quad\quad\quad\quad\quad\quad=a[\mathbf{A},\mathbf{B}]+b[\mathbf{C},\mathbf{B}] \quad &线性\\ &[\mathbf{A},[\mathbf{B},\mathbf{C}]]+[\mathbf{B},[\mathbf{C},\mathbf{A}]]+[\mathbf{C},[\mathbf{A},\mathbf{B}]]=\mathbf{0} \quad &雅可比恒等式 \end{aligned}\]

现在考虑,如果\(\mathbf{A}、\mathbf{B}\)不是矩阵而是一般的抽象化的矢量,李括号不能这样定义,仍然满足指数映射的乘积关系。以上面的性质作为新的公理定义一种新的代数结构,即两个矢量运算之后得到空间内的新矢量,这种运算满足上面的性质,称为李括号,这种矢量空间称为李代数。群由乘法定义,李代数则由李括号定义,因此给定一个矢量空间,只要能找到符合规定的二元运算 ,就能定义为李括号,相应的空间就是李代数。比如前面的矩阵空间就是一个李代数,三维空间中的矢量叉乘满足李括号,因此三维直角坐标系在矢量叉乘的结构下也是一个李代数。对于李群来说,群元素就是单位元切空间中的矢量的指数映射,李代数就是李群在单位元处的切空间,切空间中的矢量(李代数中的元素)的指数映射,就是流形中的点(李群中的元素)。一个李群对应一个流形,一个流形在单位元的切空间是唯一的,因此李群对应的李代数也是唯一的,但反过来,一个李代数可能对应不止一个李群。\(SO(3)\)群和\(SU(2)\)群分别为三维的特殊正交群和二维的特殊幺正群,它们的李代数都是\(\mathfrak{so}(3)\)。

李群中的运算如下

\[\begin{aligned} \mathcal{X}\oplus\omega&\triangleq\mathcal{X}\cdot\text{Exp}(\omega)\\ \mathcal{Y}\ominus\mathcal{X}&\triangleq\text{Log}(\mathcal{X}^{-1}\cdot\mathcal{Y}) \end{aligned}\]

雅可比矩阵定义如下

\[\begin{aligned} \mathbf{J}&=\frac{Df(\mathcal{X})}{D\mathcal{X}}=\lim_{\mathbf{\tau}\to 0}\frac{f(\mathcal{X}\oplus\mathbf{\tau})\ominus f(\mathcal{X})}{\mathbf{\tau}}\in\mathbb{R}^{n\times m} \end{aligned}\]

例如,对\(SO(3)\)中的旋转操作求导

\[f:SO(3)\times\mathbb{R}^3\to\mathbb{R}^3\quad ;\quad (\mathbf{R},\mathbf{p})\mapsto f(\mathbf{R},\mathbf{p})=\mathbf{R}\cdot\mathbf{p}\\\]

分别对\(\mathbf{R}\)和\(\mathbf{p}\)求导

\[\begin{aligned} \frac{Df}{D\mathbf{R}}&=\lim_{\mathbf{\theta}\to 0}\frac{(\mathbf{R}\oplus\mathbf{\theta})\cdot\mathbf{p}-\mathbf{R}\cdot\mathbf{p}}{\mathbf{\theta}}\\ &=\lim_{\mathbf{\theta}\to 0}\frac{(\mathbf{R}\cdot\text{Exp}(\mathbf{\theta}))\cdot\mathbf{p}-\mathbf{R}\cdot\mathbf{p}}{\mathbf{\theta}}\\ &=\lim_{\mathbf{\theta}\to 0}\frac{\mathbf{R}\cdot(\mathbf{I}+\mathbf{\theta}_\times)\cdot\mathbf{p}-\mathbf{R}\cdot\mathbf{p}}{\mathbf{\theta}}\\ &=\lim_{\mathbf{\theta}\to 0}\frac{\mathbf{R}\cdot\mathbf{\theta}_\times\cdot\mathbf{p}}{\mathbf{\theta}}\\ &=\lim_{\mathbf{\theta}\to 0}\frac{-\mathbf{R}\cdot\mathbf{p}_\times\cdot\mathbf{\theta}}{\mathbf{\theta}}\\ &=-\mathbf{R}\cdot\mathbf{p}_\times\\ \frac{Df}{D\mathbf{p}}&=\lim_{\delta\mathbf{p}\to 0}\frac{\mathbf{R}\cdot(\mathbf{p}+\delta\mathbf{p})-\mathbf{R}\cdot\mathbf{p}}{\delta\mathbf{p}}\\ &=\lim_{\delta\mathbf{p}\to 0}\frac{\mathbf{R}\cdot\delta\mathbf{p}}{\delta\mathbf{p}}=\mathbf{R} \end{aligned}\]

控制理论基础

系统数学模型

系统的数学模型,是描述系统输入输出变量以及内部各变量之间关系的数学表达式。在经典控制理论视角下,建模就是从真实系统得到传递函数的过程。系统模型的建立过程可以用以下框图来描述,上半部分是时域方法,下半部分是复数域方法。

完全从时域角度建模的过程往往比较繁琐,因此将模型利用拉普拉斯变换转化到复数域内,将微分方程变换为代数方程,求解后再反变换回时域。笔算求反变换的方法称为为部分分式法:将式子拆成常用变换对和性质可直接得出的基本单元,查表求出。

\[\begin{aligned} 微分方程\\ &a_{n} \frac{\text{d}^n c(t)}{\text{d}t^n} + a_{n-1} \frac{\text{d}^{n-1} c(t)}{\text{d}t^{n-1}} + \cdots + a_{1} \frac{\text{d}c(t)}{\text{d}t} + a_{0} c(t)\\ &=b_{m} \frac{\text{d}^m r(t)}{\text{d}t^m} + b_{m-1} \frac{\text{d}^{m-1} r(t)}{\text{d}t^{m-1}} + \cdots + b_{1} \frac{\text{d}r(t)}{\text{d}t} + b_{0} r(t)\\ 传递函数\\ C(s) &= \frac{\left( b_{m} s^m + b_{m-1} s^{m-1} + \ldots + b_{1} s + b_{0} \right)}{\left( a_{n} s^n + a_{n-1} s^{n-1} + \ldots + a_{1} s + a_{0} \right) } R(s) \end{aligned}\]

在时域和频率的框架下,各自有一些稳定性判据和定量指标,用于评估系统性能,此处不再一一列举。

传递函数

规定系统在零初始条件下,输出拉氏变换与输入拉氏变换之比,为系统的传递函数。分式中分子和分母的零点分别称为传递函数的零点和极点,零极点可以表征系统的性质。传递函数只和系统自身的结构参数有关,和微分方程一一对应且可以相互转化。

\[\frac{C(s)}{R(s)} = \frac{b_{m} s^m + b_{m-1} s^{m-1} + \cdots + b_{1} s + b_{0}}{a_{n} s^n + a_{n-1} s^{n-1} + \cdots + a_{1} s + a_{0}} = G(s)\]

将分子分母首项(最高次)系数化为\(1\),称为首一标准型;将分子分母尾项(最低次,不一定是常数项)化为\(1\),称为尾一标准型。尾一标准型前的系数\(K\)称为增益,注意,负号不用提出来,要保证\(K^*\)或\(K\)为正。

\[\begin{aligned} 首一标准型\frac{C(s)}{R(s)} &= \frac{b_{m}}{a_{n}}\cdot\frac{s^m + \frac{b_{m-1}}{b_{m}} s^{m-1} + \cdots + \frac{b_{1}}{b_{m}} s + \frac{b_{0}}{b_{m}}}{s^n + \frac{a_{n-1}}{a_{n}} s^{n-1} + \cdots + \frac{a_{1}}{a_{n}} s + \frac{a_{0}}{a_{n}}} = G(s)\\ G(s) &= \frac{K^* \prod_{j=1}^{m} (s - z_{j})}{\prod_{i=1}^{n} (s - p_{i})}\\ 尾一标准型\frac{C(s)}{R(s)} &= \frac{b_{0}}{a_{0}}\cdot\frac{\frac{b_{m}}{b_{0}} s^m + \frac{b_{m-1}}{b_{0}} s^{m-1} + \cdots + \frac{b_{1}}{b_{0}} s + 1 }{\frac{a_{n}}{a_{0}} s^n + \frac{a_{n-1}}{a_0} s^{n-1} + \cdots + \frac{a_{1}}{a_{0}} s + 1} = G(s)\\ G(s) &= K \frac{\prod_{k=1}^{m_{1}} (\tau_{k} s + 1) \prod_{l=1}^{m_{2}} (\tau_{l}^2 s^2 + 2 \tau_{l} \xi_{l} s + 1)}{s^v \prod_{i=1}^{n_{1}} (T_{i} s + 1) \prod_{j=1}^{n_{2}} (T_{j}^2 s^2 + 2T_{j} \xi_{j} s + 1)} \end{aligned}\]

传递函数是单位脉冲响应的拉氏变换,与系统零极点图对应。原则上,传递函数不反映非零初始条件时系统响应的全部信息,适合于描述 SISO 系统,且只能用于表示线性定常系统。

典型系统框图

image-20250315165131873

  • 开环传递函数:将闭环系统主反馈通路断开对应的开环传递函数,化为尾一标准型后的系数称为开环增益

    \[G(s)N(s) = \frac{B(s)}{E(s)} = G_{1}(s)G_{2}(s)H(s)\]
  • 输入作用下的闭环传递函数:根据输出的不同选取,分为输入作用下的闭环传递函数和误差传递函数。使闭环传递函数分母为零的方程称为特征方程,单位反馈的特征方程为开环传递函数分子分母之和。

    \[\begin{aligned} \Phi(s) &= \frac{C(s)}{R(s)} = \frac{G_{1}(s)G_{2}(s)}{1 + G_{1}(s)G_{2}(s)H(s)} \\ \Phi_\text{e}(s) &= \frac{E(s)}{R(s)} = \frac{1}{1 + G_{1}(s)G_{2}(s)H(s)}\\ \end{aligned}\]
  • 干扰作用下的闭环传递函数:同理分为干扰作用下的闭环传递函数和误差传递函数

    \[\begin{aligned} \Phi_\text{n}(s) = \frac{C(s)}{N(s)} = \frac{G_{2}(s)}{1 + G_{1}(s)G_{2}(s)H(s)} \\ \Phi_\text{en}(s) = \frac{E(s)}{N(s)} = \frac{-G_{2}(s) \cdot H(s)}{1 + G_{1}(s)G_{2}(s)H(s)}\\ \end{aligned}\]
  • 系统总输出和总误差:根据叠加原理,为两个输入分别作用时的输出之和/误差之和

    \[\begin{aligned} C(s) &= \frac{G_{1}(s)G_{2}(s) \cdot R(s)}{1 + G_{1}(s)G_{2}(s)H(s)} + \frac{G_{2}(s) \cdot N(s)}{1 + G_{1}(s)G_{2}(s)H(s)} \\ E(s) &= \frac{-R(s)}{1 + G_{1}(s)G_{2}(s)H(s)} + \frac{-G_{2}(s) \cdot H(s) \cdot N(s)}{1 + G_{1}(s)G_{2}(s)H(s)}\\ \end{aligned}\]

频率特性

系统在正弦信号激励下,响应的稳态分量一定是和输入信号同频率的正弦信号,幅值和相角有所改变且都是\(\omega\)的函数,这称为系统的频率响应。稳态输出与输入信号的幅值之比和相位之差随频率变化的规律分别称为幅频特性和相频特性,合起来称为频率特性。

\[G(\text{j}\omega)=\vert G(\text{j}\omega) \vert \text{e}^{j∠ G(\text{j}\omega)}= A(\omega)\text{e}^{j\varphi(\omega)}\]

幅相特性曲线(奈奎斯特图)和对数频率特性曲线(伯德图)是最常用的频率特性曲线。伯德图中的对数幅频特性曲线在手绘分析时往往绘制其渐近特性曲线,用低频和高频的渐近线近似表示对数幅频特性曲线。

开环传递函数可根据开环零极点因式分解为若干典型环节,相应的开环系统频率特性则为典型环节对数频率特性的叠加。

非最小相位系统

非最小相位系统的概念与全通函数有关,全通函数来源于全通滤波器 APF。这类滤波器对于所有频率的正弦输入其幅值均维持不变,仅产生相位延迟。一个稳定的传递函数\(f(s)\)如果在复平面的虚轴上所有点处幅值均为 1,那么这个函数就是全通函数,记为\(A(s)\),最常见的形式如下,其中\(\bar{s}_{0}\)为\(s\)的共轭

\[\label{eq1} A(s)=\pm\frac{s-s_{0}}{s+\bar{s}_{0}}, \text{Re}(s_{0})>0\]

以下传递函数具有相同的幅频特性曲线,而相频特性曲线不同

\[\frac{s + 2}{s^2 + 4s + 1}, \frac{(0.3 - s)(s + 2)}{(s + 0.3)(s^2 + 4s + 1)}, \frac{(0.6 - s)(s + 2)}{(s + 0.6)(s^2 + 4s + 1)}, \frac{(0.9 - s)(s + 2)}{(s + 0.9)(s^2 + 4s + 1)}\]

image-20250317215507274

其中,\(\frac{s + 2}{s^2 + 4s + 1}\)便是最小相位系统,相较于对应的其它非最小相位系统,最小相位系统具有最小的相位延迟和最短的响应时间;其它的传递函数皆为这个传递函数与全通滤波器的串联。事实上,所有具有相同幅频特性曲线的传递函数均可以被表示为最小相位系统与全通滤波器串联的形式。另外,延迟环节在数学上也可以近似为全通函数的形式:

\[\text{e}^{\tau s}\approx\frac{\frac{2}{\tau}-s}{\frac{2}{\tau}+s}\]

由此可以看出,由于全通函数和延迟环节的存在,仅由系统的幅频特性曲线无法确定唯一的相频特性曲线,除非已知系统为最小相位系统。

参考资料

纯数学

3Blue1Brown

本科工科数学解读

线性代数可视化

The-Art-Of-Linear-Algebra

难懂的数学

反双曲函数

双曲和反双曲函数推导、性质及联系

维基百科——凹函数

齐次和线性的含义

朗斯基行列式判断线性相关性

常数变易法的思想来源

贝叶斯定理

理解随机过程

理解泰勒函数

罗德里格旋转公式

四元数

四元数和旋转

四元数和三维旋转

各种旋转方式间的转化

群论和李群李代数基础

指数运算

李代数可视化

李群李代数

李代数伴随表示

梯度散度旋度

场的描述语言

信号分析

卷积的理解

频域分析

傅里叶分析

傅里叶分析到小波分析

小波变换

信号额压缩感知

三大变换的联系

控制理论

DR CAN

J Pan

自动控制理论

自动控制的故事

入门自动控制理论

入门现代控制理论

控制理论入门

非最小相位系统

带宽的理解

FIR、IIR 滤波器

李雅普诺夫稳定性

PID 原理

PID 及其变种

图说卡尔曼滤波

机器学习

SVM 理解

决策树

集成学习方法

如何理解 Transformer

本文由作者按照 CC BY 4.0 进行授权
/body>