一、课程概述#
本课程主要讨论数据科学中的优化问题,包含以下内容:
- 优化模型的基本形式与实际例子
- 一阶迭代方法
- 数据分析中的典型问题与优化方法
二、为什么要用优化?#
在数据科学与机器学习中,很多问题都可以归结为优化问题。例如:
- 回归问题
- 数据补全问题
- 数据结构检测
- 降维问题
- 数据分类问题
这些问题通常涉及到参数的选择,使得模型对真实数据拟合得更好或者揭示数据的某种结构。
三、优化模型的基本形式#
1、无约束优化模型#
x∈Rnminf(x)其中 f 是光滑函数(本课程中指 C1 (连续函数)且梯度 Lipschitz 连续)。
2、正则化模型#
正则化模型是一种在机器学习和统计建模中常用的方法,目的是防止模型过拟合(即模型在训练数据上表现很好,但在新数据上表现很差)。它通过在损失函数中加入一个“惩罚项”来约束模型参数,使模型不会变得过于复杂。
x∈Rnminf(x)+λΨ(x)
- Ψ:Rn→R 是凸函数,可以是非光滑的,用于控制解的复杂度和结构。
- λ 是正则化参数。
3、有约束优化模型#
x∈Rnminf(x)s.t.x∈F例如:
F={x∈Rn:g(x)≤0,x≥0}其中 g:Rn→Rq,所有向量不等式分量逐个解释。
4、稀疏目标函数(函数和形式)#
数据分析中目标函数常为分项和:
f(x)=j=1∑mfj(x)每个 fj 只依赖于 x 的部分分量,且 n,m≫1,通常只可得梯度,无高阶信息。
四、一阶迭代方法#
一阶方法是一类迭代算法,产生解序列:
(xk)k∈N→x∗每步更新:
xk+1=xk+αkdk
- dk 由 ∇f(x) 或 ∇fj(x) 计算
- 步长 αk>0 可固定或自适应
五、数据分析问题的优化建模#
1、数据集与模型#
- 数据集 D={(aj,yj):j=1,…,m},aj 是特征,yj 是观测
- 参数模型 Φ(⋅;x):V→W,参数 x∈Rn
2、数据拟合问题#
目标:找到 x 使得对所有 j 有 Φ(aj;x)≈yj,即
x∈Rnminf(x)其中
f(x)=LD(x):=m1j=1∑mℓ(aj,yj;x)典型损失:
ℓ(aj,yj;x)=∥Φ(aj;x)−yj∥2
六、回归问题#
1、无截距线性回归#
x∈Rnmin2m1j=1∑m(ajTx−yj)2=2m1∥Ax−y∥2其中 A=[a1T;…;amT]。
2、有截距线性回归#
定义
x~=(xβ),a~j=(aj1)则模型为 Φ(a~;x~)=aTx+β。
3、Ridge回归 (Tikhonov正则化)#
x∈Rnmin2m1∥Ax−y∥2+λ∥x∥2减少对噪声的敏感性。
4、Lasso回归#
x∈Rnmin2m1∥Ax−y∥2+λ∥x∥1倾向于稀疏解(特征选择)。
七、字典学习(Dictionary Learning)#
数据 Y∈Rm×p,学习字典 A∈Rm×n 和稀疏编码 X∈Rn×p,使得
AX≈Y优化模型:
A,X∈Fk(m,p)min2mp1∥AX−Y∥F2其中 Fk(m,p) 表示每列至多 k 个非零分量。
八、矩阵补全(Matrix Completion)#
定义迹内积:
⟨X,Y⟩=tr(XTY)数据拟合模型:
X∈Vmin2m1j=1∑m(⟨Aj,X⟩−yj)2+λ∥X∥∗其中 ∥X∥∗ 是核范数(奇异值之和),有助于获得低秩解。
九、稀疏逆协方差估计#
样本估计:
S=m1j=1∑majajT优化模型:
X∈SRn×n,X≽0min⟨S,X⟩−logdetX+λ∥X∥1
- X≽0 表示 X 半正定
- −logdetX 保证可逆,λ∥X∥1 使得 X 稀疏
对数似然形式推导如下:
LD(X)=⟨S,X⟩−logdetX+λ∥X∥1=m1j=1∑majTXaj−logdetX+λ∥X∥1=−m2log(j=1∏m(2π)−n/2det(X−1)−1/2exp{−21ajTXaj})−nlog(2π)+λ∥X∥1
十、主成分分析(PCA)#
1、鲁棒PCA#
数据矩阵 Y∈Rm×n 拟合为低秩部分 L 和稀疏部分 S:
L,S∈Rm×nmin∥Y−(L+S)∥F2+λ∥L∥∗+γ∥S∥1核范数鼓励 L 低秩,S 稀疏视为异常值。
2、稀疏主成分分析#
传统PCA:
v∈RnmaxvTSvsubject to∥v∥2=1稀疏化约束:
vmaxvTSvsubject to∥v∥2=1,∥v∥0≤kNP-难,可用凸松弛:
M∈SRnmax⟨S,M⟩subject toM≽0,⟨I,M⟩=1,∥M∥1≤ρ
十一、数据分离(支持向量机 SVM)#
数据 (aj,yj),yj∈{+1,−1},寻找分离超平面 aTx−β=0。
原始约束:
yj(ajTx−β)≥1,∀j优化目标:
x,βmin∥x∥22如果不可行,则使用软间隔:
(x,β)minm1j=1∑mmax(1−yj(ajTx−β),0)+2λ∥x∥22等价于:
x∈Rn,β∈R,s∈Rmminm1j=1∑msj+2λ∥x∥22s.t.sj≥1−yj(ajTx−β),sj≥0,∀j引入非线性变换 ζ:Rn→V~,约束:
yj(⟨ζ(aj),x⟩−β)≥1优化目标:
x∈V~,β∈Rminm1j=1∑mmax(1−yj(⟨ζ(aj),x⟩−β),0)+2λ⟨x,x⟩可等价为对偶问题:
α∈Rmmin21αTQα−j=1∑mαjs.t.0≤αj≤λ1,∀j,yTα=0其中
Q=(qk,l)∈SRm×m, qk,l=ykyl⟨ζ(ak),ζ(al)⟩仅需核函数 K(ak,al)=⟨ζ(ak),ζ(al)⟩,如高斯核:
K(aj,al)=exp(−2σ2∥aj−al∥2)
十二、多分类问题与逻辑回归#
数据 (aj,yj),yj∈{e1,…,eM},ei 是 RM 的标准基。
参数 X={x[i]:i=1,…,M},多项式回归概率模型:
pi(a;X)=∑k=1Mexp(aTx[k])exp(aTx[i]),i=1,…,M最大化对数似然:
Xmaxm1j=1∑myjTx[1]⋮x[M]aj−log(k=1∑Mexp(x[k]Taj))如果 yj=ei,则 yjT(x[1],…,x[M])T=x[i]。
十三、深度学习中的多分类逻辑回归#
神经网络参数 w=((W1,g1),...,(WD,gD)),输入 a,D 层:
a0=aaℓ=σ(Wℓaℓ−1+gℓ),(ℓ=1,...,D−1)aD=WDaD−1+gD激活函数举例:
- σ(t)=1+exp(−t)1(Sigmoid)
- σ(t)=max(t,0)(ReLU)
- σ(t)=tanh(t)
最终优化目标:
X,wmaxm1j=1∑myjTx[1]⋮x[M]ajD(w)−log(k=1∑Mexp(x[k]TajD(w)))目标函数为分项和,但由于网络非线性,整体为非凸优化。