PICA: Physics-Integrated Clothed Avatar 项目地址(未开源)
TVCG
Fig. 1: Overview Abstract 我们介绍了 PICA,这是一种用于高保真可动画穿衣数字人的新型表示方法,它具有精确的服装物理动态,即使是宽松的衣服也不例外。以往基于神经渲染的可动画穿衣人体模型通常采用单一模型来表示服装和底层身体。这些方法虽然高效,但往往不能准确地表示复杂的服装动态,导致不正确的服装动态和明显的渲染伪影,尤其是滑动或宽松的服装。此外,以前的工作将服装动态表示为依赖人体姿势的变形,并以数据驱动的方式促进新姿势动画的产生。这样做的结果往往不能真实地表现运动的力学原理,而且泛化性能差。为了解决这些问题,我们采用了两个具有不同变形特征的独立 3DGS 模型,分别对人体和服装进行建模。这种区别可以更好地处理它们各自的运动特性。通过这种表示方法,我们集成了基于图神经网络 (GNN) 的服装人体物理模拟模块,以确保服装动态的准确表示。我们的方法通过其精心设计的功能,实现了对复杂和新颖驱动姿势下着装人体的高保真渲染,在相同设置下明显优于之前的方法。
Introduction 本文的创新点:
通过使用双层 3DGS 来表现穿衣者的身体,从而实现超逼真的渲染效果,这对服装和身体的独立动画制作非常重要。 通过将双层表示法与高效的神经模拟模型相结合,PICA 在新视角和新姿势下实现了令人满意的衣着人体动画效果。 利用我们的双层表示法和基于物理的驱动模块,PICA 支持逼真的虚拟试穿,并能为穿着新颖服装的数字人制作动画,从而为动态逼真的时尚展示提供更多可能。 Method Fig. 2: Pipeline Avatar Representation Avatar in canonical space 首先在标准空间中表示数字人。本文将高斯点云锚定在模板 mesh { M b o d y , M c l o t h i n g } \{M^{body},M^{clothing}\} { M b o d y , M c l o t hin g } 的 face 上。人体的 mesh 直接使用 SMPL-X,如果是长头发则在头的后面加一些 face 来建模头发。对于衣服的 mesh,如果是紧身的也是直接使用 SMPL-X 的 mesh;如果是宽松的衣服则用 Animatable Gaussians 里的方法从单帧图片中重建穿衣人体的 mesh。然后再将 2D 分割的 mask 投射到穿衣人体上,得到衣服的 mesh。
然后在 M b o d y , M c l o t h i n g M^{body},M^{clothing} M b o d y , M c l o t hin g 上采样高斯点云。由于是通过物理先验驱动模板 mesh 来模拟穿衣数字人动态,因此仅根据网格属性来定义高斯的几何属性 (平均位置、缩放和旋转)。具体来说,给定第 i i i 个 face 的三个顶点 p i j p_{ij} p ij 的位置 (j=1,2,3),可以通过重心坐标 b j b_{j} b j 和法向量偏移 δ \delta δ 得到高斯的均值 x \mathbf{x} x 从而将高斯点云锚定在 mesh 上:
x = ∑ j = 1 3 b j p i j + δ n i (1) \mathbf{x}=\sum^3_{j=1}b_j\mathbf{p}_{ij} + \delta\mathbf{n}_\mathbf{i} \tag{1} x = j = 1 ∑ 3 b j p ij + δ n i ( 1 )
n i \mathbf{n}_\mathbf{i} n i 表示 face 的法向量为了使渲染表面与模板 mesh 表面保持一致,我们希望 3D 高斯尽可能扁平化。因此,使用类似于 GaMeSopen in new window 的表示方法将高斯点云与模板 mesh 的三角形面对齐。具体来说,首先计算第 i i i 个 face 的正交基 [ r 1 , r 2 , r 3 ] [\mathbf{r}_1,\mathbf{r}_2,\mathbf{r}_3] [ r 1 , r 2 , r 3 ] ,其中 r 1 = n i \mathbf{r}_\mathbf{1}=\mathbf{n}_\mathbf{i} r 1 = n i 是 face 的法向量:
r 2 = ( p i 1 − p i 0 ) ∥ p i 1 − p i 0 ∥ , r 3 = r 1 × r 2 (2) \mathbf{r}_2=\frac{\left(\mathbf{p}_{i 1}-\mathbf{p}_{i 0}\right)}{\left\|\mathbf{p}_{i 1}-\mathbf{p}_{i 0}\right\|}, \quad \mathbf{r}_3=\mathbf{r}_1 \times \mathbf{r}_2 \tag{2} r 2 = ∥ p i 1 − p i 0 ∥ ( p i 1 − p i 0 ) , r 3 = r 1 × r 2 ( 2 )
p i 0 \mathbf{p}_{i0} p i 0 表示第 i i i 个 face 的中心点为了让高斯核尽量扁平化,高斯核的缩放为:
S = [ ϵ , ∥ p i 1 − p i 0 ∥ ⋅ s 2 , ∥ p i 2 − p i 0 ∥ ⋅ s 3 ] (3) S=\left[\epsilon,\left\|\mathbf{p}_{i 1}-\mathbf{p}_{i 0}\right\| \cdot s_2,\left\|\mathbf{p}_{i 2}-\mathbf{p}_{i 0}\right\| \cdot s_3\right] \tag{3} S = [ ϵ , ∥ p i 1 − p i 0 ∥ ⋅ s 2 , ∥ p i 2 − p i 0 ∥ ⋅ s 3 ] ( 3 )
ϵ \epsilon ϵ 表示一个很小的固定值s 2 s_2 s 2 和 s 3 s_3 s 3 是可以优化的高斯缩放参数p i 0 \mathbf{p}_{i0} p i 0 表示三角形的中心,p i 1 − p i 0 \mathbf{p}_{i 1}-\mathbf{p}_{i 0} p i 1 − p i 0 和 p i 2 − p i 0 \mathbf{p}_{i 2}-\mathbf{p}_{i 0} p i 2 − p i 0 表示三角形其中的两个顶点和中心之间的距离。用 ϵ \epsilon ϵ 使椭球的一个轴趋向于0,使椭球扁平化成椭圆。
通过 LBS 和一个非刚性变换将 3D 高斯点云从标准空间变换到 pose 空间:
p ′ = ∑ i = 1 N w i G i ( θ , β ) ⋅ ( p + Δ p ) , Δ p = f p a r t ( p , t ) (4) \mathbf{p}^{\prime}=\sum_{i=1}^N w_i G_i(\boldsymbol{\theta}, \boldsymbol{\beta}) \cdot(\mathbf{p}+\Delta \mathbf{p}), \quad \Delta \mathbf{p}=f_{\mathrm{part}}(\mathbf{p}, t) \tag{4} p ′ = i = 1 ∑ N w i G i ( θ , β ) ⋅ ( p + Δ p ) , Δ p = f part ( p , t ) ( 4 )
衣服上的混合权重是通过最近的身体上的点进行初始化,然后在训练的时候进行优化。Δ p \Delta p Δ p 是通过 MLP f p a r t f_{part} f p a r t 预测出来的非刚性变换
Appearance 最初的 3DGS 使用球谐函数来表示颜色,这在静态场景中效果很好。但是,它需要依赖于姿态的颜色来模拟服装的自阴影和褶皱。因此,使用颜色 MLP 根据每个高斯特征向量、视角方向和身体姿态参数来预测颜色,其中每个 3D 高斯的颜色是通过以下方式计算的:
c i = f c o l o r ( f i , θ , h t , d ′ ) (5) \mathbf{c}_\mathbf{i}=f_{\mathrm{color}}(f_i,\boldsymbol{\theta},h_t,d') \tag{5} c i = f color ( f i , θ , h t , d ′ ) ( 5 )
f i f_i f i 表示高斯的特征θ \boldsymbol{\theta} θ 表示 SMPL 中的姿态参数h t h_t h t 表示每个视频帧 t t t 的 latent embedding,是为了对时变因子进行编码d ′ d' d ′ 是对视角方向进行 canonicalize:
d ′ = R i T d (6) d'=R_i^Td \tag{6} d ′ = R i T d ( 6 )
R i R_i R i 表示第 i i i 个高斯的旋转矩阵对视角方向进行 canonicalize 到底有没有用存疑
Training 通过优化 V b o d y V^{body} V b o d y ,V c l o t h i n g V^{clothing} V c l o t hin g (这两个是 M b o d y , M c l o t h i n g M^{body},M^{clothing} M b o d y , M c l o t hin g 的顶点),3DGS 的属性,非刚性变换 MLPs 和 pose-dependent color MLP。同时还会优化 SMPL-X 的参数以及 V c l o t h i n g V^{clothing} V c l o t hin g 的混合权重。总的损失函数为:
L = L c o l o r + L m a s k + L s e g + L o p a c + L g e o (7) L=L_{color}+L_{mask}+L_{seg}+L_{opac}+L_{geo} \tag{7} L = L co l or + L ma s k + L se g + L o p a c + L g eo ( 7 )
外观损失 L c o l o r L_{color} L co l or 来确保渲染质量:
L c o l o r = L m s e + λ s s i m L s s i m + λ l p i p s L l p i p s (8) L_{color}=L_{mse}+\lambda_{ssim}L_{ssim}+\lambda_{lpips}L_{lpips} \tag{8} L co l or = L m se + λ ss im L ss im + λ lp i p s L lp i p s ( 8 )
mask 损失 L m a s k L_{mask} L ma s k 是渲染 mask 和 GT 之间的 L 2 L_2 L 2 损失。
分割损失 L s e g L_{seg} L se g 确保人体和衣服上的高斯点云锚定在各自的 mesh 上:
L s e g = λ s e g B C E ( L ^ , L ) , L ^ = ∑ i ( α i ′ ∏ j = 1 i − 1 ( 1 − α j ′ ) ) l i L_{seg}=\lambda{seg}BCE(\hat{\mathcal{L}},\mathcal{L}),\quad\hat{\mathcal{L}}=\sum_i\left (\alpha'_i\prod^{i-1}_{j=1}(1-\alpha'_j) \right )l_i L se g = λ se g BCE ( L ^ , L ) , L ^ = i ∑ ( α i ′ j = 1 ∏ i − 1 ( 1 − α j ′ ) ) l i
l i = 1 l_i=1 l i = 1 表示高斯点云在 M c l o t h i n g M^{clothing} M c l o t hin g 否则 l i = 0 l_i=0 l i = 0 L \mathcal{L} L 表示分割结果的 GT,是通过预训练进行预测不透明度损失 L o p a c L_{opac} L o p a c 约束高斯点云的不透明度要么为 1 要么为 0:
L o p a c = λ o p a c 1 N ∑ i = 1 N ( ln ( o i ) + ln ( 1 − o i ) ) (9) L_{opac}=\lambda_{opac}\frac{1}{N}\sum^N_{i=1}(\ln(o_i)+\ln(1-o_i)) \tag{9} L o p a c = λ o p a c N 1 i = 1 ∑ N ( ln ( o i ) + ln ( 1 − o i )) ( 9 )
o i o_i o i 表示第 i i i 个高斯点云的不透明度几何损失 L g e o L_{geo} L g eo 确保模板 mesh 是光滑和规则的,并且 M c l o t h i n g M^{clothing} M c l o t hin g 是在 M b o d y M^{body} M b o d y 外面:
L g e o = L l a p l a c i a n + L n o r m a l + L c o l l i s i o n + L d i s t a n c e (10) L_{geo}=L_{laplacian}+L_{normal}+L_{collision}+L_{distance} \tag{10} L g eo = L l a pl a c ian + L n or ma l + L co ll i s i o n + L d i s t an ce ( 10 )
L l a p l a c i a n L_{laplacian} L l a pl a c ian 是 Laplacian 损失,L n o r m a l L_{normal} L n or ma l 是法向量一致性损失,用来约束几何的平滑度,L c o l l i s i o n L_{collision} L co ll i s i o n 确保 M c l o t h i n g M^{clothing} M c l o t hin g 在 M b o d y M^{body} M b o d y 的外法线方向上:
L c o l l i s i o n = λ c o l l i s o n 1 n ∑ i = 1 n max ( ϵ − ( v i − v j ) ⋅ n j , 0 ) 3 (11) L_{collision}=\lambda_{collison}\frac{1}{n}\sum^n_{i=1}\max(\epsilon-(v_i-v_j)\cdot n_j,0)^3 \tag{11} L co ll i s i o n = λ co ll i so n n 1 i = 1 ∑ n max ( ϵ − ( v i − v j ) ⋅ n j , 0 ) 3 ( 11 )
v i v_i v i 表示衣服上的第 i i i 个顶点v j v_j v j 表示与 v i v_i v i 最近的身体上的顶点n j n_j n j 是 v j v_j v j 的法向量L d i s t a n c e L_{distance} L d i s t an ce 防止身体的 mesh 过于原来初始的 SMPL-X 的 mesh。
Physics-based Driving 这部分直接用的 HOOD 。