PLAVE原理&介绍
团名PLAVE结合了英语单词“Play”(玩耍、表演)和法语单词“Rêve”(梦想、幻想),意思是“为了实现自己的梦想而创造新的世界”。
这个团名也呼应了其粉丝名PLLI (플리),PLLI为英语“Play”+“Reality”的合成语,PLAVE的含义是Play+Rêve(梦, 幻想),有在梦境中活动的意思;粉丝名含义是Play+Reality(玩+现实),有在现实里作伴的含义。

*上图为PLLI名字解释以及形象

PLAVE所属公司VLAST(블래스트)是韩国MBC的内部企业,2021年2月,从MBC独立分拆的虚拟角色初创公司,也得到IPX(前身为Line Friends)、DSC Investment的投资,公司代表为Lee Seong Gu(이성구)。

PLAVE是由VLAST制作的网络漫画风格的虚拟5人男子团体,主要活动是以3D模组呈现,直播和MV拍摄都是由成员亲自参与,进行动态捕捉。
PLAVE的五位成员都各自拥有一位真人(又称中之人)
真人「中之人」的動作和表情,透過即時動作捕捉技術,即時轉換成細膩的漫畫風格3D虛擬形象的技術與運作模式。

即時動作捕捉(Motion Capture):又称为动态捕捉,简称动捕。這項技術需要真人「中之人」穿戴动作捕捉服(简称:动捕服)和面部表情捕捉器(简称:面捕)等专业设备將真人「中之人」的肢體動作、面部表情和聲音,實時轉換成數據。這些數據隨後被應用到3D模型上,電腦會根據這些模型來生成成員的臉部和服裝,創造出漫畫風格的3D形象。

*上图为动捕服例子

我们今天所说的动作捕捉,通常是指在3D游戏或动画中,通过传感器和软件,把真人演员的动作转录成数字模型的动作。

众所周知,动画和游戏中的角色(包括人物和动物)必须要有动作,比如奔跑、跳跃、打斗等等。
在动作捕捉技术出现之前,这些动作都是需要人工一帧一帧画上去的。无论是2D还是3D,动画还是游戏,都要求动画师/动作师根据感觉和经验,一点一点手调关键帧,把角色的动作逐帧模拟出来。

现在的动捕技术,已经从肢体动作推进到了面部动作,也就是我们常听到的“面捕”。面捕的原理和动捕差不多:给真人演员戴上装有传感器的头套,演员的面部表情会被记录在电脑里,生成面部动作数据,然后再把这些数据套用在数字角色上。

面部捕捉表情捕捉
经历了20世纪末的不断完善后,动捕技术在21世纪开始了全面普及。2000年的动画《辛巴历险记:迷雾之外》是第一部完全使用动捕技术拍摄的电影,后来大获成功的《指环王》三部曲实现了全动捕化。如今的好莱坞电影已经是动捕技术的天下了。

动捕技术的优点非常突出。一是效率高,所见即所得,不需要动画师绞尽脑汁去想象复杂的动作;二是成本低,虽然一套动捕设备的价格不菲,但由于可以大批量生产动作,而且速度很快,可以节约巨大的时间成本,平摊到每个动作上往往都很便宜;三是入门门槛低,不太依赖大神动画师,对于小团队来说非常友好。

以下会介绍动作捕捉的相关参数、应用领域,以及常见的动捕品牌

动作捕捉分为5类,声学式、光学式、惯性式、电磁式、机械式动作捕捉5类。而现在主流的动作捕捉类型主要是惯性式和光学式。

动作捕捉解决方案一般都是硬件加软件的组成(光学式硬件是至少三个以上摄像机,软件主要用来计算和后期处理标记点的三维空间位置。惯性式硬件大多都是绑带+若干个IMU)。

光学式主要有被动光学式和主动光学式两种,两者区别就是标记问题,主动标记和被动标记,主动标记自发光,被动标记反射光(涂逆反射材料)。光学式精度高,一个标记点位通过2台以上摄像机拍摄就可以测量出标记点的三维空间位置,但惯性式是通过估计IMU的三维空间位置的,精度自然不如光学式,所以光学式应用的领域大多都是运动估计、电影、动画产业。光学式精度虽高,价格也贵,好一点的系统大多都要百万级。

惯性式主要用的是IMU,IMU主要由陀螺仪、磁力计、加速度计等组成,将IMU放置在人体上,可以测量转向,运动加速度和位置变化。惯性式价格便宜,对于精度要求不高的应用下很适用,所以线下体验店和专业用户大多都会选择惯性式。但是惯性式使用时间一长就会发生位置漂移,这也是一大劣势。

一、动作捕捉技术简介与相关参数
动作捕捉是对物体运动进行记录的一种手段,从技术原理上分为光学、惯性、视觉这主要的三类,这里只介绍光学动捕。

我们会在一些网络视频中看到一个挂了很多摄像头的场地,几个演员一袭黑衣,站在中间表演着各种动作,然后电脑里会有对应的骨骼运动,这就是光学动作捕捉。光学动作捕捉主要设备就是两个,一个是摄像头,另一个是反光标记球(Marker),摄像头会发出特定波长的光,经Marker反射后,每个摄像头里都有Marker的二维坐标,经软件的3D重建算法计算后,Marekr在场地里的三维坐标就能得到。摄像机以一定频率传送坐标给软件计算,那么我们就有了不同时间的Marker坐标数据,时间与坐标就是动捕系统能得到的两个原始数据,据此,软件能计算出速度、加速度矢量以及刚体的六自由度位姿信息。把这些信息导入到MotionBuilder里做修复,再导入到3dMax、Unreal等软件里与模型绑定,就能得到我们常见的动捕动画效果了。

所以频率肯定是一个动捕设备的重要参数,这一点在科研应用中尤其重要,没有高频的数据反馈,就不能达到实时的控制效果。那动捕还有那些参数呢——分辨率、像素、视场角等等,介绍起来实在复杂,我们不妨从实用性需求角度去看参数,首先是精度需求,精度越高动作越准确,体现在参数上是分辨率和像素数,懂摄影的朋友应该能明白,不做过多介绍;其次是实时反馈需求,这在科研和虚拟直播中比较重要,体现在参数上是频率和延迟,频率已经介绍过,延迟是数据从捕捉到给出坐标的时间,一般都为毫秒级别;还有就是捕捉范围需求,体现在参数上就是视场角与视距,这决定了同一片场地所需摄像头的多少,做成本控制时需要计算。

二、动作捕捉技术的应用领域
动作捕捉目前主要应用在两个领域,一个是科研,一个是文娱。大家应该对文娱领域动作捕捉的应用了解地更多一些,我们在网上看到的视频往往是动作捕捉在影视、直播方面的应用。

但动作捕捉最开始是一个科研工具,用于生物力学中的研究。在人或者其它生物身上附着Marker,捕捉其运动轨迹,计算出每个marker的运动矢量,从而得到自己想要的信息。比如医院里会集成一套设备,去捕捉患者的静态姿势和步态信息,从而对其健康状态做监测;一些体育研究所也会捕捉运动员的运动过程,从而对其竞技姿势做相应指导。

科研上除了生物力学领域,还有一种常见的应用场景是自动化领域研究。无人机集群,无人车编队的研究中需要有实时的6自由度信息反馈,以形成控制闭环。光学动捕往往是解决这一问题的较好方案。

在文娱领域,动作捕捉技术能大大提高动作资源的产出效率,并且使动作更加真实。效率问题是主要问题,一些RPG游戏中会存在大量的NPC,他们的动作相对主角并不重要,不需要炫丽的表现,但是量又会比较大,这时选用动捕设备去捕捉会有较大优势。一些音舞游戏公司和3D影视制作公司,也都有自己的动捕棚。

最简易的虚拟直播对设备精度的要求并不高,一套惯性动捕甚至是视觉动捕就可以解决肢体的捕捉问题,面部表情捕捉用苹果手机自带的ARKit来做就可以,在直播平台上搜虚拟主播会发现有很多这样的内容。在VR领域搭建过一个简单的场景,只需在眼镜上放几个Marker,再把坐标对应一下,人就可以在虚拟场景里自由探索了,如果手上拿了枪或者刀的模型,也可以捕捉下来对应到场景中,形成一种更有趣的交互。

三、国内外常见动捕品牌
动捕技术是国外传来的技术,知名品牌都在国外,光学式解决方案比较出名的,国内:Nokov、uSens、青瞳视觉,国外:美国魔神(Motion Analysis)、英国Vicon,美国OptiTrack,还有Xsens是惯性动捕,其它的光学动捕各有特点。

魔神和Vicon差不多,技术最强,解决方案最多的厂商,但同样价格也是最贵的,具体有多贵,可以自己去官网看看,一般是国企或者不差钱的大企业用,像SMG与腾讯都是用的Vicon;Nokov价格比魔神Vicon便宜点,但是顶级的硬件摄像机方面做的跟魔神和Vicon差不多,Optitrack价格便宜点,精度不如上面三个,已经被中国的利亚德收购,在我看来是性价比最高的,各参数都够用,重点是影视游戏领域的解决方案完善,大多数影视动捕棚配的都是这个;Qualisys解决方案主要集中在生物力学上,水下也能做,算是冷门中的高手吧

国内光学动捕从南到北主要有三家,瑞立视、青瞳视觉、度量科技等。不过这不重要,国内的设备主要特点就是便宜,但稳定性和解决方案的丰富度会差些,毕竟外国的动捕技术发展那么多年,肯定成熟一些。惯性的有诺亦腾,印象一直不错的。

这四大厂家最好的摄像机配置就如下图,一般帧率越高,分辨率越高,延时越低,动作捕捉系统精度方面自然更强啊。举个例子,一般传感器的分辨率越高,从标记中获得的细节就越多,跟踪就越精准。

惯性式动捕
介绍完光学式动捕,接下来就是惯性式动捕,惯性式动捕国内:诺亦腾,幻境,国承万通。国外主要就是Xsens。诺亦腾的Preception Neuron系列的Preception Neuron Pro和Preception Neuron 2还是蛮不错的,也比较有市场。Xsens是惯性式动捕的开山鼻祖,他们根据不同的应用有不同的动捕解决方案(软件:MVN Animate,MVN Analyze 硬件:MVN Link套装,MVN Awinda)。

挑战
影响数据精度的三大因素
镜头分辨率:被捕捉的Marker点在镜头画面中以像素形式呈现,当这个点在镜头中越接近圆形,它被提取到的坐标就会越准。
镜头频率:镜头频率越高,相同时间内采集到的图像数据越多,得到的三维空间运动轨迹数据也就越精确。
镜头数量:镜头的数量越多,获取到的数据就越稳定。
数据精度直接影响被捕捉物体的点速度数据、点加速度数据、刚体六自由度数据。NOKOV度量科技可提供多款型号光学动捕设备,根据不同制作需求使用。其中MARS 12H 动捕相机可达到分辨率1200万像素,频率300赫兹,作为科学级动作捕捉设备,可轻松提供最细腻的动作细节。”

这个结合了真人表演和3D虚拟形象的系统,让PLAVE能够在虚拟世界(Asterum)中进行表演,并与现实世界的粉丝互动,找到新的存在感。
总结来说,PLAVE的原理并非是AI生成,而是结合了真人演员、即时动捕技术和3D建模,创造出一个拥有动态虚拟形象的虚拟偶像团体。

Back