作者|Tim Jiang
编辑|Tim Jiang
01
虚拟人发展简史
什么是虚拟人?结合行业里的定义以及个人理解,虚拟人主要是通过计算计算图形学、图形渲染、动作捕捉、深度学习和语音合成等计算机手段制作出来的具有人类多重特征的虚构人物。
来源:公开网络,Max Headroom;
虚拟数字人的历史叙述可以追溯到上世纪 80 年代在英国出现的虚拟数字主持人—— Max Headroom,其内容制作的背后由演员 Matt Frewer 饰演,并在当时被宣传为“第一位计算机生成的电视节目主持人”;然而,实际上 Max Headroom 并不是由计算机生成,而是由演员 Matt Frewer 戴着假肢并穿着西装,在特定的拍摄环境下刻意呈现的。
随着个人计算机的普及与技术应用,从上世纪 80 年代开始,通过 CG(Computer Graphics)制作的影视内容不断出现,期间包括 1973 年的《Westworld》、1977 年的《星球大战》以及 1979 年的《异形》;到了1991 年,类似《终结者 2 》中完全由 CG 制作的角色——终结者“T-1000”开始出现;1995 年,由皮克斯制作的《玩具总动员》成为第一部完全通过 CG 技术制作的电影。
来源:公开网络,《星球大战》;
CG 技术的出现与普及,主要是为了提高更早以前的传统动画行业内容制作效率,并让动画制作绕开了在纸张上着墨的环节;成本上看,制作周期更短更快、人员成本更少以及更加环保,并且在收入上更加可观,例如皮克斯于 1999 年推出的《玩具总动员 2 》,当时在全球拿下了 4.85 亿美元票房。
来源:公开网络, Cabell Calloway III;
动作捕捉(Motion Capture,下称“动捕”)其实最早可以追溯到上世纪 30 年代的美国爵士歌手 Cabell Calloway III,他的舞蹈动作与风格被融入了动画制作当中,内容制作方通过将演员跳舞中的动作记录下来,以便艺术家可以在镜头上勾勒出逼真的动画动作,以及迪士尼的早期作品《白雪公主和七个小矮人》也是如此。
进入到 21 世纪,结合 CG和动作捕捉(Motion Capture,下称“动捕”)两项技术制作的虚构人物开始在电影中大放异彩,例如 2001 年上线的《指环王》中的“咕噜”这一角色,以及后来陆续出现的《阿凡达》、《猩球崛起》以及漫威《复仇者联盟》系列中的“灭霸”。
来源:公开网络,灭霸拍摄过程;
21 世纪的前十年除了计算机在视觉制作上进步,同时间线在音乐制作领域也出现了一个代表性的事件,即在 2007 年推出的“初音未来”,她是 Crypton Future Media(下称“Crypton”) 旗下通过雅马哈旗下 Vocaloid 2 语音合成引擎开发的虚拟女性歌手,即将声优的录音合成歌声,需要输入部分诸如音调、歌词和音速等情感参数。
来源:公开网络,初音未来演唱会;
原先在 Crypton 负责初音项目的仅 3~4 人,早期团队曾想接洽歌手来提供声音,但接洽下来的歌手基于声音的复制与版权问题而拒绝了合作,最后在筛选了 500 位声优后选择了声优藤田咲来提供原声,总录制时间达到 6 小时;另一方面,在初音的 IP 设定上, Crypton 将其定位为年龄 16岁、生日为2007 年 8 月 13 日、身高 158 cm 以及体重 42 kg 的少女歌手,擅长流行歌曲、摇滚乐与舞蹈,随着初音 IP 知名度的提高,项目方开始向漫画、游戏、电视节目、演唱会以及更多周边生态进行商业化。
进入到 2011 年,刚刚讲的 Vocaloid 语音合成引擎已经迭代到第 3 个版本了,雅马哈与国内名为 Bplats 的公司合作, Bplats 可能很多人也没听说过,但它旗下有家子公司名为“上海禾念”,相信很多人听过。
来源:公开网络,洛天依;
回到 Vocaloid,雅马哈和 Bplats 开始在 2011 年一起推进“ Vocaloid China ”项目,同年公布征集了人物形象与活动计划,最后成功入围了 5 件作品,大家熟知的“洛天依”就是其中之一;到了 2014 年,Bplats 在官网宣布了 “Vocaloid China” 项目的运营,包括洛天依在内的 5 个IP 划归为脱离母公司的上海禾念所有,禾念同时在 2015 年推出了虚拟艺人品牌 Vsinger,在后几年发展中被 Bilibili 收购成为旗下超电文化的子公司。
2018 年,洛天依的歌声库已经扩展到了 Vocaloid 5 、ACE AI 歌声库以及微软小冰歌声库,不同于 Vocaloid 基于组合拼接的合成方式,后两者则基于 AI 生成。
来源:公开网络,小冰;
小冰是微软亚研院在 2014 年在中国推出的 AI 聊天机器人,2016 年其在全球已经覆盖 40 多个平台以及合计 6.6亿的用户使用;2020 年小冰业务从微软拆分成为独立运营的小冰公司。
02
虚拟人的商业路线
关于虚拟人的划分,最简单的方式是判断虚拟人的是不是依靠人的,即依靠人和依靠机器的。
所谓依靠人的,即通过动态捕捉技术来进行肢体与表情的交互,目前常见的动作捕捉技术可分为 3 种:光学动捕、惯性动捕和计算机视觉动捕。
随着计算机图像识别相关算法的进步,通过惯性动捕或者光学动捕将不再是这一类的必须工具,比如 iPhone 中的「拟我表情」,通过 iPhone 的前置摄像头捕捉我们的面部肌肉和动作,再通过手机的神经网络引擎机器学习计算获得,本质上所有的语言、语音、表情与肢体互动还是依靠人来提供。
所谓依靠机器,虚拟人呈现的内容在语言、语音、表情与肢体互动上通过计算机的 AI 模型来运算得出,可以是离线生成也可以是实时驱动,离线就是异步的,实时就是动态同步的。
再进一步,虚拟人相关内容的生产主要涉及到三个环节:建模、驱动和渲染,每个环节依靠人还是依靠机器,以及依靠程度的高低,不同的组合造就了现在市场上不同的虚拟人流派。
小冰的CEO 李笛把目前市场上三种主要的虚拟人流派描述为殊途同归,大白话讲就是当前所谓的虚拟人赛道上,三拨不同人马在往里凑,干内容特效的,干偶像运营的和干人工智能的。
2.1 内容特效路线
可以追溯到上节提到的历史背景,从动画行业再到影视 CG 特效,呈现的内容目前不具备实时互动的能力,都是提前生产的,中间部分是通过设计师和艺术家绘制建模与渲染而成,部分是半人工或机器生成,比如《速度与激情 7 》中已故演员保罗沃克的戏份就是通过替身和计算机合成。
走影视行业路线,其商业模式本质是内容付费,因此这类项目方对于内容的精细度与现实程度有很高要求,对立面则是随之而来的内容制作成本会很高,根据相关媒体报道,这类作品的成本达到每秒 8000~15000元不等。
来源:凤凰网,柳夜熙;
走明星网红路线,其商业模式本质是广告变现,特点是这类人物内容更多以静态 3D 为主,然后通过品牌代言创造营收,国内虚拟网红 IP 案例如柳夜熙、AYAYI 以及翎;在人力成本上,以柳夜熙为例,其背后就包括了一个 150 人的团队。
2.2 偶像运营路线
偶像运营路线背后主要是做 IP 孵化和 MCN 运营的机构,偶像人设不强调互动,人物的驱动主要依靠背后演员的声音与动作(PS:这种模式也被称为“中之人”);另一方面在渲染上能够降低成本,多以二次元画风呈现,也能够提高 IP 塑造与风险控制,因此这类路线更加偏重运营,例如被字节跳动收购的 A-Soul 就属于这个路线,2021 年 A-Soul 团队直播年营收达到 2500 万元。
来源:公开网络,Asoul;
相比于孵化真人网红,可以避免出现 MCN 机构与网红之间的不可控因素,但在 IP 的管理上仍然是以传统的模式,一方面虚拟网红与背后的演员和声优是挂钩的,因此无法达到规模化孵化,这也是为什么没有见到成批的洛天依和初音未来。
2.3 人工智能路线
人工智能的路线直接跳过了通过人工驱动虚拟人进行互动,对于表情、肢体、语言和语音等多模态融合的技术要求高,按照小冰 CEO 李笛的说法,前两者路线,第一种人力生产成本高昂,内容生产与优化周期长,第一种仍然与人挂钩无法规模化,且背后依然是以人为核心,伪人工智能。
针对前两者没有解决的问题,小冰希望通过机器路线打造 AI 驱动的虚拟人。目前,小冰的制作不同于影视领域的人工动态捕捉建模与画面渲染,而是通过机器学习生成,渲染成本控制在 17 元/秒,大约是传统影视制作的 1/500,缺点是画面的精度只有 1080 P,无法和前者相比,但在手机上呈现是足够了。
同时在人员上,小冰的建模渲染由于是通过计算机生成的,因此没有专门的美术相关人员,出图效率可以做到以万计算,而内容的好坏交给市场与用户去评判,再根据用户偏好矫正与迭代。
来源:小冰;
另一种基于 AI 的虚拟人场景主要是企业服务领域,例如 RPA 办公流程自动化,万科的财务部虚拟员工崔筱盼,以及近期红杉推出的虚拟员工 Hóng ,在近期的宣传视频中的 IP 形象依然是提到的第一种路线,通过头像设计与拍摄后期合成。
来源:红杉;
封面:公开网络
原文标题 : 虚拟人的发展简史与三条路线