短视频创作如何搭上AIGC快车——专访独立创作者谢达威
中国科幻研究中心 张子瑞 赵雅惠 2023-07-31 14:51
导语
AIGC(人工智能生成内容)的创作风潮正在全球范围内蔓延,为广大创作者实现科幻想象提供了新的动力。为了深入探讨AIGC在科幻创作领域的影响,我们进行了一系列精彩的访谈。本期特邀独立创作者谢达威作为嘉宾。
谢达威更为人熟知的身份是B站UP主“拓星研究所”,相比其他UP主,他的创作频率不高,但每部短片都能在圈内引起热议。他们往往使用“准大众级”的设备,大胆应用AI换脸、AI编剧、AI动作捕捉等热门AIGC技术,制作出品质尚佳的创意短片。通过他们的实践和思考,我们可以看到AIGC赋能个人创作者的更多可能性。我们相信,他们今天的探索就是明天的常态。
AIGC创作情况
Q:拓星研究所团队成立的初衷是什么,您所在团队成员的专业背景情况是怎样的?目前使用哪些软件来创作呢?
我们的初衷只是创建一个B站账号,并制作一些剧情类项目。初始团队由三个人组成,现在已经增加到四人。在这个过程中,我们逐渐发现所涉及的技术越来越高级,从而演变成了现在的样子。在团队的专业结构方面,包括我在内有两个成员负责技术方面,此外,我的弟弟负责策划和摄影等工作,还有一位成员负责制片工作。软件方面,常用的有传统的AE、PS、C4D、Blender和UE,现在新的AI工具是Midjourney、Stable Diffusion和Runway。
Q:你们有多部作品都涉及到AIGC技术,应用技术的出发点是什么?
我们专注于影视方向的技术。随着人工智能的快速发展,我们发现AI可以取代一些影视制作中繁琐的流程,因此我们开始尝试应用这些技术,并逐渐增加了使用的频率,使我们达到了现在的状态。
在我们的一系列创作中,最早我们使用的AI技术是换脸技术DeepFake,并将其应用于2020年8月发布的《真人死亡搁浅》这部作品中。我们的初衷纯粹是希望在我们的影片中出现一个知名角色。因此,我们选择了小岛秀夫作为我们作品中的首个虚拟角色(小岛秀夫是《死亡搁浅》游戏的制作人)。由于我个人非常喜欢他的游戏作品,所以我们希望他能在我们的影片中亮相。
《真人死亡搁浅》使用DeepFake制作的小岛秀夫
《AI会取代我?》这个视频的创作出发点源自我们的疑问:为什么计算机生成的图形总是看起来不真实?我们从这个角度展开了研究。这期视频主要探讨的是数字人,我们注意到在影视行业中创造一个数字人的难度相当大。当好莱坞电影需要还原演员年轻时的形象(如《终结者4》中的施瓦辛格)或者某个已故演员的形象(如《速度与激情7》中的保罗·沃克)时,会尝试创造数字人。然而,正如大家在李安的电影《双子杀手》中所感受到的那样,即使是好莱坞这样拥有强大技术实力的行业,也尚未攻克数字人的挑战。那个年轻版的威尔·史密斯也让人感到有些违和。因此,我们开始思考,如果在数字假人的基础上运用DeepFake换脸技术,是否能让原本不够真实的脸变得更加真实?正是出于这个想法,我们制作了《AI会取代我?》这个视频。
《AI会取代我?》
相对而言,《末日最后一天》并没有受到太多的影响。我们团队一直在探索一个问题——使用人工智能技术编写剧本会产生怎样的效果?幸运的是,我们与一个手机品牌展开了合作,我们与甲方讨论了许多版本的剧本。甲方接受了我们使用AI编剧的想法,于是我们使用AI技术从零开始生成了这个剧本,而不是事先拥有一个完整的剧本。
我创作的《AI三周做出<灌篮高手>?》受到了油管知名影视博主Corridor Crew的影响。当我看到他们发布的AI动画《石头剪刀布》(ANIME ROCK,PAPER,SCISSORS)时,我很受启发,觉得我也可以制作类似的视频,当中的内容也成了我创作的灵感来源。同时,正好结合了当时《灌篮高手》电影即将上映的热点,我们利用DreamBooth训练出了“动漫版灌篮高手”的画风,使用Stable Diffusion创作这个作品。实际上,每个作品的创作出发点都是独特的。
AI动画《石头剪刀布》镜头
《AI三周做出<灌篮高手>?》
Q:那目前的创作中,又使用了什么新技术吗?
我们刚刚完成的一个项目正在使用最新版MetaHuman(虚幻引擎推出的超写实数字人),新版本带来的变化有点“逆天”。在我们最初进行项目周期估算时,我们预计需要较长的时间,因为我们计划继续使用那套专业的表情捕捉工具,也就是在《AI会取代我?》视频中使用的带头盔的工具。虽然那套工具非常准确,因为需要后期进行精修,效率并不高。
具体来说,我们需要使用一些表情来对齐它,以获得准确的表情效果。在人脸表情捕捉完成后,会出现一些线条在眼睛和嘴巴周围,它会根据这些线条智能生成相应的嘴型,但可能会产生一些偏差。为了纠正这些偏差,我们需要手动指示哪些是关键点。然后,它会通过人工智能感知你标记的关键点,并进行相应的修正。此外,目前这套表情捕捉解决方案需要在每次设置表情时进行校正,类似于使用动作捕捉技术一样。
而MetaHuman新版本的工具完全不同了。首先,传统表情捕捉需要头盔,但仍然并不适合大众使用。而虚幻引擎最新推出的5.2版本,仅需购买一台iPhone,就能进行相关操作,并且效率非常高。它可以在后期进行调整,但即使不进行调整,效果也很好。它涉及到一些相对专业的细节。例如,当我们说很多话时,实际上有一种发音方式,只是牙齿在动而嘴唇没有动。但是MetaHuman可以通过iPhone识别到这种微小的牙齿移动。当它刚刚推出时,我们就用对话进行测试。测试后发现,牙齿怎么可能如此微小地移动?所以我就觉得它这个很厉害。
MetaHuman使用图示
现在如果做数字人的话,动作捕捉方案也会调整。在我们的项目中,一开始我们使用了动作捕捉套装进行数据采集,但由于动捕套件采用惯性捕捉技术,这项技术会受到环境磁场等影响,导致越来越不准确。所以经常需要进行校正等操作。
然而,在我们进行这个项目时,一个名为Wonder Studio的应用在6月30日刚刚开放,我立即购买并使用了它,并感到震惊,因为它的效率太高了。首先,我们不需要穿特殊的服装,只需一台摄像机,就能实现一些较为复杂的动作捕捉。虽然有时会遇到一些遮挡的问题,因为只有一台摄像机,但我认为可以通过使用两台摄像机来解决这个问题。因此,我认为未来的趋势肯定是这样的,即面部表情捕捉一定会采用深度摄像头,而身体动作则依靠人工智能进行估算。
>Wonder Studio动作捕捉图示
人机协同方法论
Q:您的视频在每次创作中都采用了最新的技术,并将其整合到工作流程中,这样的过程必然会对原有的工作流程产生不小的影响。您是否有一些创作方法论来应对这种变化呢?
我这方面做得也不是很好。虽然我非常热爱创作和发布视频,但一旦涉及到新项目,我就会被时间限制所困扰,无法同时处理其他事务——至今我的账号还没有更新。通常我只能在项目压力下学习新技术,而一旦项目完成,学习也就告一段落了。但要吸取所有的知识,我觉得太难了。我们还必须兼顾团队成员的生活问题,除了依靠热情支撑创作,我们还需要做些商业项目来维持生计。
在整个创作流程中,新技术肯定不会完全占据项目的100%,通常只占约1/3,而剩下的2/3仍然依赖传统技术来完成。例如在《石头剪刀布》视频中,解决闪烁问题还是需要依靠传统的技术手段,也就是使用达芬奇(后期编辑软件DaVinci Resolve Studio)的DeFlicker“去闪烁”特效。
《石头剪刀布》使用后期编辑软件去闪烁
在决定是否使用新技术时,我们会进行测试。只有在测试成功的情况下,我们才会推进项目,而不是一见新技术就立即应用于项目中。即使某项技术经过测试被证明是稳定的,我们仍然需要考虑可能出现的各种问题。我们不能仅仅因为某些情况下的良好效果就认为技术在所有情况下都可靠。因此,我们坚持保留技术冗余,以防止意外情况的发生。
我们会在创作过程中,针对不同任务,提出多种技术方案,并选择更快、更稳定、更高效率的技术工具来实现目标。比如在我们最新发布的CG短片《flower》中,我们需要对骷髅头进行画面渲染,如果我们用传统的建模方式去做,做出来大概需要半天。如果我们使用AI,那就只需要1小时甚至10分钟就能搞定,此外,我们会采用视频动捕技术来进行动作捕捉,克服传统动捕的稳定性问题。以前的动作捕捉要么是“手k”(通过关键帧技术实现动画效果,而不是手绘),要么是传统的惯性动捕,但惯性动捕向来不太稳定,而光学动捕我们买不起。所以我们这次使用了视频动捕来完成所有的动作捕捉。通过综合应用最新技术和AI辅助创意工作流,灵活运用备份方案和视频动捕技术,可以在创作过程中实现更高效率和稳定性。
《flower》使用视频动捕技术
Q:根据你的技术流程,表情捕捉和动作捕捉是两个不同的系统,怎么能够保证脸部表情和动作的一个协同?
采用拍手打板的方式来实现同步。演员在开始捕捉时拍手,动作捕捉记录动作,表情捕捉录下声音这种卡点的方式类似于电影中的打板,原理相同。不过我认为未来会出现一些更先进的技术,如时码器,可以将Wonder Studio和iPhone等设备结合在一起,实现更高级的功能和协同工作,这样它就可以共同使用了。
Q:DeepFake和DreamBooth(谷歌推出的个性化文本到图像扩散模型,可通过微调几张图片,来生成带有训练图片内容的图像) 都是基于深度学习的生成模型,“拓星研究所”用前者生成小岛秀夫数字人,用后者生成《灌篮高手》画风的角色,从你们使用的角度看,这两者有什么区别吗?
DeepFake技术的方法是这样的:我会收集大量自己的照片,然后持续让电脑“学习”我的脸,这个过程大概需要5天5夜。一旦模型“学会”了,我就可以直接使用。我现在DeepFake用的比较少,没具体测试过它的算力需求。DeepFake技术里有一个叫DeepFaceLive的实时应用,如果训练好一个模型,可以实现实时替换。例如有一个汤姆·克鲁斯的模型,我可以把自己的脸换成他的,这样我和你对话时,就会变成汤姆·克鲁斯在跟你对话的效果。
欧洲的视觉特效艺术家Chris Ume使用AI换脸制作的汤姆克鲁斯
DreamBooth也需要投喂照片,它主要捕捉的是特征,这些特征可以通过prompt(即“提示”,指一段给定的文本或语句,用于启动和引导AI生成特定类型、主题或格式的输出)进行调整,但DeepFake技术却不行。两者的使用方式有区别。举个简单例子,如果我用DreamBooth训练,它可能很难捕捉到我的微表情细节。但是如果用DeepFake技术,它可以把我的各种表情学习得非常逼真。
从我们的使用经验来看,DeepFake对表演有一定帮助。如果我训练的是演技特别牛的演员模型,即使你本身表演不够出色,DeepFake也可能会帮你提高一些表演水平。为什么会这样呢?AI在学习演员模型时,会捕捉他各种细微的笑容。AI会判断按照该演员的风格,某种笑容应该是什么样子。如果把我的脸替换成那个演员,当我在笑的时候,AI会参考那个演员的笑法,来判断我笑时他应该是何种表情。这也取决于原始素材,如果原始素材是基努·里维斯(Keanu Reeves),他的笑可能只有两种模式,但我要模拟的金·凯瑞(Jim Carrey),他的笑可能有10多种变化。
Q:如何看待AIGC真人转制动画与传统动画,之后会怎样取舍呢?
动画的优势就是它可以很夸张地把一些画面表现出来。但AIGC真人转制很难做出动画的冲击力,我们可能只能复刻五六成的效果。所以,如果你的画面需要冲击力,那你就必须得做动画,而不是用真人去生成动画。《AI三周做出<灌篮高手>?》其实只能算是一个实验,探索技术的可能性,它并不是用真人拍摄替代动画制作的解决方案。
在制作《AI三周做出<灌篮高手>》项目时,我们面临了许多困难。首先,我们尝试将其还原为动画形式,但动画的逻辑跟真人拍摄不一样,无论你怎么去转换它,试图使其更像动画,仍然无法摆脱真人表演中的微妙动作。我个人觉得它无法取代动画的表现方式。其次,Stable Diffusion(一种AI绘画工具)是基于加噪点扩散(diffusion)原理,可能会因此磨掉一些细节。我原本想让镜头中的角色微笑,它无法稳定生成,只能通过微调来处理。手指的处理也是一个挑战,当时的技术还无法完全实现。还有,它可能更适合那种特别写实的画风,Corridor Crew的《石头剪刀布》最后也是选择特别写实的欧美风。
《石头剪刀布》画风与原始素材
未来展望
Q:据您的观察,目前自媒体行业对 AIGC 的使用情况怎么样?
国内自媒体行业在某些方面有点“卷”,相比之下YouTube情况可能会稍微好一些。例如在B站,你会发现他们的技术研究非常高端,但都集中在一个方向——虚拟女孩跳舞。他们会对这一领域进行深入研究,但很少去碰其他题材。他们的确研究出了一些结果,一些跳舞视频在B站非常火,但都是基于Lora训练写实风或者二次元的虚拟女孩。但是你很少看到训练男性虚拟模型的。
Q:如果您发现了一项新技术,特别是AIGC技术,从最初发现这项技术,到基于其生成创意,最后完成围绕这一技术的作品。通常会经历怎样的历程?
我一个人其实很难完整回答,因为我们的创作是团队合作的结果。我们的工作流程仍类似传统电影制作,从策划到最终完成作品。我弟弟主要负责文案和策划,他会提出创意点子。当点子不错时,我们会进行头脑风暴,把点子扩展成一个完整的方案。不仅仅是AIGC项目,我们其他项目也都是这样逐步完成的。其实很难把整个创作过程固化成一个公式或流程。
对于AIGC技术产生的创意,这建立在我对影视制作有一定了解的基础上。这可能也算我的一些职业习惯,例如当我看到某项AI功能时,就会思考它是否可以取代或增强某些传统制作流程。如果发现它大幅提高了效率,我就会考虑应用它进行制作。所以很多创意都是从技术出发,然后融入对行业的理解,通过团队创作变成有趣的视频内容。
还有一点,我们做项目会顺应热点和大众口味。比如高考期间,我们会拍高考相关的视频;春节来临,我们会制作新年主题的内容;当灌篮高手电影要上映,我们制作了《AI三周做出<灌篮高手>?》。自媒体内容的创作还是以迎合大众口味为主,从本质上看,还是服务型的工作,最终还是会回到一个商业收益的考量。就像我们开餐馆,要做出大众喜欢吃的菜式,而不是自己喜欢的。
Q:对于AI技术与影视制作融合,我们已经能在电影院看到DeepFake这类技术的应用。在DeepFake之后,还有哪些新技术会得到普遍的应用?
从视觉效果上,现在很多使用AI的影视制作结果,普通观众可能无法直接感知到具体用了哪些技术,这主要是一些“幕后”辅助工作的应用,比如抠像、ROTO等可以替代绿幕的技术,这类非常吃力不讨好的苦差事,如果用AI工具比如Runway来做,效率可以大幅提升。以前可能要花一整天才能把图像抠好,特别费人工的工作,现在有了AI的帮助,很快就可以把人抠出来。
Runway功能示意
AI可以提高效率,比如动作捕捉技术的应用就很大提升了创作效率。以前需要通过昂贵的光学系统,进入专门的摄影棚采集,还要后期精修,最后渲染合成,整个流程非常漫长,但现在像Wonder AI这种视频输入类动捕技术只需几十分钟就能生成成片的动画,很大程度上简化了流程。另外,镜头数据反推也是一个应用方向,可以快速根据镜头参数计算出三维空间信息。Wonder Studio就利用这一点,可以非常快速地从镜头数据生成虚拟场景。在渲染方面,我见过一种尝试,是把Metahuman虚拟人物模型通过UE(Unreal Engine,虚幻引擎)渲染,然后添加类似DeepFake或Stable Diffusion的滤镜,使其更逼真。这有点像我们之前尝试的《AI会取代我?》中的效果,这个方向未来会越来越成熟,渲染效果也会越来越真实。
嘉宾介绍
谢达威
B站UP主拓星研究所。在B站发布过《AI会取代我?》《过于离谱!如果把剧本交给AI编能拍出什么大片!》《三周制作<灌篮高手>?》《只有5天?!我们能用AI做出什么样的CG短片?》等AIGC视频。曾与iQOO、Intel、Nvidia合作创作AIGC作品。
供稿:中国科幻研究中心起航学者 张子瑞
青年储备人才 赵雅惠
本文为中国科幻研究中心“AIGC赋能科幻影视产业‘智造’研究”项目成果,旨在深入研究AIGC对于科幻影视创制方面的作用,欢迎持续关注后续内容!