欢迎您访问中国科普作家网!新会员注册个人会员登录

搜索

中国科普作家网 China Science Writers Association

中国科普作家网»新闻中心»作品专栏»打开AI生成视频的盲盒——专访AI创作先锋卡兹克

打开AI生成视频的盲盒——专访AI创作先锋卡兹克

中国科幻研究中心 张子瑞 2023-12-29 19:49

导语

AIGC(人工智能生成内容)的创作风潮正在全球范围内蔓延,为广大创作者实现科幻想象提供了新的动力。为了深入探讨AIGC在科幻创作领域的影响,笔者进行了一系列精彩的访谈。本期特邀的受访嘉宾是卡兹克。

卡兹克是AI领域的知名公众号“数字生命卡兹克”的主理人,因其使用AI制作《流浪地球3》的宣传片和AI生成的高考作文等创意作品,在业内引起了广泛关注。作为一位AIGC领域的资深实践者,卡兹克精通“文字生成图片”“文字生成视频”“声音替换”等AI技术的运用和创作技巧。他的公众号在短短10个月内推出了100多篇高质量原创文章,这充分展现了AIGC时代下个人创作潜力的巨大空间。在本次访谈中,笔者通过卡兹克的实践性思考和行业观察,得以一窥AIGC技术赋能个人创作者的无限可能性。

 

AI创作的奇幻漂流

Q:为何取名“数字生命卡兹克”,有什么寓意吗?您是从什么时候开始应用AI进行创作的?

这个名字融合了我的爱好和激情——“数字生命”和“卡兹克”。卡兹克源于我曾钟爱的游戏《英雄联盟》中的一个角色,此前在互联网公司工作时我就开始用这个名字。而取名“数字生命”是因为我是《流浪地球》的忠实粉丝。“数字生命卡兹克”公众号是2023年2月份创立的,2月26日发表了第一篇文章,尽管粉丝数量还未超过十万,但我对AI领域的深入探索和持续关注,吸引了一定的关注。

作为一名用户体验设计师,我曾在互联网公司负责设计工作,涉猎各种创意设计。现在我作为设计总监,在一家互联网基金平台创业。创作经历方面,以前我曾经做过一些片子,偶尔也会创作一些迎合个人喜好的作品。然而,创作过程往往是辛苦的。例如,仅仅为了一个四秒钟的3D建模视频镜头,我可能需要投入一周甚至半个月的时间。

2022年12月,随着ChatGPT和AI绘图的兴起,我发现这些工具极大地契合了我的需求,特别是对于像我这样追求效率的“懒人”来说。我将探索这些新工具的过程视作一种游戏,不断寻找新的技巧来提高效率,就像玩游戏一样。我沉迷于探索各种模态和工具,正是这种游戏化的心态,让我在AIGC应用和创新的道路上越走越远。


图1:AI 共创《流浪地球3》“预告片”
(由受访者提供)

Q:您创作的《流浪地球3》预告片,引起了热议与关注,在“5个晚上”的背后,具体有哪些经历?《流浪地球》剧组有何反馈?

大家开始知道我可能是因为AI共创《流浪地球3》“预告片”这个项目,那是于2023年8月发起的项目,那时的许多挑战在现在看来已不再是问题。我花了5个晚上的时间,努力克服各种困难,特别是在“抽卡”环节——这是一个随机生成内容的过程。我曾尝试撰写类似分镜的脚本,这是我对《流浪地球3》剧情的一种创意再现,结合了原作内容和我想象的元素。我甚至尝试重现了原作中著名的大冰雕场景。然而,当我开始使用AI工具,如使用midjourney(AI绘图工具)进行图像生成,以及在runway(AI绘图工具)上进行最后的“抽卡”步骤时,我意识到AI并不总是完全按照我的意愿行动。值得一提的是,我后来用AI做《三体》“预告片”,其实很多方面都比《流浪地球3》“预告片”项目更具挑战性,难度更大。但因为各个AI工具都在更新,可控性有一些提升,AI对语义画质的理解水平也有一定提高,所以制作起来反而更轻松。


图2:郭帆导演与卡兹克的合照

因为这个片子,我接触到《流浪地球》剧组。事实上,他们自己也完全有能力做出类似的作品,而且在审美和内容连接上可能做得更好。我的作品在国内引起了一些关注,这促使我有机会与影视行业专业人士接触,分享我的经验和对AI技术的理解。这次交流更多是让影视从业者从各个渠道收集信息、了解不同的影视创作视角,而不仅仅是关注我的作品本身。

在2023年8至9月期间,我也跟其他的一些影视从业者进行了一些交流,可以感觉到大家都带着一种焦虑的心态,似乎还未完全确定AI技术能在多大程度上帮助影视行业降低成本、提高效率,甚至是否有可能彻底颠覆整个行业。AI技术究竟是仅仅作为辅助工具,还是能成为改变行业游戏规则的关键因素,那时候大家都还在探索中。

在最近两个月(2023年11月至12月),我发现大家的焦虑似乎减轻了很多。很多影视从业者开始将AI视为一项实用的工具,一个可以被整合进影视制作流程,用以提高效率和降低成本的工具。举个例子,影视行业可以先利用AI软件进行初步剪辑,然后在此基础上进行更精细的编辑。以后Al技术可能会有非常多类似的优化,以此促进创作效率的提升。

Q:您在公众号上分享过很多AI作品(包括“预告片”系列、“名人再现”系列等),请分享下创作方法论。在创作题材上,AI是否会对某些题材更有帮助?

在创作方法论方面,我并没有固定的框架,因为我的核心身份是自媒体,而非传统意义上的创作者。我的目标是制作出能够广泛传播的内容,因此我倾向于选择与热点相关的主题。同时,考虑到成本效益,我会避免投入过多资源做类似“耗时3年拍摄1部电影”那样的大型项目,而是选择成本较低、易于传播的方式。

这就解释了为什么我会选择用AI制作“电影预告片”和“名人再现”相关的作品。这些内容对剧本和镜头的技术要求不高,适合我的技能范围。如果我尝试制作一部短片,我的电影编剧技能可能不足以应对挑战。而预告片的制作,尤其是结合名人效应,可以迅速吸引关注。利用照片驱动(用语音+照片,让照片开口说话)的技术和“文本转换语音”技术,我能够在四到六小时内完成一个视频,增加了作品被传播的可能性。


图3:名人再现系列作品

至于题材选择,我倾向于避免写实或实拍类型,如爱情片或纪录片。因为在这些领域,AI的作用可能不如实际拍摄。而对于特效密集型的电影,例如科幻电影的几乎所有场景都需要进行概念设计,所以这类电影的制作流程更像大型流水线作业,里面有非常多的工序。在这种情况下,AI可以在某些环节提供降本增效的优势,例如在分镜、色彩调整或概念设计方面提供辅助。在动态预演方面,我也可以利用AI快速制作几个镜头调度,以探索成本效益。

Q:在您的AI创作过程中,遇到哪些共性问题?

当前的AI技术普遍存在一个问题:随机性过强。这在制作精度和可靠性要求极高的作品时尤为明显。我通常将视频制作分为三个层次:最基本的是广告类内容,其次是动画,最高级别则是电影制作。这三个层次对质量的要求是逐步提高的。在电影制作中,如果随机性太强,很难达到所需的精确度,甚至可能出现一些畸变。在广告领域,这种随机性可能还能够得到一些应用,但在整体上,目前AI的最大问题是可控性不足。

比如我使用pika1.0(AI视频生成工具)做了一个特别的镜头,场景是一个小女孩在烟花下祈福。我需要的是一种运镜效果,镜头从低处缓缓上升,捕捉到烟花在空中绽放的瞬间。为了达到这一效果,我制作了超过100段短视频,最终勉强完成了一个持续11秒的可用镜头。pika每次只能生成4秒钟,生成好第一段4秒后,得继续再加4秒,每次加时,制作难度都在增加,呈指数级增长。尽管如此,经过半小时多的不懈努力,我最终还是生成出了这个镜头。但如果要自己从头开始制作这样的镜头,难度是相当大的。


图4-1:话题谈到的镜头


图4-2:失败镜头


图4-3:受访者用pika软件制作的成片

 

前沿AI技术体验

Q:你现在有没有碰到过新技术解决老问题的情况?现在在创作过程中最常用的工具有哪些?这其中有哪些AI应用固化下来?

在探索AI视频领域时,我发现新技术能够有效解决许多长期存在的问题。回想起我最初制作视频时,控制物体运动和构图是一个挑战。比如,在编辑过程中,我可以在某种程度上控制构图,但有时候视频中的某些动态效果可能并不符合我的预期。我有时想要修改这些动态,或添加更有趣的元素,但这在传统工具中很难实现。然而,pika推出的一款名为“视频扩展”的工具彻底改变了这一局面。现在,我可以调整视频的比例,缩小原有画面或将其移至右侧来进行扩展。这大大增强了我在构图上的控制力。此外,pika的区域修改功能允许我对视频中的不理想动态进行调整,解决了我之前无法解决的问题。现在,我至少有了更多的选择来改进作品。总的来说,这些新技术为我解决了过去的许多痛点。

常用工具方面,说实话,尽管市面上出现了许多新工具,但在我看来,真正的“大哥”还是那几个,它们的迭代速度更快。从2023年8月份至今,我的工作流程基本没有太大变化——在AI绘图方面,我依然使用Midjourney和Stable Diffusion(AI绘画工具),但最近加入了DALL·E3(OpenAI出品的绘图工具),因为它在语义理解方面实在是太出色了,我有时会用它做一些底图。至于声音处理,我使用SVC和eleven labs的TTS(均为AI语音合成工具),这两个工具已经成为我的标准配置。偶尔我也会尝试使用国内的“出门问问”中的“魔音工坊”。在照片驱动的AI工具方面,我主要使用“奇妙元”。创作AI视频时主要使用PIKA和runway。还是这些工具,但他们自己迭代速度会更快。


图5:上述工具组图

Q:近期“文字生成视频”非常火热,请谈谈对这个技术的理解。与此前“文字生成图片”等技术相比,有何发展?目前这项技术的局限和发展出路又在何方?还有哪些可能的技术路径吗?

实际上,“文字生成视频”和“文字生成图片”在本质上并没有太大区别。如果大家体验过runway就会发现,“文字生成图片”实际上是“文字生成视频”制作过程中的一个阶段,它的流程是这样的:首先生成四张图像,然后基于选定的图像,再去生成视频。我通常会先用一段文字来生成这个四秒视频的第一帧,然后以这一帧为起点,向后推进,预测每一秒视频的画面,但可控性很差。

现在Stable Diffusion凭借其众多插件,以及midjourney不断更新的新功能,已经显著增强了其在AI绘图领域的可控性。但是,在AI视频方面,如“文字生成视频”,我们之前基本上不太使用。这是因为“文字生成视频”的核心依旧是“文字生成图片”,而“文字生成图片”的质量通常不尽人意。现在热门的pika软件,其实是把中间“文字生成图片”的质量做得好了一些,与其起始帧的融合度更高,使得整体效果更加协调。我觉得,未来如果AI视频公司想要在“文字生成视频”这个领域取得成功,首先需要提升“文字生成图片”的质量,这是吸引观众的关键。

视频生成的发展路径,按照目前所采用的扩散技术很难解决。现在我注意到有两条路:

第一条路,利用物理引擎来辅助。runway最近发布了一项公告,他们计划招募人员来开发一个“世界模型”。这个模型旨在解决现有技术的局限性,因为目前的技术主要是从第一帧向后扩散,而没有考虑背后的物理规律。例如,一个水杯从空中掉落到地上时会破碎,但现有的技术并不了解这些物理规律,包括光影变化等。所以他们实际上缺少一个物理引擎或者是“世界模型”来告诉他们这些规律。我知道斯坦福有一个团队也在研究这个问题,但是他们已经研究了快一年,实际上还没有什么成果。这是一条可能的道路,如果能够解决这个问题,效果可能会非常好。


图6:runway公告(图片来自runway官网)

第二条路,商汤科技目前正在探索的方法——Story-to-Motion。他们的方法是,当用户上传一张图片时,不是先进行扩散预测,而是先将人物和场景分离,然后分别对它们进行建模。例如,他们可以从一张照片中提取人物模型,然后在后台有无数预设的动作。最长的一个镜头,可以展示一个人从门里走进来,拿起一个杯子,然后坐在沙发上,持续二三十秒。或者一个人在街上走,走进一个花园,然后开心地转圈跳舞。这种方法的一致性非常强,可以创造较长时间的镜头。不过,他们目前只有一个内部原型,要从技术原型发展成为真正的产品,供他人使用,中间可能还有无数的挑战要克服。目前这些就是我所知道的两种可能解决这个问题的方法。


图7 商汤科技Story-to-Motion模型论文

Q:说到三维生成技术,我注意到公众号上基本上没有发过这方面的文章,为什么呢?

因为目前3D方面的成果实在是不尽人意。我写文章虽然是为了创造一些引人注目的内容,以吸引人们的关注和传播,但我还是有自己的标准。我不会介绍那些质量不佳或用户体验差的产品或案例。我其实一直在关注3D生成领域,包括luma ai(AI三维生成工具)的技术,它可以让用户用手机环绕拍摄一圈就能创造出相当不错的三维效果。但这些技术的精度仍然有限,而且成本相对较高。用户需要一个实体物体作为参照,而不是能够进行虚拟建模。就前两天,我看某视频号介绍了3D生成新技术,看着很不错,但自己上手试用,发现有很多“残缺的部分”,“纹理贴图”问题就更不用说了。就连模型本身都有问题,你怎么用呢?不过现在AI绘图领域其实已经没有太多创新空间,未来焦点都在3D生成和视频生成技术上,很可能很快就会有相关的新技术出现。


图8-1:因AI 3D最新进展,在本文发稿前,受访人发布3D研究文章


图8-2 AI 3D测评内容

 

AI赋能个人成长

Q:除了AI艺术创作,还用AI做过哪些有趣的尝试?

实际上,在我看来,AI目前在很多领域的实际应用并不多。它主要被用于内容创作和商业产品开发方面。在其他领域,使用AI的机会相对较少,因为它的现有机制限制了它的应用范围,使其无法融入广泛的娱乐行业或用于更有趣的活动。

除了艺术创作之外,我个人也尝试将AI用于一些有趣的项目。比如,在高考期间,我用AI在五分钟内写了一篇高考作文,这是我人生中第一次尝试用AI写超过一万字的文章,这篇文章因为其文言文风格与科技话题的结合而引起了不少关注。



图9:用ChatGPT写高考作文

另外一个例子是,在我工作的金融公司,我们开发了一个基于AI的工具,帮助基金公司的营销人员降低成本和提高效率。例如,当股市出现大跌时,他们需要快速撰写分析报告以安抚客户。以前这可能需要花费大量时间来复盘当天的市场动态,但现在通过AI,这一过程可以在一分钟内完成。这不仅是一个有趣的尝试,也显著提高了工作效率。以前可能需要一个小时完成的任务,现在可以在一两分钟内完成,大致就是这样。

Q:作为与AI协同的资深玩家,您认为人类创作的优势在哪里?

我始终认为人类在创意方面具有独特的优势。这种创意源于人类独特的思维方式和讲故事的能力,这些能力从智人时代延续至今,一直是维系社会的关键。我们通常称之为创意。虽然之前我也曾赞扬AI的创意能力,认为它在某些方面超越了人类的边界,但经过长期使用和观察,我的观点有所变化。例如,AI能够编写出“今晚我吃了一个桌子和一个凳子”这样超乎寻常的句子。但这真的算是创意吗?它更像是一种偏离人类常识的表达。虽然AI在医药领域,如帮助开发靶向药物等方面表现出色,但在文学创作上,它真的能超越人类吗?我现在认为并非如此。AI可以用来写剧本、绘图、制作视频,但在创意方面仍有局限。即便我用AI写了许多剧本和标题,它们的创意逻辑似乎都相当简单,只是基于现有数据集的排列组合。

人类的创意往往是基于经验和常识,将完全不相关的元素融合成新事物。而AI目前只是在现有基础上进行排列组合,并未实现真正的创新升华。在未来一两年内,我认为人类在这方面仍然占优势,我只能说这一两年。

当模型参数变得更大,或者像OpenAI这样的公司放松道德和场景的束缚时,情况可能会有所改变。很多公司现在为了解决幻觉问题,对AI模型进行了严格的对齐,限制它只能表达知识库中已有的内容。但人类的创意往往源于胡编乱造。如果有公司能够在底层算法上取得突破,同时放宽对AI的限制,那么AGI(通用人工智能)时代的到来就不再是遥不可及的梦想了。


图10:AI生成创意图片“今晚我吃了一个桌子和凳子”(DALL·E3生成)

Q:对于那些刚刚开始接触AIGC的新手,有哪些具体的建议或经验可以分享?

我认为AI本质上不是一个独立的行业,它更像是一种工具。就像电脑或互联网,并不能被视为一个明确的行业一样。仅仅掌握了AI工具,就好比学会了使用锤子或敲击键盘,但这并不意味着你就能写出好文章或创作出优秀的音乐。AI作为一种工具,至今仍然只是一个工具。要想充分利用这一工具,关键在于个人底层知识的积累。只有这样,你才能将工具作为效率提升的放大器。

我发现很多人对AI持有较大的偏见,认为它是一个非黑即白的存在。他们可能以为没有任何知识积累,就能仅凭AI制作一部电影,这是我目前看到的大多数人的想法,但这是一种误解。AI的发展其实是一个逐渐演进的过程,可能需要十年时间才能达到某些人所期待的程度。在这个过程中,更重要的是原始知识的积累。拥有AI并不意味着我们可以放弃传统的学习,相反,我们需要更加努力地学习,以更有效地利用AI。

受访者简介


卡兹克

卡兹克,原名张仁杰。互联网基金行业设计总监、AI业务总监,ChatFund负责人。公众号“数字生命卡兹克”主理人,与AI共创的《流浪地球3》“预告片”获全网千万播放量。

本文为中国科幻研究中心“AIGC赋能科幻影视产业‘智造’研究”项目成果,旨在深入研究AIGC对于科幻影视创制方面的作用,欢迎持续关注后续内容!

特别声明:本文仅代表作者观点,不代表中国科普作家协会的立场及观点。中国科普作家协会官方网站仅提供信息发布平台。

返回顶部
文章投稿
协会微信
协会微信

手机扫一扫,分享好文章