打开AI生成视频的盲盒——专访AI创作先锋卡兹克

中国科幻研究中心 张子瑞 2023-12-29 19:49

导语

AIGC（人工智能生成内容）的创作风潮正在全球范围内蔓延，为广大创作者实现科幻想象提供了新的动力。为了深入探讨AIGC在科幻创作领域的影响，笔者进行了一系列精彩的访谈。本期特邀的受访嘉宾是卡兹克。

卡兹克是AI领域的知名公众号“数字生命卡兹克”的主理人，因其使用AI制作《流浪地球3》的宣传片和AI生成的高考作文等创意作品，在业内引起了广泛关注。作为一位AIGC领域的资深实践者，卡兹克精通“文字生成图片”“文字生成视频”“声音替换”等AI技术的运用和创作技巧。他的公众号在短短10个月内推出了100多篇高质量原创文章，这充分展现了AIGC时代下个人创作潜力的巨大空间。在本次访谈中，笔者通过卡兹克的实践性思考和行业观察，得以一窥AIGC技术赋能个人创作者的无限可能性。

AI创作的奇幻漂流

Q：为何取名“数字生命卡兹克”，有什么寓意吗？您是从什么时候开始应用AI进行创作的？

这个名字融合了我的爱好和激情——“数字生命”和“卡兹克”。卡兹克源于我曾钟爱的游戏《英雄联盟》中的一个角色，此前在互联网公司工作时我就开始用这个名字。而取名“数字生命”是因为我是《流浪地球》的忠实粉丝。“数字生命卡兹克”公众号是2023年2月份创立的，2月26日发表了第一篇文章，尽管粉丝数量还未超过十万，但我对AI领域的深入探索和持续关注，吸引了一定的关注。

作为一名用户体验设计师，我曾在互联网公司负责设计工作，涉猎各种创意设计。现在我作为设计总监，在一家互联网基金平台创业。创作经历方面，以前我曾经做过一些片子，偶尔也会创作一些迎合个人喜好的作品。然而，创作过程往往是辛苦的。例如，仅仅为了一个四秒钟的3D建模视频镜头，我可能需要投入一周甚至半个月的时间。

2022年12月，随着ChatGPT和AI绘图的兴起，我发现这些工具极大地契合了我的需求，特别是对于像我这样追求效率的“懒人”来说。我将探索这些新工具的过程视作一种游戏，不断寻找新的技巧来提高效率，就像玩游戏一样。我沉迷于探索各种模态和工具，正是这种游戏化的心态，让我在AIGC应用和创新的道路上越走越远。

图1：AI 共创《流浪地球3》“预告片”
（由受访者提供）

Q：您创作的《流浪地球3》预告片，引起了热议与关注，在“5个晚上”的背后，具体有哪些经历？《流浪地球》剧组有何反馈？

大家开始知道我可能是因为AI共创《流浪地球3》“预告片”这个项目，那是于2023年8月发起的项目，那时的许多挑战在现在看来已不再是问题。我花了5个晚上的时间，努力克服各种困难，特别是在“抽卡”环节——这是一个随机生成内容的过程。我曾尝试撰写类似分镜的脚本，这是我对《流浪地球3》剧情的一种创意再现，结合了原作内容和我想象的元素。我甚至尝试重现了原作中著名的大冰雕场景。然而，当我开始使用AI工具，如使用midjourney（AI绘图工具）进行图像生成，以及在runway（AI绘图工具）上进行最后的“抽卡”步骤时，我意识到AI并不总是完全按照我的意愿行动。值得一提的是，我后来用AI做《三体》“预告片”，其实很多方面都比《流浪地球3》“预告片”项目更具挑战性，难度更大。但因为各个AI工具都在更新，可控性有一些提升，AI对语义画质的理解水平也有一定提高，所以制作起来反而更轻松。

图2：郭帆导演与卡兹克的合照

因为这个片子，我接触到《流浪地球》剧组。事实上，他们自己也完全有能力做出类似的作品，而且在审美和内容连接上可能做得更好。我的作品在国内引起了一些关注，这促使我有机会与影视行业专业人士接触，分享我的经验和对AI技术的理解。这次交流更多是让影视从业者从各个渠道收集信息、了解不同的影视创作视角，而不仅仅是关注我的作品本身。

在2023年8至9月期间，我也跟其他的一些影视从业者进行了一些交流，可以感觉到大家都带着一种焦虑的心态，似乎还未完全确定AI技术能在多大程度上帮助影视行业降低成本、提高效率，甚至是否有可能彻底颠覆整个行业。AI技术究竟是仅仅作为辅助工具，还是能成为改变行业游戏规则的关键因素，那时候大家都还在探索中。

在最近两个月（2023年11月至12月），我发现大家的焦虑似乎减轻了很多。很多影视从业者开始将AI视为一项实用的工具，一个可以被整合进影视制作流程，用以提高效率和降低成本的工具。举个例子，影视行业可以先利用AI软件进行初步剪辑，然后在此基础上进行更精细的编辑。以后Al技术可能会有非常多类似的优化，以此促进创作效率的提升。

Q：您在公众号上分享过很多AI作品（包括“预告片”系列、“名人再现”系列等），请分享下创作方法论。在创作题材上，AI是否会对某些题材更有帮助？

在创作方法论方面，我并没有固定的框架，因为我的核心身份是自媒体，而非传统意义上的创作者。我的目标是制作出能够广泛传播的内容，因此我倾向于选择与热点相关的主题。同时，考虑到成本效益，我会避免投入过多资源做类似“耗时3年拍摄1部电影”那样的大型项目，而是选择成本较低、易于传播的方式。

这就解释了为什么我会选择用AI制作“电影预告片”和“名人再现”相关的作品。这些内容对剧本和镜头的技术要求不高，适合我的技能范围。如果我尝试制作一部短片，我的电影编剧技能可能不足以应对挑战。而预告片的制作，尤其是结合名人效应，可以迅速吸引关注。利用照片驱动（用语音+照片，让照片开口说话）的技术和“文本转换语音”技术，我能够在四到六小时内完成一个视频，增加了作品被传播的可能性。

图3：名人再现系列作品

至于题材选择，我倾向于避免写实或实拍类型，如爱情片或纪录片。因为在这些领域，AI的作用可能不如实际拍摄。而对于特效密集型的电影，例如科幻电影的几乎所有场景都需要进行概念设计，所以这类电影的制作流程更像大型流水线作业，里面有非常多的工序。在这种情况下，AI可以在某些环节提供降本增效的优势，例如在分镜、色彩调整或概念设计方面提供辅助。在动态预演方面，我也可以利用AI快速制作几个镜头调度，以探索成本效益。

Q：在您的AI创作过程中，遇到哪些共性问题？

当前的AI技术普遍存在一个问题：随机性过强。这在制作精度和可靠性要求极高的作品时尤为明显。我通常将视频制作分为三个层次：最基本的是广告类内容，其次是动画，最高级别则是电影制作。这三个层次对质量的要求是逐步提高的。在电影制作中，如果随机性太强，很难达到所需的精确度，甚至可能出现一些畸变。在广告领域，这种随机性可能还能够得到一些应用，但在整体上，目前AI的最大问题是可控性不足。

比如我使用pika1.0（AI视频生成工具）做了一个特别的镜头，场景是一个小女孩在烟花下祈福。我需要的是一种运镜效果，镜头从低处缓缓上升，捕捉到烟花在空中绽放的瞬间。为了达到这一效果，我制作了超过100段短视频，最终勉强完成了一个持续11秒的可用镜头。pika每次只能生成4秒钟，生成好第一段4秒后，得继续再加4秒，每次加时，制作难度都在增加，呈指数级增长。尽管如此，经过半小时多的不懈努力，我最终还是生成出了这个镜头。但如果要自己从头开始制作这样的镜头，难度是相当大的。

图4-1：话题谈到的镜头

图4-2：失败镜头

图4-3：受访者用pika软件制作的成片

前沿AI技术体验

Q：你现在有没有碰到过新技术解决老问题的情况？现在在创作过程中最常用的工具有哪些？这其中有哪些AI应用固化下来？

在探索AI视频领域时，我发现新技术能够有效解决许多长期存在的问题。回想起我最初制作视频时，控制物体运动和构图是一个挑战。比如，在编辑过程中，我可以在某种程度上控制构图，但有时候视频中的某些动态效果可能并不符合我的预期。我有时想要修改这些动态，或添加更有趣的元素，但这在传统工具中很难实现。然而，pika推出的一款名为“视频扩展”的工具彻底改变了这一局面。现在，我可以调整视频的比例，缩小原有画面或将其移至右侧来进行扩展。这大大增强了我在构图上的控制力。此外，pika的区域修改功能允许我对视频中的不理想动态进行调整，解决了我之前无法解决的问题。现在，我至少有了更多的选择来改进作品。总的来说，这些新技术为我解决了过去的许多痛点。

常用工具方面，说实话，尽管市面上出现了许多新工具，但在我看来，真正的“大哥”还是那几个，它们的迭代速度更快。从2023年8月份至今，我的工作流程基本没有太大变化——在AI绘图方面，我依然使用Midjourney和Stable Diffusion（AI绘画工具），但最近加入了DALL·E3（OpenAI出品的绘图工具），因为它在语义理解方面实在是太出色了，我有时会用它做一些底图。至于声音处理，我使用SVC和eleven labs的TTS（均为AI语音合成工具），这两个工具已经成为我的标准配置。偶尔我也会尝试使用国内的“出门问问”中的“魔音工坊”。在照片驱动的AI工具方面，我主要使用“奇妙元”。创作AI视频时主要使用PIKA和runway。还是这些工具，但他们自己迭代速度会更快。

图5：上述工具组图

Q：近期“文字生成视频”非常火热，请谈谈对这个技术的理解。与此前“文字生成图片”等技术相比，有何发展？目前这项技术的局限和发展出路又在何方？还有哪些可能的技术路径吗？

实际上，“文字生成视频”和“文字生成图片”在本质上并没有太大区别。如果大家体验过runway就会发现，“文字生成图片”实际上是“文字生成视频”制作过程中的一个阶段，它的流程是这样的：首先生成四张图像，然后基于选定的图像，再去生成视频。我通常会先用一段文字来生成这个四秒视频的第一帧，然后以这一帧为起点，向后推进，预测每一秒视频的画面，但可控性很差。

现在Stable Diffusion凭借其众多插件，以及midjourney不断更新的新功能，已经显著增强了其在AI绘图领域的可控性。但是，在AI视频方面，如“文字生成视频”，我们之前基本上不太使用。这是因为“文字生成视频”的核心依旧是“文字生成图片”，而“文字生成图片”的质量通常不尽人意。现在热门的pika软件，其实是把中间“文字生成图片”的质量做得好了一些，与其起始帧的融合度更高，使得整体效果更加协调。我觉得，未来如果AI视频公司想要在“文字生成视频”这个领域取得成功，首先需要提升“文字生成图片”的质量，这是吸引观众的关键。

视频生成的发展路径，按照目前所采用的扩散技术很难解决。现在我注意到有两条路：

第一条路，利用物理引擎来辅助。runway最近发布了一项公告，他们计划招募人员来开发一个“世界模型”。这个模型旨在解决现有技术的局限性，因为目前的技术主要是从第一帧向后扩散，而没有考虑背后的物理规律。例如，一个水杯从空中掉落到地上时会破碎，但现有的技术并不了解这些物理规律，包括光影变化等。所以他们实际上缺少一个物理引擎或者是“世界模型”来告诉他们这些规律。我知道斯坦福有一个团队也在研究这个问题，但是他们已经研究了快一年，实际上还没有什么成果。这是一条可能的道路，如果能够解决这个问题，效果可能会非常好。

图6：runway公告（图片来自runway官网）

第二条路，商汤科技目前正在探索的方法——Story-to-Motion。他们的方法是，当用户上传一张图片时，不是先进行扩散预测，而是先将人物和场景分离，然后分别对它们进行建模。例如，他们可以从一张照片中提取人物模型，然后在后台有无数预设的动作。最长的一个镜头，可以展示一个人从门里走进来，拿起一个杯子，然后坐在沙发上，持续二三十秒。或者一个人在街上走，走进一个花园，然后开心地转圈跳舞。这种方法的一致性非常强，可以创造较长时间的镜头。不过，他们目前只有一个内部原型，要从技术原型发展成为真正的产品，供他人使用，中间可能还有无数的挑战要克服。目前这些就是我所知道的两种可能解决这个问题的方法。

图7 商汤科技Story-to-Motion模型论文

Q：说到三维生成技术，我注意到公众号上基本上没有发过这方面的文章，为什么呢？

因为目前3D方面的成果实在是不尽人意。我写文章虽然是为了创造一些引人注目的内容，以吸引人们的关注和传播，但我还是有自己的标准。我不会介绍那些质量不佳或用户体验差的产品或案例。我其实一直在关注3D生成领域，包括luma ai（AI三维生成工具）的技术，它可以让用户用手机环绕拍摄一圈就能创造出相当不错的三维效果。但这些技术的精度仍然有限，而且成本相对较高。用户需要一个实体物体作为参照，而不是能够进行虚拟建模。就前两天，我看某视频号介绍了3D生成新技术，看着很不错，但自己上手试用，发现有很多“残缺的部分”，“纹理贴图”问题就更不用说了。就连模型本身都有问题，你怎么用呢？不过现在AI绘图领域其实已经没有太多创新空间，未来焦点都在3D生成和视频生成技术上，很可能很快就会有相关的新技术出现。

图8-1：因AI 3D最新进展，在本文发稿前，受访人发布3D研究文章

图8-2 AI 3D测评内容

AI赋能个人成长

Q：除了AI艺术创作，还用AI做过哪些有趣的尝试？

实际上，在我看来，AI目前在很多领域的实际应用并不多。它主要被用于内容创作和商业产品开发方面。在其他领域，使用AI的机会相对较少，因为它的现有机制限制了它的应用范围，使其无法融入广泛的娱乐行业或用于更有趣的活动。

除了艺术创作之外，我个人也尝试将AI用于一些有趣的项目。比如，在高考期间，我用AI在五分钟内写了一篇高考作文，这是我人生中第一次尝试用AI写超过一万字的文章，这篇文章因为其文言文风格与科技话题的结合而引起了不少关注。

图9：用ChatGPT写高考作文

另外一个例子是，在我工作的金融公司，我们开发了一个基于AI的工具，帮助基金公司的营销人员降低成本和提高效率。例如，当股市出现大跌时，他们需要快速撰写分析报告以安抚客户。以前这可能需要花费大量时间来复盘当天的市场动态，但现在通过AI，这一过程可以在一分钟内完成。这不仅是一个有趣的尝试，也显著提高了工作效率。以前可能需要一个小时完成的任务，现在可以在一两分钟内完成，大致就是这样。

Q：作为与AI协同的资深玩家，您认为人类创作的优势在哪里？

我始终认为人类在创意方面具有独特的优势。这种创意源于人类独特的思维方式和讲故事的能力，这些能力从智人时代延续至今，一直是维系社会的关键。我们通常称之为创意。虽然之前我也曾赞扬AI的创意能力，认为它在某些方面超越了人类的边界，但经过长期使用和观察，我的观点有所变化。例如，AI能够编写出“今晚我吃了一个桌子和一个凳子”这样超乎寻常的句子。但这真的算是创意吗？它更像是一种偏离人类常识的表达。虽然AI在医药领域，如帮助开发靶向药物等方面表现出色，但在文学创作上，它真的能超越人类吗？我现在认为并非如此。AI可以用来写剧本、绘图、制作视频，但在创意方面仍有局限。即便我用AI写了许多剧本和标题，它们的创意逻辑似乎都相当简单，只是基于现有数据集的排列组合。

人类的创意往往是基于经验和常识，将完全不相关的元素融合成新事物。而AI目前只是在现有基础上进行排列组合，并未实现真正的创新升华。在未来一两年内，我认为人类在这方面仍然占优势，我只能说这一两年。

当模型参数变得更大，或者像OpenAI这样的公司放松道德和场景的束缚时，情况可能会有所改变。很多公司现在为了解决幻觉问题，对AI模型进行了严格的对齐，限制它只能表达知识库中已有的内容。但人类的创意往往源于胡编乱造。如果有公司能够在底层算法上取得突破，同时放宽对AI的限制，那么AGI（通用人工智能）时代的到来就不再是遥不可及的梦想了。

图10：AI生成创意图片“今晚我吃了一个桌子和凳子”（DALL·E3生成）

Q：对于那些刚刚开始接触AIGC的新手，有哪些具体的建议或经验可以分享？

我认为AI本质上不是一个独立的行业，它更像是一种工具。就像电脑或互联网，并不能被视为一个明确的行业一样。仅仅掌握了AI工具，就好比学会了使用锤子或敲击键盘，但这并不意味着你就能写出好文章或创作出优秀的音乐。AI作为一种工具，至今仍然只是一个工具。要想充分利用这一工具，关键在于个人底层知识的积累。只有这样，你才能将工具作为效率提升的放大器。

我发现很多人对AI持有较大的偏见，认为它是一个非黑即白的存在。他们可能以为没有任何知识积累，就能仅凭AI制作一部电影，这是我目前看到的大多数人的想法，但这是一种误解。AI的发展其实是一个逐渐演进的过程，可能需要十年时间才能达到某些人所期待的程度。在这个过程中，更重要的是原始知识的积累。拥有AI并不意味着我们可以放弃传统的学习，相反，我们需要更加努力地学习，以更有效地利用AI。

受访者简介

卡兹克

卡兹克，原名张仁杰。互联网基金行业设计总监、AI业务总监，ChatFund负责人。公众号“数字生命卡兹克”主理人，与AI共创的《流浪地球3》“预告片”获全网千万播放量。

本文为中国科幻研究中心“AIGC赋能科幻影视产业‘智造’研究”项目成果，旨在深入研究AIGC对于科幻影视创制方面的作用，欢迎持续关注后续内容！

搜索

中国科普作家网 China Science Writers Association

新闻中心

打开AI生成视频的盲盒——专访AI创作先锋卡兹克

关于协会

新闻中心

品牌活动

协会出版物

协会官方微信