AIGC的新机遇在哪里？——专访创新工场CTO王咏刚

中国科普作家协会 消息 2023-08-21 21:30

导语

AIGC（人工智能生成内容）的创作风潮正在全球范围内蔓延，为广大创作者实现科幻想象提供了新的动力。为了深入探讨AIGC在科幻创作领域的影响，我们进行了一系列精彩的访谈。本期特邀创新工场CTO王咏刚。

王咏刚为创新工场人工智能工程院执行院长、人工智能研究专家，曾与科幻作家陈楸帆合作推出一系列AI写作科幻项目，引起各界广泛关注。作为技术和商业之间的造桥人，他曾参与投资和孵化诸多耳熟能详的AI企业。目前正在推动的多模态人工智能研发，或将带来“后GPT”时代的新局。在本次访谈中，我们通过王咏刚的前沿思考与深刻洞察，得以窥见AIGC的未来。

01AI科幻写作与GPT

Q：您和科幻作家陈楸帆共同开创过多个有趣且前沿的项目，这些成果在科幻创作乃至人工智能发展史中均有着里程碑的意义。此次我们希望从您的视角来回看这些项目，从当下来说，有何优点和不足？

我与陈楸帆的合作是基于我们都喜欢科幻，他是科幻作家，而我投身AI工程研发多年时间，我的专业与自然语言处理相关，所以我了解自然语言处理领域中人工智能当时最顶尖的发展状态。2018年左右，我们就隐隐感受到一种苗头，觉得AI正在变成科幻所预言的形态。

我们特别关心的是，在AI从科幻变为现实的过程中，人和技术的关系是什么？其实科幻本身不是简单的预言，也不是对未来的崇拜，更不是迷信。我与陈楸帆可能都会认为，科幻本身最大的作用，是把人放在科技发展的历史进程中考察人与科技的关系，这是最值得探究的。

所以从我们用AI创作小说开始，再到后来邀请十几位作家一同创作（《共生纪》项目），其实是一脉相承的思路。从小规模的实验逐渐扩大规模，再到几乎与GPT的发展完全同步，蛮有意思的。而且，实验的结果不仅从陈楸帆他作为一名科幻作家的视角来看很有意思，从我作为AI技术研发者的角度来看，也能观察到技术与创作者之间的互动。

至于优点和不足，我认为这个实验虽然准备得比较仓促，有较多技术缺陷，成品也稍显粗糙，但它是国内较早指向人与技术关系思考的实验。2018年，我们就深刻感受到“人机协作”可能会成为未来实践的主流，如果从那个时候就开始完全排斥技术、排斥人与电脑的互动，我觉得这样的创作者难以被称为“未来创作者”。

《共生纪》项目图片

Q：故事创作或许存在套路，很多知名科幻作家都曾系统分享过科幻创作方法论，例如阿西莫夫、《安德的游戏》作者奥森·斯科特·卡德也写过《如何创作科幻小说与奇幻小说》。影视剧本也是一样，比如《星球大战》就是对坎贝尔的《英雄之旅》的化用，《异形》可以被概括为“太空版《大白鲨》”。换言之，对于受众而言，其实追求的是“喜欢=熟悉+意外”的内容。既然“熟悉”和“意外”可能都是AI所擅长的，那为什么目前很少看到AIGC生成我们喜欢的故事？这其中的难点在何处？

最大的问题在于，目前AI在创作时的可控性和逻辑思考能力，仅相当于刚开始写作文或者初学三四年级的小学生，所生成的句子都比较通顺，但如果要求其达到高水平，需要更深入的逻辑思考能力支撑。现在它可以做谋篇布局，但总体处于低水平，与人类的专业编剧所谓的谋篇布局能力肯定是不一样的。

GPT或者其他大模型可以做简单的逻辑推理，但在处理相对复杂的逻辑推理题时，它经常还是会出错，本质上它的逻辑思考能力仍然较为受限。但如果我们把2018年的AIGC技术与现在的情况做对比，会发现有了巨大的飞跃。2018年时，它只能勉强组成完整的长句，甚至难以保证基本的语法正确，如今它虽然与我们所需的AIGC水平相比仍存在差距，但写作流畅度已经显著提升。目前业界一般认为，还需要几年的时间，AI技术才能达到与人类相近的逻辑推理水平。

在这个问题上其实还存在两派观点。科研界有一派认为，当前的AI发展可能已经到头了，无法再取得更大突破，但是这一派的人数相对较少。绝大多数工程领域的专家认为，今天的AI将继续发展，并逐步走向人工通用智能（AGI）的发展道路。至于具体需要多长时间，或许没有人可以预测得很准确，就像GPT-4和ChatGPT的突破，作为业内人士，我也未能精准预测出在2022年末会出现这样的突破。

《人类最后一个独立写作的纪元》书影

Q：您曾在《人类最后一个独立写作的纪元》一文中提到，“AI算法无法取代人类写作，但AI算法却极可能为我们提供一面前所未有的，关乎科学逻辑、语言本质、文本规律的镜子。”对于“取代人类”一事，您现在是否还持有相同的观点？在您看来，AI如何帮助人类认识自身？AI在探索人类意识和情感方面的作用是什么？

这要看我们如何定义“取代人类”。“取代人类”的“取代”本身就有多种定义。最极端的“取代”概念可以指AI不喜欢人类就“消灭”人类，这是科幻小说的设定。还有一种“取代”指AI会替代很多人类的工作，我认为这是比较现实的一种情况。

至于AI是否将“取代”人类的写作，我手头倒有个案例。前段时间我去中央美院看毕业展，发现很多作品专门采用“并列展示”的方式，同时呈现AI和人类的创作。这也是艺术家对AI如何“取代”人类，给出了一份有趣的回答。所以从人类创作的独特性来讲，我觉得未来最有可能发生的不是AI取代人类，而是当AI作品与人类历史上创作的这些小说达到相似水平之后，人类作家最大的任务可能将变成“绞尽脑汁地思考如何创作出代表人类的东西”，而不是表达自我，或者表达已有的话语体系，这是件蛮有趣的事情。

02AI多模态的突围

Q：您曾在《后GPT时代，多模态是最大的机会》一文中，表达对多模态AI发展的深度思考。这些多模态AI的应用场景距离成为现实还有多远？目前面临的主要挑战是什么？

如果仅需要生成10秒钟以内的单一动作、单一场景画面，不需要复杂的镜头语言，AI创作工具Runway就可以做到。现在其实就只剩下稳定性，即帧与帧之间“一致性”（consistency）的问题，现在每月都有新的关于多模态AI的研究进展，都有比较扎实的进步。所以我觉得针对这个小问题，可能半年到一年内可以解决得很好。

但更重要的问题是，AI的“复杂逻辑”的推理能力仍处在较低水准，所以目前的生成视频技术，仍然很难实现生成1分钟的视频、更遑论1小时的电影，因为这些都需要“复杂逻辑”的推理，如果没有解决这个问题，中长视频的生成就没办法进一步推进。比如在我设计的脚本中，希望让某个角色先走出房间，以及呈现他进房间之后的情绪变化，但这些细节今天都没有办法通过AI来控制，还需要等AI技术达到与人类相近的逻辑推理水平。

生成式AI的应用路线图：多模态AI的应用能力演进（来源：王咏刚《AI应用路线图：可控性是最强路标》）

Q：目前3D生成最大的困难是什么？未来会如何发展？

3D生成目前最大的困难在于好的、可用于训练的3D数据极其稀有。当我们去训练Midjourney（AI绘画工具）和Stable Diffusion（AI绘画工具）的时候，案例图库非常丰富，可以用来训练的案例图数量级是10亿、甚至几十亿的规模。但如果我们想训练一个基于MESH的模型，并将其转换为嵌入式表达（Embedding），然后进行训练，能够找到的高质量3D模型（包括互联网）数量级通常在百万量级。尽管百万听起来不少，但与十亿和几十亿相比，相差甚远。

所以这也是为什么今天有一批模型并不是从3D数据开始训练，尤其是“文本生成3D”这个领域。你可能听说过一系列称为Dreamfusion（文本生成3D模型的AI模型）的生成方法，它完全不依赖于3D模型，直接从Stable Diffusion中学习2D信息，然后转化为3D信息。通俗地说，2D转3D目前还是有非常多的局限，这就是当前3D生成技术的现状，但每个月都会有突破性的进展。

我认为在半年到一年内，某些特定领域一定能够出现可以生成非常精美、同时具备语义的MESH模型。例如，如果我专门训练汽车模型，那么未来生成汽车的MESH模型会表现得特别出色。但如果要打造一个通用性很强的模型，能够在各种领域都生成出色的结果，甚至能够生成与人类建模水平相当的内容，我认为还需要不少时间。

Q：在“多模态”这篇文章中，关于“人类的生存环境和思考过程肯定是多模态的”洞察让读者认识到多模态的广阔前景。那么，是否可以理解为，在AI多模态的加持下，科幻影视、科幻游戏远非科幻体验的极限？科幻体验的未来会是怎样的？

我觉得生活会越来越“科幻”。科幻体验是什么？比如未来的聊天场景中，我们的桌上或许可以直接出现一个演示画面，当我们聊到《星球大战》，就能即时出现电影中的场景。如果使用更小的AR眼镜，或者在桌面上放置小型裸眼3D设备，也是具有科幻感的体验。这种体验在很多科幻电影中出现过，这些东西5-10年内就有可能变成现实。

未来，或许我们不需要走入电影院才能感受到所谓的“科幻体验”，而是在我们生活的某个时刻，只需一声令下，就能立即沉浸在科幻般的环境中——我的周围会出现我所期望的外星人或技术场景，虽然它们都是虚拟的，但我可以用手来操控它们，与之互动。我们甚至可以扮演科幻场景中的角色，这些都远远超越了电影所能提供的体验。今天我们在商场中所体验的VR游戏，就是未来科幻体验的雏形。我认为，未来的裸眼3D技术会慢慢变成我们生活中最具有科幻感的存在之一。

生成式AI的应用路线图：应用领域与典型案例（来源：王咏刚《AI应用路线图：可控性是最强路标》）

Q：您觉得近期哪些AI论文可以载入史册？

最核心的我认为是2017年时论文《Attention is all you need》的诞生，它毫无疑问是AI技术发展历史中最具重量级的一篇论文。可以与其相比的是之前的ResNet技术（残差网络，解决了阻碍更深层次网络优化的“梯度消失”和“梯度爆炸”问题，可以训练更深层次网络并取得更高精确度），以及之前杰弗里·辛顿那篇反向传播算法（Back Propagation，一种适合于多层神经元网络的学习算法，为神经网络的基础）论文。

Q：近期Fable公司推出多模态影视生成器“AI Showrunner”项目，可以创建类似《南方公园》这样的剧集。其终极目标是构建与人类智能水平相当的AI，让AI变成一种生命存在形式，由此让虚拟角色从聊天机器人变成一个有故事的AI智能体，这为无限故事的创作提供了可能性，您如何看待这类尝试？

一个小团队试图打造类似于《南方公园》的东西，它只是一个噱头。想做这方面的团队有很多，但在目前阶段，还没有一项技术达到实际可用的程度。从投资者的角度来看，这些都是好的尝试。但无论是融资还是炒作，实现终极目标的关键是——不能仅仅从影视生成器的角度去构建一个与人类智能水平相当的AI。要达到人类智能水平的AI需要考虑基础模型（foundation models）的构建，而这些基础模型与应用层面相对较远。当这些基础模型达到类似于GPT或其他大型模型再往后发展的水平时，它们才能成为最核心的问题解决方案。

当我们在应用层面考虑时，我们需要思考如何充分利用基础模型（foundation models）的能力，使得应用在某个特定方向具备输出能力。就像现在做得最火的应该是Character AI（一款角色扮演类AI聊天应用），用户可以通过聊天框与很多虚拟角色对话，但实际上都是由底层大型模型支撑的。这类技术让我们在体会虚拟的“西部世界”时不必“亲眼所见”，仅通过在聊天框中与虚拟角色对话，就能让我们感受到虚拟角色的鲜活形象。今天的基础大模型还没到能够处理复杂逻辑问题的水平，虽然在应用层面已经有了很多实践，但它本质的底层支持还停留在较低水平的状态。

03AIGC与人类未来

Q：好莱坞大罢工举世瞩目，目前编剧工会和演员工会的其中一个诉求是限制AI。从您的视角看，美术、编剧、演员，这是否是AI“入侵”影视业的全部，下一步还会涉及哪些领域？

目前危机还没有那么紧迫，你现在用Runway（AI创作工具，可以生成各种类型的艺术作品，包括图像、音乐、文本和视频等）生成视频，或者通过AI创造3D模型，生成的结果绝对替代不了你独自创作的作品。好莱坞的罢工表达了人们对未来的担忧。然而，AI能够激发人类思考、与人类创作者互相启发。美术师、画师、演员等领域也有类似的可能性。AI在作曲和编舞方面的能力也逐渐增强。随着投入资源和研究，AI的潜力会逐渐显现出来。

以3D动画的制作流程为例，目前已经出现了许多由AI创作的剧本和概念图。这一流程相对来说更加清晰且易于实现。尽管在建模方面目前尚属早期阶段，但已经展现出逐渐成熟的发展趋势。贴图技术已经逐渐融入到工业中，动作捕捉技术已经相对成熟，即使不借助专门设备，仅凭摄像头，也可以实现近乎完美的动画效果。动画师也会很快受到AI发展的影响，无论是人形动画还是其他动画，都已经涉及与人工智能相关的研究领域。

我认为可能会被较快取代的是游戏中NPC（非玩家角色）的制作流程。从建模、贴图、行为动作，再到对话内容等，只需要操作者者设定一个框架，就可以完成整个制作过程。因为在游戏中，每个NPC并非主角，所以它们的质量水准可以稍微放宽，保证游戏的功能不受影响即可，但主角的设计仍然更多地依赖人工创作。

目前来看，AI在专业领域的渗透还比较慢，因为专业的工作流具有思维壁垒及工具壁垒。如果AI盲目进入，反而可能会破坏工作流程，导致时间的浪费。所以我觉得需要一步一步推进，保持开放和乐观的态度。相信再过几年，大家就不会再讨论这些事情了。就像在2018年我们讨论“协同创作”一样，今天已经没有人再讨论这个问题，因为大家都知道协同创作是可能实现的。

Q：将科幻创作当作商业灵感源泉的趋势正在加强，您在看到一项新技术时，是如何想象到具体应用场景的？又以什么方式快速定位那些处于科研领域前沿，又同时兼具商业价值的技术点？

不太容易，因为如果某项技术不属于根本性的革命性技术，只是一个新的技术点，我可以清晰地了解这个技术可能适应的市场类型与格局、技术应用的逻辑、在工作流里需要承担的职责、新技术所能提高的效率情况、所节省的成本量等，我都可以计算出来。

最大的难题在于——我们今天研究的AI，和两年以后的AI可能有很大的不同，而眼下AI的水平和能力，我们甚至找不到它的应用场景。比如目前的视频生成技术，在一个专业工作者那里根本就没有立足之地。在这种情况下，如果认为当前AI没有上游价值，没有商业价值就不投资它吗？投资不是这种逻辑，因为投资永远看到的是未来增长。AI技术未来的增长和新兴市场关联在一起，所以难题是AI技术充分融入新兴市场到底会是什么样子？界内界外很多人做了不少预测，但没办法保证这些预测能有几成的准确性，所以只能靠“下赌注”。

举个简单的例子，如果我们倒回10年，谁能预测到今天最大的流量平台是类似抖音这样的短视频平台呢？恐怕没人能想到。即使有人联想到手机给大家提供了拍视频的自由，每个人都能自制播发小视频，人们也不曾预料到如今的短视频平台已经成为可以直播带货的商业交易平台。所以，当AI进步到什么程度才会有一个全新的平台呢？个人觉得我们还有待AI的复杂逻辑推理能力达到更高水平。

大模型基于与应用思考导图（来源：王咏刚《大模型技术与应用思考导图0428版》）

Q：根据摩根士丹利等调查显示，全球AI热潮热度正在降低，与此同时，现在很多测评也显示GPT4“变笨”，这些迹象似乎表明，AI热正进入瓶颈期。您认为现在这个状态属于“泡沫的前夕”还是“跨越鸿沟前的等待”呢？

这肯定不是泡沫。任何事物的新鲜感过去之后，它都会逐渐沉淀到真正需要这项技术的人群中。我平常也在用GPT帮我修改代码，或者帮我碰撞思路，但我不会像尝鲜时一样，把所有问题都交给它，因为我已经了解它在哪些方面表现不佳、在哪些方面表现良好。所以，AI 的所谓的流量增减是一个正常反应，任何一项伟大的产品都会面临这样的情况。

但是千万不要把这个问题变成：GPT目前的水平在这里，因此我们以这个水平来评估市场。任何投资人都会将其放在技术增长变化周期中进行评估。在这种评估中，GPT只是刚刚开启了一个新世界的大门。如果我在新世界的门口只看到了门厅这一小部分，觉得没有什么吸引力，然后就选择回去了，那这种思维方式就不是对科技的正常看法。

王咏刚给中小学孩子讲解AI原理的图书《AI我知道》

Q：没有技术背景的外行其实很难看懂AI。作为科技创业者与投资人，您认为普通大众应该如何更好地理解和参与到这波技术发展浪潮中？

我认为普通人可以跟AI一起合作，合作越多，越能理解AI能做什么事。普通人若想真正从算法底层角度去理解AI是不现实的。但普通公众至少可以知道，AI是由一个与人类大脑不太一样的机制建立起来的，但是AI能处理的事情和我们的大脑基本一致。只有尽可能地用各种方法与AI协作，才能更深入地了解它在哪方面做得好、哪方面做得不好。

嘉宾介绍

王咏刚，创新工场首席技术官兼AI工程院执行院长，SeedV实验室创始人、CEO，人工智能商业化公司创新奇智联合创始人，人工智能高端应用型人才培养项目DeeCamp发起者。曾在《程序员》杂志开设技术专栏，曾出版《乔布斯传——神一样的传奇》、《人工智能》（与李开复合写）、科普读物《AI我知道》、科幻长篇小说《镜中千年》等。

搜索

中国科普作家网 China Science Writers Association

新闻中心

AIGC的新机遇在哪里？——专访创新工场CTO王咏刚

关于协会

新闻中心

品牌活动

协会出版物

协会官方微信