AIGC科幻创作探索——让AI理解代码内核并进行科幻诗歌创作

中国科幻研究中心 周天行 2023-09-27 16:23

导语：AIGC（人工智能生成内容）的创作风潮正在全球范围内蔓延，为广大创作者实现科幻想象提供了新的动力。为了深入探讨AIGC在科幻创作领域的影响，中国科幻研究中心AIGC赋能科幻影视产业研究课题组进行了一系列“AI共创科幻短片”实验。在这个过程中，我们意识到了各类AI工具的优势与不足，同时也有了更多新奇的体验、发现与尝试。

本期“让AI理解代码内核并进行科幻文学创作”的灵感来源于课题组在与AI共创不同类型的作品时具有差异化的体验。具体而言，在使用AI创作科幻短片剧本时，我们遇到了各种瓶颈，例如剧情套路模版化、内容空洞、在给定框架时文本填充质量低等。而与此同时，在使用AI共创代码时则能得到满意度更高的反馈。因此，我们意识到“AI理解代码的成本比理解人类语言低”这个特性，可以被利用到新的人与AI共创的模式中去。于是，我们进行了以下尝试。

让AI理解代码内核并据此创作科幻诗歌

第一次我们尝试使用了Claude2（类ChatGPT的大语言模型）进行共创。

这次任务的主要目的是“让AI将程序逻辑转化为诗歌表达”。举例来讲，Midjourney（一款AI绘画工具）作为一款“文字转图片”软件，背后需要程序的运行，而我们希望AI“理解”代码的运行过程，并将它对代码的“理解”转化为文学性的语言。

经过多轮测试，我们在探索过程中使用了一段代码，经过AI的“理解”与“转化”后，所生成的诗歌呈现了绝佳的文学表现力。这段代码的主要功能是实现图像的色彩格式转化，即输入RGB1数据，使图像自动与白色图进行最合适的参数整合，并转化为RGBW色彩模式，并进行评估。用类比的方式来说，这段代码可以批量处理以下任务：按照一定比例混合两杯不同颜色的水，直到找到一个比例可以使混合后的水的颜色与指定颜色相同。

这项技术涉及到的领域包括但不限于：光学、计算机视觉、深度学习（机器学习 AI）等，这些元素在接下来AI生成的内容中被出乎意料地运用。本文的所有尝试都基于这份代码文件，因此建议读者在了解下方展示的代码内容后再欣赏生成的作品，以享受更奇妙的AI共创文学之旅。需要说明的是，由于代码内容涉及知识产权相关问题，仍处于保密阶段，我们展示出的描述性介绍是经过模糊化处理的，使读者尽可能地了解代码的基本功能，但无法复现代码具体内容及技术。

我们在Claude2中输入的提示语如下：

Claude2的生成内容如下：

对应代码描述可以发现，这首诗歌包含了类比式表达，具有独特的科幻美学意蕴，且基本还原了程序运行的整个流程，对代码逻辑的理解十分到位。除此之外，这首诗歌在追求工整的同时也做到了语言的错落有致，对诗歌意象的使用非常值得推敲。

直接阅读或许还难以觉察出效果，接下来放出我们在提供代码前让Claude2创作的科幻诗歌，以提供观察的对照：

这次成功的尝试回应了我们最开始的猜测，即“AI理解代码的成本比理解人类语言低”。因此我们决定继续依照此路径，开展创新探索。

针对本次实验的第二次尝试，我们考虑更换AI工具，但所使用的代码不变，以进行对比实验。我们选择了GPT-4以及Advanced Data Analysis插件（这款插件的前身是Code Interpreter，主要功能是做代码释义），并对其提出了同样的要求。选择GPT-4的原因是，我们在实践的过程中发现GPT-4对代码逻辑的理解能力所向披靡。

GPT-4在回答时首先列出了它理解到的9条代码逻辑，并基于此创作了以下内容：

这首诗歌对代码的理解与Claude 2所生成的内容相比，在语言表达上提升了一个层次，甚至出现了一些值得推敲的细节。

我们对诗歌的每段内容进行了分析：第一段文字概述了整个程序的功能，即处理输入的大量RGB图像样本，使之与白图找到矩阵的最佳参数组合，从而融合成所需的RGBW图像；第二、三、四段则分别详细描述了融合两类图像时，代码迭代计算、新生成的大量图像等待评估、通过复杂的算法后最终得出评估结果的过程。第四段诗歌则对通篇进行了总结，并描述了它对代码运行结果的期待。（可以回到开头的程序简介帮助理解）

这首诗中的细节值得慢慢赏析，这里列举其中比较突出的亮点：

1.“寻找最纯净的光，混合、融合，直至完美的章。”其中“最纯净的光”极有可能指的是用于混合RGB的白图。那么GPT-4为什么会像人类一样认为白图是“最纯净”的呢？它的思路是如何从输入的图片信息，即代码中的矩阵，一步一步转换为诗歌中的这句话的。这是一个很有意思、值得深思的点。

2.“如同深渊中的歌声，伴随着时间的流转永不停歇。”在这一步中，算法包含了一个循环，提升了程序运行的“时间复杂度”2，因而此处用“伴随着时间的流转”以及后面的“旅途漫长”来形容这个过程，实在贴切，令人叹为观止。

3.对于最后一段中关于“愿望”的描述，用GPT-4的解释来说，是代表了对代码结果的期望和希望。然而令人不寒而栗的是，它为什么会有这样的期待呢？

带着震惊与感叹，我们开展了进一步尝试，希望它在理解代码的基础上增加一些文学性：

让AI根据代码模仿诗人风格创作科幻诗歌

接下来的所有尝试都在GPT-4的同一场会话中进行。首先，我们让它模仿作家廖伟棠的创作风格，其作品的语言简洁而不失柔美，又能在韵律变化中体现思辨性。GPT-4的回复如下：

不难看出，这首诗是对廖伟棠的成功模仿，在顾及代码内容的同时（主要描写寻找最佳参数组合的过程），也对一些比较宏大的话题，例如宇宙、时间等进行了探讨。

我们快速进行了第二次尝试，即让GPT-4模仿另一位风格显著的诗人——徐志摩，其语言风格深情而又飘逸。以下是GPT-4生成的内容：

这一次GPT-4选择以最初输入的图像数据为第一人称，描绘了自己在极大的数据范围内（样本量大）寻找到刚好与自己适配的白图参数这样奇妙的际遇，甚至称之为“期盼”“真理”和“答案”。其中尤其令人拍案叫绝的语句是“时间的河流带走了多少回忆，但我的心，永远停留在初见的刹那”。这句话可以从中看到GPT-4对代码的理解——代码运行的指针一直在向后跑，而GPT-4却能标记“初见的刹那”。与之呼应的是后文中“在我心中，每个瞬间都是永恒”，因为相遇后“这片宇宙都变得温暖”。虽然作为一首情诗，GPT-4表达的情感层次或许并不如人类的表达那么丰富，但能够抓住RGB图和白图的相遇与融合大做文章，已经令人深觉不可思议。

对比两次模仿，我们意外地发现GPT-4并没有像最开始那样从头到尾地描述代码运行过程，而是根据两位诗人的写作风格抓取了更适合的部分进行创作。基于此，我们选择直接向GPT-4提出疑问，以了解它的创作思路，究竟是“有意为之”还是“巧合”。

除此之外，横向对比GPT-4生成的三首诗，固定出现的元素有宇宙、时间、光影、声音（音乐）。由此可见，GPT-4对于代码的理解与意向的链接是存在一些固定思路的，比较直接的有将代码运行的时间复杂度）赋予到对时间的叙述上，以及将代码对“光”的处理赋予到光影的概念中去。除此之外，根据GPT-4的解释，宇宙通常被用来代指数据范围之大，“星星”“星球”“星尘”“星云”等则被用于指代不同大小的数据集），令人最意想不到的是，“声音”则被用来形容代码的美丽。

由于其他的意象较为容易理解，我们暂时不放出更多GPT-4的解释，另一个原因是我们在与GPT-4交流的过程中发现它有顺着提示语“期待的答案”作答的可能性。

目前来看，采用上述方法用AI工具创作科幻诗歌的效果非常好，我们希望以此向新的领域推进，即让AI创作科幻小说。

让AI理解代码内核并据此创作科幻小说

显然，AI创作出来的科幻小说的文学表现力与诗歌相比差距较大。仔细阅读不难发现，GPT-4过于关注还原技术过程，而非情节发展的逻辑。类似的情况在之前我们与之共创小说的过程中已经频繁出现过，暂时还没有找到合适的方法完全解决这个问题。

让AI理解代码内核并创作小说的尝试暂告一段落，但当我们回头再去分析这段小说中看似无厘头的情节时，突然联想到了小说《三体3》中云天明的童话故事，从而引起了一些相关的思考。

在《三体3》中，云天明在行动被限制的情况下，创作了三篇童话故事，将三体人的尖端科技信息隐藏在其中并传递给人类，而人类从这些“加密通话”中解读出了曲率驱动飞船、黑域、必须逃亡、二维化打击等概念，这些信息在故事中对人类未来命运发展走向的变化起到了关键性作用。

回到本实验中，我们通过不断研究文本，并反复将其与代码逻辑进行对照，最终基本明确了“AI可以读懂代码内容，并能够通过人类语言（文学作品的方式，或者更多形式，这有待进一步研究）复述出来”的结论，这代表AI有潜力扮演类似云天明一样的角色来创作“加密的童话故事”，而与此同时，人类在未经提示的前提下，很难通过直接阅读这些作品从而联想到代码背后所涉及的技术路径及原理，这证明了“加密”的成功。此外，在实验中当我们遇到难以理解的诗歌细节并对AI进行相应的提问后， AI可以提供高度贴合原代码逻辑的相应解释，从这一点可以得出如下结论，即“AI有能力通过解析人类无法理解的文本来还原技术细节”，这也意味着使用AI让其进行自我解析和破译是具有可行性的。

这样的过程，前半段与云天明讲述童话故事的过程如出一辙；而在后半段，即解密的过程中，我们具有更大的优势，因为云天明的故事需要人为通过巨大的经济和时间成本去破解，而我们则可以与AI协作来进行破译工作。

也就是说，假如有一份不被允许直接公开的技术文件需要传播，我们或许可以利用AI转化的方式，通过要求AI将代码内容转化为人类难以理解内核的文学作品进行加密，同时保证AI在阅读后有能力大致还原出该程序的流程的方式，来达到传播的效果。

AI目前对于人类来说还是黑箱，这样的密码对于人类而言无疑是比任何人类自己设计的都要难以解译的。然而正如GPT-4可以解释GPT-2的神经元行为，来还原“智能”产生的过程一样3，让AI解密自己，或许并不难。

总体而言，这次实验最令人感到惊喜的是：AI可以在读懂代码内容后将其转化为诗歌中的意象，甚至表达情感。值得一提的是，在实验进行的过程中，一款与我们思路相仿的AI相机Pamera -The Poem Camera上线了，它可以被理解为反向的Midjourney——用一张普通的照片生成一首博尔赫斯风格的四行诗。然而，我们在了解后发现，这款App解读图片的文字都十分具象，是对图片内容直接的描述和总结，并伴随着一些幻觉的产生。

相比而言，在我们的实验中，用AI把代码转化为抽象概念、甚至情节，所生成的文字似乎显得更有诗意。我们也期待着以后有更多可被翻译为诗歌或其他形式的作品的代码样本被挖掘出来，以实现更多新颖、有趣、有意义的跨界共创。

Pamera作诗示例（图片来源：微信公众号“新智元”）