拥抱，还是毁灭？——马伯庸推荐的《扩散模型》作者手记

2022 年，基于大语言模型的 AIGC领域的快速发展，使得通用人工智能不再那么遥不可及。当参数量超过某个闽值时，基于大语言模型的 AIGC 系统就能够理解人类用自然语言发布的指令，并对应生成真实、高质量的文本、图像、音视频等多模态数据。扩散模型便是其中引人注目的先行者。
扩散模型源于物理学，它最初是用于描述物质扩散的数学模型。通过将扩散模型与人工神经网络相结合，发现了它在图像生成领域的巨大潜力。从起步的 DALL-E 2和Imagen，到 Stability AI 发布的 Stable Difusion 1.5，都证明了任何一个能用语言描述心中想法的人，都可以借助扩散模型创作出精美的绘画作品。
本文作者李忻玮创作于《扩散模型从原理到实战》新书上市！

“

它的强度比太阳系中最坚固的物质还要高百倍，这个世界中的所有物质在它面前都像纸片般脆弱，它可以像子弹穿透奶酪一样穿过地球，表面不受丝毫损伤。

“那……它来干什么？”中校脱口问道。

“谁知道？也许它真是一个使者，但带给人类的是另外一个信息……”丁仪说，同时把目光从水滴上移开。

“什么？”

“毁灭你，与你有何相干？”

——《三体，黑暗森林》

”

高中时读到这一段时，我似乎只记住了这句很酷的话，却对这种被高技术碾压的绝望气氛毫无体会。之后我从高中毕业，就读数学专业，之后开始转向人工智能领域的研究，十余年的学习研究过程中，这段对白时时会从脑海深处又浮了出来。研究越是深入，越对这一段带有预言性质的描写感觉心惊肉跳。

事实上，如果你们像我一样熟悉AIGC发展脉络的话，那么一定能从它的技术发展时间轴的初期看出一丝不安的端倪：

2017年，NLP里程碑式杰作《Attention is all you need》论文首次提出了transformer这个革命式的网络结构。

2018年6月，OpenAI发表GPT-1论文，GPT取义Generative Pre-trained Transformer，标志着NLP进入使用预训练模型的时代。

2018年10月，谷歌发表的BERT模型在各种NLP榜单上完成刷榜，AI加持下的自然语言处理开始进入实用化阶段。

2019年2月，OpenAI发表GPT-2论文，验证了使用了transformer结构的网络可以通过“更多训练数据 + 更大网络参数”的条件来提升模型的能力。绝大多数人此时都还没有意识到，这正是大语言模型军备竞赛的起点，甚至或多或少内心深处还有点嘲笑openai搞出来的这个“纯靠堆算力”弄出来的模型。

2019年年初，那时我已经从哥大硕士毕业，一边在一家初创公司上班，一边在哥大NLP实验室里做点简单的研究工作。一月的时候，马伯庸老师跑到纽约来开会，需要找个安静的地方写稿（摸鱼），我就给他推荐了哥大工学院的咖啡厅。于是再加上另一个哥大的朋友一起，我们三个人乱七八糟地聊了一下午。

闲聊过程中，我给他们两个兴奋地展示了一下我最新在玩的一个开源项目：使用bert来续写一段故事。我当着马伯庸老师的面，把他那时候刚刚出版的《显微镜下的大明》的开头一段输了进去。马伯庸老师认认真真的看了一遍续写的文字，十分放心地说：

“没事，看来我还不用担心。”

这句话基本概括了2019年以前AIGC领域的状况：似乎有进展，但是没人真的把他当回事。

后面的故事大家肯定都早已熟悉了。没有任何征兆的，AIGC技术在这几年间进入了爆炸发展的时期。以Transformer结构为核心的Stable Diffusion和chatgpt横空出世，在图像生成和文字生成两个方向穿插包围，给所有人带来了AI革命的当头一棒。

我们看到游戏公司开始大规模使用扩散模型参与原画和场景的制作。

我们看到摄影工作室开始面对AIGC工具后期渲染的竞争。

我们看到好莱坞63年来首次全面停摆，编剧大罢工抵制“AI入侵”。

我们看到漫画家开始使用Midjourney辅助绘画过程。

我们看到了在线教育课程开始使用Chatgpt来替代真人老师进行口语教育。

天地不仁，以万物为刍狗。当冰冷的、残酷的、不带一丝温情的AIGC浪潮席卷、摧毁、重塑了各行各业，如同珍妮纺织机摧毁18世纪的手工纺织工厂的时候一样，身处于这个时代的我们只剩下两种选择：

拥抱它，还是被它毁灭？

在写下这段文字的这个时间，我用ChatGPT当着马伯庸老师的面，以与四年前同样的命题重新写了一次，甚至用扩散模型画好了故事插图。马伯庸老师又认认真真地看了一遍。这一次，他谨慎地问：

你新出的那本书，要不给我一本？

本书特点

本书内容基于 Hugging Face 的 Diﬀusion课程。无需读者具备专业绘画技能，扩散模型能够快速让创意变为现实！加速创作过程，拓展创作表达的可能性。

▮ 易学实用

以扩散模型理论知识为切入点，深入介绍了扩散模型生成图像的相关知识与实战案例，赠送配套Diffusion视频课程。

▮ 案例众多

配套大量案例（Stable Diffusion、ControlNet），帮你快速熟悉扩散模型。

▮ 注重效率

清晰的代码结构与代码注释，帮你快速实现扩散模型生成精美图像。

GitHub课程链接：https://github.com/huggingface/diffusion-models-class

作者介绍

李忻玮

RTE社区高级布道师，硕士毕业于美国常春藤盟校之一的哥伦比亚大学数据科学专业，现任声网人工智能算法工程师；主要研究方向是生成式人工智能、计算机视觉、自然语言处理、提示工程等。

苏步升

扩散模型算法工程师，AIGC创业者，Hugging Face中国社区本地化工作组成员。

徐浩然

毕业于中国海洋大学电子信息工程专业，现任声网音频算法工程师，从事扬声器声学设计、音频增强算法、音频质量评估算法等研究工作。

余海铭

本科毕业于暨南大学，硕士毕业于加州大学尔湾分校；先后在中国科学院深圳先进技术研究院、爱奇艺、美团等单位工作；主要研究方向是图像识别、图像生成、多模态及自动驾驶等领域。

大咖联袂推荐

本书系统地介绍了扩散模型的原理和相关细节，同时书中丰富的实战案例也将引领读者快速上手扩散模型。对于任何想要学习和了解扩散模型的人来说，本书都是颇具价值的参考资料。

——周明，澜舟科技创始人兼CEO，创新工场首席科学家，CCF副理事长

受非平衡热力学的启发，扩散模型以良好的数学解释性及可控的生成多样性迅速成为AIGC领域一颗耀眼的新星。本书从“一滴墨水”开始，由浅入深，从理论到实践“扩散”出了图像、文本与音频的AIGC蓝图，并为读者保留了精华，去除了“噪声”，还原出了知识体系最真实的“分布”。

——杨耀东，北京大学人工智能研究院研究员

人工智能扩散模型在近几年取得了令人目不暇接的惊艳成果，可以有效解决视觉内容生成的瓶颈问题。仔细阅读本书，你既可以对扩散模型背后的原理有较为深刻的理解，也可以依此动手进行实践，从而牢固掌握扩散模型，为进一步创新或深度应用打下坚实基础。本书值得推荐！

——钟声，声网CTO

纵观人类历史，机遇永远属于抢先一步占据未来高度的人。我们每一个人都有必要去探究人工智能的奥秘，以便在即将到来的变革大潮中争得一席之地。

——马伯庸，作家

《扩散模型从原理到实战》以Hugging Face的扩散模型（Diffusion Model）课程为基础，通过理论和实例相结合的方式，为读者构建了一个完整的学习框架。无论你是新手还是经验丰富的从业者，这本以实战为导向的图书都能够帮助你更好地理解和应用扩散模型。

——王铁震，Hugging Face中国地区负责人，高级工程师

随着Stable Diffusion和Midjourney的推出，文生图形式的AI绘画火爆异常，很多游戏的角色设计、网上店铺的页面设计都用到了AI绘画工具。本书系统地梳理了AI绘画背后的一系列原理细节，且有代码实战，我非常推荐大家阅读本书!

——July，七月在线创始人，CEO

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。