打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
拥抱,还是毁灭?——马伯庸推荐的《扩散模型》作者手记

2022 年,基于大语言模型的 AIGC领域的快速发展,使得通用人工智能不再那么遥不可及。当参数量超过某个闽值时,基于大语言模型的 AIGC 系统就能够理解人类用自然语言发布的指令,并对应生成真实、高质量的文本、图像、音视频等多模态数据。扩散模型便是其中引人注目的先行者。 

扩散模型源于物理学,它最初是用于描述物质扩散的数学模型。通过将扩散模型与人工神经网络相结合,发现了它在图像生成领域的巨大潜力。从起步的 DALL-E 2和Imagen,到 Stability AI 发布的 Stable Difusion 1.5,都证明了任何一个能用语言描述心中想法的人,都可以借助扩散模型创作出精美的绘画作品。

本文作者李忻玮创作于《扩散模型从原理到实战》新书上市!

它的强度比太阳系中最坚固的物质还要高百倍,这个世界中的所有物质在它面前都像纸片般脆弱,它可以像子弹穿透奶酪一样穿过地球,表面不受丝毫损伤。    

“那……它来干什么?”中校脱口问道。 

“谁知道?也许它真是一个使者,但带给人类的是另外一个信息……”丁仪说,同时把目光从水滴上移开。   

“什么?” 

“毁灭你,与你有何相干?”

——《三体,黑暗森林》


高中时读到这一段时,我似乎只记住了这句很酷的话,却对这种被高技术碾压的绝望气氛毫无体会。之后我从高中毕业,就读数学专业,之后开始转向人工智能领域的研究,十余年的学习研究过程中,这段对白时时会从脑海深处又浮了出来。研究越是深入,越对这一段带有预言性质的描写感觉心惊肉跳。

事实上,如果你们像我一样熟悉AIGC发展脉络的话,那么一定能从它的技术发展时间轴的初期看出一丝不安的端倪
2017年,NLP里程碑式杰作《Attention is all you need》论文首次提出了transformer这个革命式的网络结构。
2018年6月,OpenAI发表GPT-1论文,GPT取义Generative Pre-trained Transformer,标志着NLP进入使用预训练模型的时代。
2018年10月,谷歌发表的BERT模型在各种NLP榜单上完成刷榜,AI加持下的自然语言处理开始进入实用化阶段。

2019年2月,OpenAI发表GPT-2论文,验证了使用了transformer结构的网络可以通过“更多训练数据 + 更大网络参数”的条件来提升模型的能力。绝大多数人此时都还没有意识到,这正是大语言模型军备竞赛的起点,甚至或多或少内心深处还有点嘲笑openai搞出来的这个“纯靠堆算力”弄出来的模型。

2019年年初,那时我已经从哥大硕士毕业,一边在一家初创公司上班,一边在哥大NLP实验室里做点简单的研究工作。一月的时候,马伯庸老师跑到纽约来开会,需要找个安静的地方写稿(摸鱼),我就给他推荐了哥大工学院的咖啡厅。于是再加上另一个哥大的朋友一起,我们三个人乱七八糟地聊了一下午。
闲聊过程中,我给他们两个兴奋地展示了一下我最新在玩的一个开源项目:使用bert来续写一段故事。我当着马伯庸老师的面,把他那时候刚刚出版的《显微镜下的大明》的开头一段输了进去。马伯庸老师认认真真的看了一遍续写的文字,十分放心地说:
“没事,看来我还不用担心。”
这句话基本概括了2019年以前AIGC领域的状况:似乎有进展,但是没人真的把他当回事。
后面的故事大家肯定都早已熟悉了。没有任何征兆的,AIGC技术在这几年间进入了爆炸发展的时期。以Transformer结构为核心的Stable Diffusion和chatgpt横空出世在图像生成和文字生成两个方向穿插包围,给所有人带来了AI革命的当头一棒。
我们看到游戏公司开始大规模使用扩散模型参与原画和场景的制作。
我们看到摄影工作室开始面对AIGC工具后期渲染的竞争。
我们看到好莱坞63年来首次全面停摆,编剧大罢工抵制“AI入侵”。
我们看到漫画家开始使用Midjourney辅助绘画过程。
我们看到了在线教育课程开始使用Chatgpt来替代真人老师进行口语教育。
天地不仁,以万物为刍狗。当冰冷的、残酷的、不带一丝温情的AIGC浪潮席卷、摧毁、重塑了各行各业,如同珍妮纺织机摧毁18世纪的手工纺织工厂的时候一样,身处于这个时代的我们只剩下两种选择:
拥抱它,还是被它毁灭?
在写下这段文字的这个时间,我用ChatGPT当着马伯庸老师的面,以与四年前同样的命题重新写了一次,甚至用扩散模型画好了故事插图。马伯庸老师又认认真真地看了一遍。这一次,他谨慎地问:
你新出的那本书,要不给我一本?


本书特点

本书内容基于 Hugging Face 的 Diffusion课程。无需读者具备专业绘画技能,扩散模型能够快速让创意变为现实!加速创作过程,拓展创作表达的可能性。

▮ 易学实用

以扩散模型理论知识为切入点,深入介绍了扩散模型生成图像的相关知识与实战案例,赠送配套Diffusion视频课程。

案例众多

配套大量案例(Stable Diffusion、ControlNet),帮你快速熟悉扩散模型。

 注重效率

清晰的代码结构与代码注释,帮你快速实现扩散模型生成精美图像。

GitHub课程链接:https://github.com/huggingface/diffusion-models-class

作者介绍

李忻玮

RTE社区高级布道师,硕士毕业于美国常春藤盟校之一的哥伦比亚大学数据科学专业,现任声网人工智能算法工程师;主要研究方向是生成式人工智能、计算机视觉、自然语言处理、提示工程等。

苏步升

扩散模型算法工程师,AIGC创业者,Hugging Face中国社区本地化工作组成员。

徐浩然

毕业于中国海洋大学电子信息工程专业,现任声网音频算法工程师,从事扬声器声学设计、音频增强算法、音频质量评估算法等研究工作。

余海铭

本科毕业于暨南大学,硕士毕业于加州大学尔湾分校;先后在中国科学院深圳先进技术研究院、爱奇艺、美团等单位工作;主要研究方向是图像识别、图像生成、多模态及自动驾驶等领域。 

大咖联袂推荐


本书系统地介绍了扩散模型的原理和相关细节,同时书中丰富的实战案例也将引领读者快速上手扩散模型。对于任何想要学习和了解扩散模型的人来说,本书都是颇具价值的参考资料。

——周明,澜舟科技创始人兼CEO,创新工场首席科学家,CCF副理事长

受非平衡热力学的启发,扩散模型以良好的数学解释性及可控的生成多样性迅速成为AIGC领域一颗耀眼的新星。本书从“一滴墨水”开始,由浅入深,从理论到实践“扩散”出了图像、文本与音频的AIGC蓝图,并为读者保留了精华,去除了“噪声”,还原出了知识体系最真实的“分布”。
——杨耀东,北京大学人工智能研究院研究

人工智能扩散模型在近几年取得了令人目不暇接的惊艳成果,可以有效解决视觉内容生成的瓶颈问题。仔细阅读本书,你既可以对扩散模型背后的原理有较为深刻的理解,也可以依此动手进行实践,从而牢固掌握扩散模型,为进一步创新或深度应用打下坚实基础。本书值得推荐!
——钟声,声网CTO

纵观人类历史,机遇永远属于抢先一步占据未来高度的人。我们每一个人都有必要去探究人工智能的奥秘,以便在即将到来的变革大潮中争得一席之地。
——马伯庸,作家

《扩散模型从原理到实战》以Hugging Face的扩散模型(Diffusion Model)课程为基础,通过理论和实例相结合的方式,为读者构建了一个完整的学习框架。无论你是新手还是经验丰富的从业者,这本以实战为导向的图书都能够帮助你更好地理解和应用扩散模型。
——王铁震,Hugging Face中国地区负责人,高级工程师

随着Stable Diffusion和Midjourney的推出,文生图形式的AI绘画火爆异常,很多游戏的角色设计、网上店铺的页面设计都用到了AI绘画工具。本书系统地梳理了AI绘画背后的一系列原理细节,且有代码实战,我非常推荐大家阅读本书!
——July,七月在线创始人,CEO 

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
改BUG、编故事、绘画 我不如AI
AI绘画丨人工智能的艺术之路
未来艺术的魔法:揭秘AI绘画技术如何颠覆数字娱乐产业
AI 绘画疯狂内卷,究竟是“谁”在画画?
一文带你了解生成式AI及其未来趋势
AI绘画的“小秘密”都在这一篇文章里
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服