日贴230416 Sun Auto-Everything
Contents
昨天写了篇短文谈 Auto-GPT,今早就看到有人做了个 AutoSD。这里的「SD」,是 Stable Diffusion XL。
原理是 Auto-GPT 思路,不过又有点不一样。作者用 GPT 生成两个 Agent,非常八十年代风格地把他们叫做 Agent69 和 Agent007。这俩 Agent 会彼此讨论,会去 Google 所需信息,尝试生成好用的 Stable Diffusion XL Prompt。等这俩看起来很硬汉的 Agent 达成一致后,就调用 Stable Diffusion XL 生成图片,然后保存到文件夹。
这个项目还没有开源,不过作者录了个很啰嗦的视频放在 Youtube 上。也有人把它搬运到了 B 站。(这位 up 主的 ID 有点让人一言难尽)
像昨天谈到的斯坦福大学的「Smallville」和阿卜杜拉国王科技大学的「CAMEL」项目那样,AutoSD 让 AI 的分身对话讨论,来生成更好的结果。这种思路不错,不过应该还有改进空间。
4 月初,微软公司发了篇论文,提出一种叫做「HuggingGPT」的方法,同时在 Github 上开源了名字霸气的「JARVIS」项目。这个项目调用 GPT 这样的大语言模型来理解和分解任务,然后去 HuggingFace 上找到最合适的模型,把这些模型组合起来完成任务。现在这位 JARVIS 还在完善中,但是和 Auto-GPT 相比,它的潜力可能更大一些。毕竟,HuggingFace 大概相当于 AI 界的 Github,通过大语言模型调用 HuggingFace 上的模型,差不多像是让 AI 在超市里自由选择自己的肢体,而不是像 Auto-GPT 那样自己造工具。
这样的思路结合起来,我们将会很快看到不同领域的 AI 协作。比如我们可以设想一个自媒体机器人:一个 AI 理解任务,分解任务;一个 AI 生成文本;一个 AI 来做批评家;还有个 AI 负责生成图片;最后再来个编辑 AI 把它们组合起来再排个版,在多个平台发布出去。
听起来很美好。不过,想要更好的工作成果,就需要更多更强的 AI;而这意味着需要的算力和能源爆炸。真实世界的物理限制会制约 AI 的发展速度,而企业的需求可能会让 AI 能力在一段时间内变贵。
这对于满满的 AI 焦虑来说,可能倒是个好消息。