AI 赋予文字无限力量：“由文本生成一切”的一年

币圈资讯 1年前 (2023) 币百度站长

8,387 0 40

WB3交流加微信：WX-93588，⬅️此处为全站广告位，与正文项目无关
注册并登录App即可领取高达 60,000 元的数字货币盲盒：点击此处注册OKX

“一种依据文本指令创建绘图的算法” -MidJourney

你现在看到的是文字——文字作为一种前言，让我向你传达一连串的主意。自从人类用文字记载事物，而不再依靠记忆，咱们就一直在运用一连串符号来传递信息，你能够把所有这些称为“文本”。

今时今天，以及在曩昔的几个世纪里，咱们现已将咱们对国际的常识、咱们的主意、咱们的幻想转化为文字。也便是说，人类的大部分常识现在都以文字的方式存在，咱们也在用其他方法沟通，比如肢体言语、图画、声响等。但文字是咱们用于记载沟通、思想和观念的最丰厚的前言，由于运用起来十分便当。

当GPT-3被输入互联网信息时，它消化了咱们对周围国际的调查、咱们的无聊世事、咱们彼此之间疯狂的争辩……，学会了在一连串符号化的人类紊乱表达中猜测下面的内容。

在学习咱们连词成句进行沟通的过程中，一个大型的言语模型会模仿（或“鹦鹉学舌”）咱们怎样恶作剧、安慰和发布指令。GPT-3敞开了一场“革新”，在 “从文本到文本”方面体现得十分好：输入一些使命例子（如完成一个比喻）或对话开头，这个生成模型（通常）就能够学习使命或继续对话。

咱们在文字的运用方法中，几乎存在一定的“普遍性”，而咱们的技术仅仅在最近才到达这样的程度：人工智能体系能够加以整合，开掘咱们运用言语的方法，从而描绘其他形状。完成强壮文本生成才能的技术，也能用以完成文本条件下的多形状生成。“从文本到文本”变成了“从文本到X”。

在“从文本到文本”中，你能够要求模型对一只狗进行描绘。在“从文本到图画”中，你能够将该描绘转化为其对应的视觉效果。文本-图画模型供给了一种现有图画生成体系所不具备的新才能。现有的模型，例如GANs，经过练习，能够在给定的噪声输入下（以及用于类别条件图画生成的类别信息）生成实在的图画。但这些模型的可控水平不高，难以到达 DALL-E 2、Imagen 等模型的高度：用户能够要求生成一只戴着太阳镜的袋鼠，站在特定的建筑物前，拿着带有特定短语的牌子。你的愿望便是算法的指令。

谷歌 Parti 生成的图片

在“文本到图画”得以有用完成之后，更多的运用随之而来：“文本到视频”是下一个热点。“文本到音频”技术现已存在。“文本到动图”和“文本到3D”技术说明了文字能够转化为其他事物。

这篇文章的主题是“从文本到全部”的一年。最近的技术开展，使人们能够以更有用的方法快速地将文本转换为其他形状。这些开展令人兴奋的，并有望在未来几年内完成许多的运用和产品。可是咱们也应该记住，“文本的国际”是有局限性的，仅仅一些空洞的考虑，描绘国际却不与其发生实践互动。我将讨论时至今天的技术进步，也会考虑假如文本信息的“呈现”仅仅停留在文本范畴，“从文本到全部”会有怎样的局限性。

多形状终于成为实际

从技术上说，GPT-3揭开了全部的序幕。这现已被说到许多次了，所以我就简略说一下：OpenAI练习了依据transformer架构的大言语模型。这个模型比之前的GPT-2大得多，练习的数据也多得多（1750亿个参数vs 15亿个参数；40TB的数据vs 40GB），OpenAI其时以为发布这个模型太危险了。它能够做一些工作，比如编写不那么杂乱的JavaScript代码。有些人会觉得很酷，有些人会觉得一点也不酷，有些人会觉得一般般。创业公司都建立在新的最大的模型上，新闻和学术文章都在赞扬和批评新模型，美国以外的国家也在开展自己的大言语模型参与竞争。

2021年1月，OpenAI 推出了一个名为CLIP的新人工智能模型，它拥有与GPT-3相似的zero-shot才能。CLIP向衔接文本和其他形状迈出了一步，它提出了一种简略、高雅的办法来练习图画和文本模型，当有人进行查询时，整个体系能够在可能的标题挑选中，把图画与相应的标题相匹配。

DALL-E可能是第一个“善于”从文本发生图画的体系，与CLIP在同一天发布。CLIP在第一代DALL-E中没有运用，但在这以后续版别中发挥了重要作用。由于能够依据文字提示生成合理的图画，DALL-E上了多个新闻头条。

分散模型（diffusion model）登场

虽然一些人工智能先驱感叹，假如咱们想完成“真实的”通用智能，深度学习不是办法，但“文本到图画”模型无疑合适运用深度神经网络的力气。深度学习模型中的一些互补性开展，使得“文本到图画”模型取得了进一步的飞跃：分散模型被发现，完成了极高的生成图画质量。（拜见论文Diffusion Models Beat GANs on Image Synthesis）。

DALL-E 2的发布时间间隔DALL-E约一年多，运用分散模型的技术进步，创造出比DALL-E更传神的图画。而DALL-E 2的风头很快就被Imagen和Parti抢去——前者运用分散模型展现了冷艳的水准，后者则探究出了一种弥补性的自回归办法来生成图画。

故事并没有到此完毕。Midjourney是一个用于图画生成的商业分散模型，由同名实验室发布。安稳分散（Stable Diffusion）模型借鉴了对潜在分散模型的新研讨，能够用有限的核算资源进行练习，由于Stability AI公司挑选公开该模型及其权重，Stable Diffusion的发布受到了万众瞩目。

神经网络架构的立异并不是促成以上改善的仅有原因。yahoo在2015年发布了Yahoo Flickr Creative Commons 100 Million Dataset（YFCC100M），在其时是有史以来最大的公共多媒体数据集合。最近，Large-scale Artificial Intelligence Open Network（LAION）发布的数据集更在规模上令YFCC100M黯然失色。2021年发布的LAION-400M包括4亿个图画-文本对，然后是2022年发布的LAION-5B包括50亿个图画-文本对。

值得注意的是，虽然这些数据集能够大规模地练习图画-文本模型，但它们并非没有问题。The Decoder的陈述曾发现LAION的数据集包括未经同意发布的患者图画，研讨人员也评论说，该数据集的质量并不纯粹。如此巨大的数据集必然会有其他的伦理问题呈现，OpenReview上的作者和审稿人好像就这些问题进行了颇有见地的意见沟通。

从文本到全部！

假如人工智能模型能够将文本转换为图画，那么它们能够将文本转换为视频吗？当然能够！10月份，一批从文本到视频的生成软件面市。Meta公司的Make-a-Video能够依据文本和静止图画生成视频，而谷歌大脑的Phenaki能够依据一系列构成故事的提示词生成一个接连视频。

或许更有用，或者说更令人担忧的是，这些生成模型也能担任代码的编写。当用户注意到GPT-3能够写出像样的代码时，GPT-3开始登上新闻头条，声名鹊起。从那时起，代码生成言语模型的才能有了很大的进步。OpenAI的Codex能将自然言语转化为代码，并且许多其他相似的模型也在纷纷效仿。DeepMind的AlphaCode也能以合理的水平处理编程问题。

这些技术进步彼此追赶的速度令人印象深入，正如Kevin Roose等人所评论的那样：“AI的开展速度如此惊人，怎样着重都不为过。我刚写完一篇关于AI惊人开展速度的文章，市场上就有了一些严重发布，包括OpenAI的Whisper（语音到文字的转录软件）和文字到视频的生成软件。”

并且AI还能够更进一步：文本也能够转化为其他前言，包括音频、动作和3D。

并且，正如咱们的同伴Jacky Liang博士所展现的，言语模型乃至能够依据自然言语指令编写机器人政策代码。

看起来生成式AI的可能性是无穷无尽的。咱们仅仅看到了人工智能模型创造力的雏形。我估计，跟着越来越强壮的模型开宣布来，文本将能够辅导许多的发明立异。红杉资本最近发布的《生成式AI运用格局》，现已展现了许多不同的细分赛道。

在一个特定的生成赛道内，有许多可能性和商业范畴能够运用这种类型的生成东西。文本生成不只能够承当文章的写作，还能够承当平台的后期言语调整；图画生成和文本转3D东西能够为游戏、信息运用和市场营销创造各种工艺品；其他运用供给了生成文档的才能。并且，正如上图所指出的，音乐、音频和生物/化学方面的运用还没有到来。

ChatGPT和更多的“文字到文字”

即使是在“文本到文本”范畴，也有海量的工作能够做：最近推出的ChatGPT在互联网上炸开了锅，基本上是由于该模型有才能以对话的方式全面答复问题。你能够要求它为你拟定一个简略的练习计划，写一个课程纲要，主张你做什么，向你某位哲学家的著作，以及其他许多工作。

不行值得注意的是，ChatGPT的常识有严重的局限性。

事实上，假如你要求ChatGPT供给关于某个特定主题的更多细节（例如普鲁斯特关于时间性质的主意），它就会开始自己绕圈子——挺契合你对一篇高中生作文的希望。事实上，ChatGPT的存在可能会改变咱们对写作技巧的某些方面的理解。

> 或许有理由感到乐观，假如你把这全部放在一边。或许每个学生现在都能立即进入更高的写作层次，每个学生都能够直接进入写作工作的更精密的方面，任何难以模仿的东西都将变得更显着。逗号衔接、主谓不一致、冗长的修饰语等令人头痛的机械性问题都不复存在，写作的根底技术现已直接给定了。

正如我所说到的，ChatGPT好像还只能对它所论述的主题作比较浅层次的描绘，无法太深入。它能够写得足够流通，并给你一些所需求的细节，但假如你能供给它所缺少的深入分析和深入理解，它就还不能替代你的工作。

文天性逾越自己吗？

通过在多模态数据集上练习模型，咱们能够理解文字、言语中编码的信息怎样映射到图画、三维图画和咱们周围国际的其他体现方式。“文本到图画”标明，生成的图画能够反映准确的文字描绘。可是生成式AI还不能做到尽善尽美，Stable Diffusion模型在其生成的图画中显着存在着赋予人类正确手指数量的问题。

但值得注意的是，在“文本到图画”体系中，仅仅通过扩展言语模型就能完成改善。Imagen运用仅在文本上练习的T5编码器（110亿个参数），发生的图画比DALL-E 2更传神，后者的文本编码器已被练习为发生相似于匹配图画嵌入的文本嵌入。

也便是说，将文本转化为其他模态的可能性（咱们能够做什么，以及咱们用目前的办法能走多远）并不显着。对那些看到真实开展限制的观点，我感同身受：尽管“文本到图画”数据集能够告诉咱们这个国际的许多现象，但它们不存在于物质国际中，缺少像咱们相同能够与物体、与其他人类互动的才能，并通过互动从周围国际中搜集视觉和非视觉信息。

可是显然，有许多工作能够做。谷歌最近的RT-1（变形机器人）展现了怎样运用自然言语来处理机器人使命。

“ChatGPT能够为你策划一场主题派对，但它能帮你在派对完毕后清扫屋子吗？很可惜不能。我在谷歌机器人的朋友刚刚公布了RT-1，一款带有眼睛、手臂和轮子的变形机器人！”

正如Franois Chollet在一次采访中向我指出的那样，在“文本到图画”这个范畴，神经网络的才能能够大放异彩。我也对潜在的二级运用场景感到兴奋，比如在文本辅导下的分子规划和其他并不清楚明了的构思。

然而，我以为要真实开掘“文本到X”模型的潜能，着实需求有更好的界面：咱们需求以更好的方法，向模型表达咱们的意思、概念和主意。提示工程作为一门学科呈现，能够反映出咱们目前与GPT-3等模型的沟通方法是低效的。

展望未来，我以为在咱们使“文本到全部”成为实际的过程中，咱们需求处理两个驱动开展的问题：

1. 咱们怎样构建界面，使咱们能够更好地将咱们的目的传达给AI模型？

2. 这些模型能够为咱们带来哪些有用的生成成果或举动？

可是在实践问题之外，我以为另一个问题更有意思：文本到{文本、图画、视频等}的模型并不完美，但十分好用。在将主意以图画或视频的方式呈现出来这一方面，这些模型远比普通人，乃至是本身颇有艺术造就的人类要好得多。正如Daniel Herman关于ChatGPT提出的问题：对从事艺术、从事视频制造而言，文本到全部意味着什么？咱们是否会进入这样一个时期：艺术的根底常识变得愈加商品化，任何人都能够通过不同的前言，以更精密的艺术方法传递自己的思想？在那里，水彩画的技巧被简化为提示中的文字，剩余的便是人类和AI体系之间的共舞互动？

一如既往，咱们不应该夸张这些AI体系的才能——它们经常会呈现清楚明了的过错。可是，当遇到正确的问题时，AI能够体现得很超卓，为人类供给更多空间去做更风趣的工作，并追寻写作、艺术的更高层次。

并且，除了这些直接的运用之外，“文本到X”模型及其根底技术还有哪些尚待探究的进一步运用？研讨人员现已在考虑怎样运用NLP模型来猜测蛋白质的氨基酸序列，这是猜测字母序列的一个显着的运用，离生成文本只要一步之遥。投资者和人工智能陈述的作者Nathan Benaich，在我最近与他的谈话中说到，他对最先进的分散模型怎样运用于生物和化学范畴感到兴奋。

本年是“从文本到全部”的一年，假如说从本年的惊人开展中能够学到什么的话，那便是文本作为一种“宣布指令”的前言，正变得愈加强壮。你不需求艺术训练，也不需求一套数字艺术软件或绘画东西，也能来把“漂浮的城市”这一主意变成视觉实际。你能够把它说出来或打出来，让它存在。

你将用你的文字创造什么？

来源：DeFi之道

作者：Daniel Bashir

人工智能市场营销建筑投资文本分析机器人艺术软件音乐

版权声明：本文收集于互联网，如有侵权请联系站长删除。
转载请注明：AI 赋予文字无限力量：“由文本生成一切”的一年 | 币百度

AI 赋予文字无限力量：“由文本生成一切”的一年

多形状终于成为实际

分散模型（diffusion model）登场

从文本到全部！

ChatGPT和更多的“文字到文字”

文天性逾越自己吗？

从Base的推出浅谈Coinbase的多元化战略尝试

从代币到版税再到聚合器头部NFT交易所的下轮战火将烧至哪里

相关文章

AI 赋予文字无限力量：“由文本生成一切”的一年

多形状终于成为实际

分散模型（diffusion model）登场

从文本到全部！

ChatGPT和更多的“文字到文字”

文天性逾越自己吗？

从Base的推出 浅谈Coinbase的多元化战略尝试

从代币到版税再到聚合器 头部NFT交易所的下轮战火将烧至哪里

相关文章

从Base的推出浅谈Coinbase的多元化战略尝试

从代币到版税再到聚合器头部NFT交易所的下轮战火将烧至哪里