OpenAI的DALL·E 3:搭配ChatGPT将颠覆传统平面设计师的工作!
DALL·E 3:AI的最新进展可以将文本转化为令人惊叹的图像!
OpenAI发布了DALL·E 3,这是其文本图像工具的最新版本,能够根据自然语言描述创建惊人的图像。能否超越midjourney 看完你就明白了!DALL·E 3搭配ChatGPT将颠覆传统平面设计师的工作!
这是一件重大的事情,因为DALL·E 3在创建复杂提示的图像方面要比DALL·E 2好得多。例如,DALL·E 3可以准确地表示具有特定对象和它们之间关系的场景,还可以在图像中生成文本,并更逼真地呈现人体细节,如手部。最棒的部分是,您不需要进行提示工程来使用DALL·E 3,您只需输入一个简单的句子就可以获得令人惊叹的结果,无需任何黑客或技巧。
公众号:AI意识觉醒 可以领取10天左右的 GPT Plus号
那么,什么是DALL·E 3,它是如何工作的呢?DALL·E 3是GPT-3的120亿参数版本,经过训练可以从文本描述生成图像,使用了一个包含最多1280个标记的文本图像对数据集,并使用最大似然训练,以一个接一个地生成所有标记。标记可以是来自离散词汇的任何符号,例如对于我们,英文字母是我们字母表中的一个标记,总共有26个。但对于DALL·E 3,它的标记可以表示单词和图像的部分。
DALL·E 3是基于ChatGPT原生构建的,这意味着您可以将ChatGPT用作您的提示的头脑风暴伙伴和优化器,只需询问它您想在从简单的句子到详细的段落中看到的内容,ChatGPT将自动生成定制的详细提示,以使您的想法栩栩如生。如果您喜欢特定的图像,但不太合适,您可以要求进行微调,只需几个词,DALL·E 3将相应地更新图像。DALL·E 3现在处于研究预览阶段,将通过API在2023年10月开始提供给ChatGptplus和企业客户,并在今年秋季后期在实验室中提供。与DALL·E 2一样,您可以自由使用DALL·E 3创建的图像,无需Openai的许可即可重印、销售或制作商品。
现在看看DALL·E 3文本到图像模型,它们真的表现得非常出色,制作的图像比Mid Journey更详细和逼真,DALL·E 3的图像颜色更明亮,形状更清晰,整体外观更好。相比之下,Mid Journey的图像看起来模糊,不太清晰。另一个流行的模型是Stable Diffusion XL,它旨在根据文本提示生成图像,它声称可以用更少的词生成图像,甚至可以将文本放入图像中,但当您看看DALL·E 3能做什么时,Stable Diffusion XL并不完全匹配。
Dowilii的图像质量更高,文本更清晰,设计更吸引人,而Stable Diffusion XL的图像似乎有颗粒感,有太多微小的细节,有时似乎毫无必要。然后还有DeepFloyd IF,它是一个新模型,声称可以巧妙地将文本放入图片中,但当我们看到它在DALL·E 3旁边的表现时,很明显DeepFloyd IF的能力无法与DALL·E 3相匹配,Openai的新模型将文本和图片结合在一起的方式更加流畅,看起来更加真实,而DeepFloyd IF的图像看起来不太好,感觉假的。
DALL·E 3正在引领将文本转化为图像的道路,它是从DALL·E 2中迈出的重要一步,比其他可用的模型更好,它可以制作出色的图像,无需额外的微调,而且可以与Chat GPT一起使用,使其更加多才多艺和强大,同时也容易使用。老实说,AI工具的易用性非常关键,这就是为什么ChatGPT仍然是全球最受欢迎的AI聊天机器人,尽管某些聊天机器人可能更适用于特定任务,但由于其便利性,ChatGPT仍然是首选。
尽管DALL·E 3是OpenAI的最新杰作,但了解它的发展历程也是很重要的。最初的Dolly是一项革命性的创新,于2021年1月问世,到了2022年4月,世界见证了一个非常先进的续集,重新塑造了AI生成图像领域。这些模型背后的技术被称为潜在扩散,它逐渐将噪声转化为系统从训练数据中识别出的图像。这个技术后来为Openweight Stable Diffusion等其他模型铺平了道路,但OpenAI致力于改进文本到图像合成的AI工具,这并不是与其他强大竞争对手孤立存在的,这些竞争对手都在努力完善其图像生成模型,它们在特定领域甚至具有独特的优势,当然,DALL·E 3也并不完美,它仍然存在一些需要解决的限制和挑战。正如我们都知道的,AI生成图像的兴起并不是没有争议的。
随着AI大规模抓取人类艺术作品的数据集,全球艺术家对其作品风格可能被不道德地复制或侵犯的担忧日益加深。这种担忧非常严重,以至于出现了针对版权侵权的抗议、诉讼以及美国版权局等机构的裁定。最近,美国地区法院法官甚至就AI生成的艺术品的版权性质做出了裁定。
OpenAI目前正面临一群美国作家的诉讼,其中包括著名的约翰·格里沙姆和乔治·R·R·马丁等人,他们指控公司未经许可使用他们的作品来训练ChatGPT。
OpenAI已经采取了一些措施,限制了DALL·E 3生成暴力、成人或仇恨内容的能力,并实施了降低通过名称请求公众人物的请求以防止生成可能被用于宣传或误导的图像的措施。此外,他们还设计了DALL·E 3,以拒绝请求,要求以活跃艺术家的风格生成图像,以尊重其他艺术家的权利和创造力。
这些步骤不足以确保DALL·E 3的道德和负责任的使用,仍然存在许多未解决的问题和围绕AI图像生成的争议,例如,谁拥有AI生成的图像的权利、如何保护人类制作的艺术的原创性和真实性,以及如何防止滥用AI生成的图像用于恶意目的。
OpenAI正在努力寻找解决方案,他们正在开发一种称为"provenance classifier"的工具,用于确定DALL·E 3是否制作了特定图像。他们希望使用这个工具更好地了解生成的图像可能的用途,并为未来的政策和实践提供信息。
DALL·E 3无疑是一项重大突破,将文本转化为图像。它是从DALL·E 2中跨出的重要一步,比其他可用模型更出色,无需额外的微调。但与其崭露头角的同时,我们也必须认识到AI图像生成领域仍然面临许多伦理和法律挑战,这需要继续深入研究和监管来确保公平、负责任和创意的使用。
- 点赞
- 收藏
- 关注作者
评论(0)