根据官方纸码,OpenAI如何实现GPT-3的图像版?
- 前沿科技
- 2021-02-26
- 41
OpenAI发布了一些DALL-E的论文和实现代码.
今年年初,OpenAI图像版GPT-3,DALL-E 120亿参数的刷屏社区,这个大模型可以将大量自然语言表达的概念转换成合适的图像,效果惊人。
如果你输入“鳄梨形状的椅子”,你可以得到绿色和不同形状的鳄梨椅子图像。
如果GPT-3也一样,大家都在期待OpenAI发布Dall-e的官方文件和实现代码
经过近两个月的等待,DALL-E的文件和代码终于发布了!
然而,这个项目正在更新。截至发稿时,DALL-E只开放了由图像重建部分d-VAE训练的CNN编解码部分,而Transformer代码部分并未公开。况且数据集是不能用的。这篇论文也是由VAE发表的。
项目地址:https://gitHub.com/openAI/DALL-E论文地址:https://arxiv.org/abs/2102.12092
我们只能期待进一步的OpenAI披露更多的技术细节。
DALL-E的部分代码是开源的
这是d-VAE给DALL-E的官方PyTorch包,运行Dall-E/笔记本/usage.ipynb程序之前,需要安装软件包。代码如下:
pip安装git https://github.com/openai/DALL-E.git
解码器和编码器的代码
VAE论文
年初,一些人在报纸公开之前就开始重新出现。他们再现的基础来自一个博客作者制作的管道视频。视频中猜测了DALL E的原理结构。那么,现在报纸公开了,是不是颠覆了他的预期?
传统上,文本到图像的生成侧重于在固定的训练数据集上找到更好的建模假设。这些假设可能涉及复杂的体系结构、辅助损失或辅助信息,例如训练期间提供的对象部分标签或分割掩码。本研究提出了一种基于变压器的简单方法,将文本和图像令牌作为单个数据流进行自回归建模。在有足够的数据和扩展的情况下,当通过零触发进行评估时,本研究中提出的方法与以前的特定领域模型相当有竞争力。
深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习
在近日发表的一篇论文中,图灵奖得主 Yoshua Bengio 等详细介绍了其团队当前的研究重心:将机器学习与因果推理相结合�
发表评论