Pokémon AI，使用DALLE生成神奇宝贝图鉴

还记得我们上次分享的使用DALL-E生成神奇宝贝的文章吗，这次Reddit的网友又给出了效果更好的版本。

每年数以百万计的人都热切地等待着新一代神奇宝贝的发布。尽管收藏不断增加，但目标始终如一——Gotta Catch 'Em All！

作为一个狂热的神奇宝贝粉丝和人工智能爱好者，我曾多次尝试将两者融合都失败了。几年前，由于生成对抗网络 (GAN) 的出现，当图像生成开始蓬勃发展时，我尝试使用当时最先进的模型人工生成 Pokémon 图像。首先看看失败的作品。

随着图像生成领域的进步，可以生成的神奇宝贝的质量也在不断提高。一年后使用 ProGAN 的第二次尝试产生了稍微好一点的结果。虽然它捕捉到了神奇宝贝的清晰轮廓，但它严重缺乏任何细节。

最近几年，生成建模领域取得了重大进展。随着 Transformer 的出现及其在海量数据上进行自监督学习的使用，图像生成进入了一个新时代。这些模型通常规模庞大，能够利用大量未标记的数据来学习高质量的表示。因此，这些模型可以在少量数据上进行微调，利用这些预先训练的表示来产生出色的结果。

值得一提的是模式崩溃的想法。当模型找到它认为最合理的图像时，它过于专注于产生特定的输出，导致图像缺乏多样性。早期的 GAN 深受这个问题的困扰，这反映在生成的 Pokémon 缺乏多样性上。

OpenAI 的 DALL-E，这是一种基于transformer 语言模型，能够使用文本-图像对的数据集从文本中生成高保真的图像。DALL-E 使用离散变分自编码器 (dVAE) 的组合来获得离散的潜在表示，同时利用强大的基于自回归transformer 的解码器来生成高质量的图像。dVAE 的使用有助于规避后验崩溃的问题——当它们与强大的自回归解码器配对时，潜在变量被忽略。

完整文章：

Pokémon AI，使用DALL-E生成神奇宝贝图鉴