首页 Metaverse 为什么硅谷对人工智能生成的简陋图像如此兴奋?
为什么硅谷对人工智能生成的简陋图像如此兴奋?

为什么硅谷对人工智能生成的简陋图像如此兴奋?

  过去几年,几个叫做“生成式人工智能(Generative AI)的新程序引起了人们的兴趣,只需一个简单的指令就能生成符合要求的新图像。这些图像简单粗糙、不甚完美。但是大多数程序能生成无数张图像供使用者选择,没有什么能够阻挡人类使用一个计算机生成的新图像作为更完美作品的起点。

  现在,计算机程序可以在几秒钟内创建出从未见过的新图像。给程序输入一些指令,它就会生成一张符合指令的新图像,无论要求多么奇怪。但是这些图像并不完美,他们的特点往往是人物的手有多余的手指或手指弯曲不自然。图像生成器在处理文本、提出无意义的符号或编写字母表方面存在问题。但是,这些现在看起来像玩具的图像生成器可能会成为新科技浪潮的开端。技术人员称之为生成式模型(Generative Models),或生成式人工智能( Generative AI)。

  NextView Ventures的风险投资家David Beisel表示,在过去三个月里,“生成式人工智能”这个词从“没人讨论”变成了一种“时下流行”。过去一年,生成式人工智能大受追捧,诱惑着从业者离开原有工作岗位,创建新公司,并梦想着人工智能在未来使他们成为新一代科技巨头。过去几年,人工智能一直处于繁荣阶段,但这些先进技术大多与分析理解现有数据有关。人工智能模型已经变得足够高效,能够识别刚刚用手机拍下的照片中是否有一只猫,并且准确率非常高。但生成式人工智能可以创造出从未有过的全新东西。换句话说,“它们是在创造,而不仅仅是在分析”。

  “令我感到惊喜的是它能够创造新的东西。”Craiyon生成式人工智能的创始人Boris Dayma说到。

  红杉资本(Sequoia Capital)是科技行业历史上最成功的风险投资公司,早期对苹果公司和谷歌等公司进行了风险投资。红杉资本在其网站上的一篇博客文章中表示,“生成式人工智能具有创造数万亿美元经济价值的潜力。”从游戏到广告再到法律,生成式人工智能可能会改变所有需要人类创造性工作的行业。

  另一方面,红杉资本也在帖子中指出,这篇文章部分是由GPT-3编写的,GPT-3是一种生成文本的人工智能。

生成式人工智能是如何工作的?

  图像生成使用了机器深度学习的技术。2012年,一篇具有里程碑式意义的关于图像分类的论文重新点燃了人们对该项技术的兴趣,机器深度学习推动了人工智能技术的迅速发展。机器深度学习使用对大量数据进行训练的模型,直到程序理解这些数据中的关系。该模型可用于应用程序中,如识别图片中是否有狗,或翻译文本。图像生成器的工作原理是将这个过程反过来进行。例如,他们不把英语翻译成法语,而是把英语短语翻译成图像。通常有两个主要部分,一个处理初始短语,另一个将数据转换成图像。

  第一波生成式人工智能是基于一种叫做GAN(Generative Adversarial Network)的方法,GAN代表生成对抗型网络。GAN曾被用于生成现实中不存在的人的照片中。本质上,它们的工作逻辑是让两个人工智能模型相互竞争,以便更好地创建一个符合要求的形象。比较新的方法是使用转换器。这是一种新兴技术,可以使用更大规模的数据集,但是往往需要花费数百万美元的用于训练机器深度学习,这项技术在2017年谷歌的一篇论文中首次被提及。

  第一个引起广泛关注的图像生成器是DALL-E,这是一个由OpenAI于2021年发布的项目,OpenAI是硅谷一家资金雄厚的初创公司。OpenAI今年发布了一个更强大的版本。“有了DALL-E2,我们才真正跨越了恐怖谷效应。”专注于生成式人工智能的开发者Christian Cantrell表示。另一个常用的基于人工智能的图像生成器是Craiyon,以前称为Dall-E Mini,可以在网上找到。用户可以在浏览器中输入一个短语,并在几分钟内看到它的说明。据Dayma称,自2021年7月发布以来,它现在每天生成大约1000万张图片,加起来有10亿张以前从未存在过的图片。在今年使用量激增之后,他把Craiyon作为自己的全职工作。他说Craiyon的重点是利用广告,以保持网站图像免费给用户使用,因为该网站的服务器成本非常高。一个展示Craiyon最古怪和最有创意的图片的推特账户拥有超过100万的粉丝,并定期提供越来越不可思议或荒谬场景的图片。

  最能激发人们灵感的是于今年8月份发布的叫Stable Diffusion的程序。它的代码可以在GitHub上获得,并且可以在计算机上运行,而不仅仅是在云端或者编程接口中。这激励用户可以根据自己的需求调整程序代码,或者在此基础上构建程序。例如,Stable Diffusion通过一个插件接入到Adobe Photoshop中,允许用户生成背景和图像的其他部分,然后他们可以直接在应用程序中使用图层和其他Photoshop工具中进行操作,将生成式人工智能从生成已完成的图像转变为可供专业人士使用的工具。该插件的开发者Christian Cantrell表示: “我希望在创意工作者所在的地方与他们见面交流,我希望Stable Diffusion能激发他们的能量,将人工智能引入他们的工作流,而不是破坏他们的工作流。”

  Cantrell是一名在Adobe工作20年的老员工,今年从Adobe辞职专注于生成式人工智能。他表示,该插件已被下载了数万次。艺术家们告诉他,艺术家用他难以想象的方式创造性的使用这个插件,如在动画哥斯拉或蜘蛛侠的图像里创造任何动作姿势。

  “通常,你是从灵感开始的,对吧?你在看情绪板之类的东西,”Cantrell说到。“所以我对第一个版本的初步计划,让我们克服空白画布的问题,你输入你的想法,描述你的想法,然后我会给你一些东西,对吧?”

  使用生成式人工智能的新兴艺术技巧是如何构建“指令”或生成图像的单词。一个叫做Lexica的搜索引擎对Stable Diffusion图像和可用于生成它们的确切单词进行分类。Reddit和Discord在插件上列出了一些菜单指引,引导用户按照自己想要的图像生成单词的创造技巧。

初创企业、云供应商和芯片制造商都可以蓬勃发展

  一些投资者将生成式人工智能视为一种潜在的平台转变,就像智能手机或互联网的早期发展一样。这种转变极大地扩大了可能使用该技术的总体潜在市场,从少数敬业的书呆子转变为商业专业人士,最终是所有人。风险投资者David Beisel表示: “在此之前,人工智能并不是没有出现过;在2007年之前,我们也不是没有移动设备。但是这一刻,一切都汇聚到了一起。真正的人、最终用户消费者都可以进行试验,看到与以前不同的东西。”

  Cantrell认为生成式机器学习类似于一种叫数据库的基础的技术,这项技术最初由甲骨文等公司开创。

  在20世纪70年代,作为在清晰划定的行和列中存储和组织离散信息位的一种方式,想想一个巨大的Excel电子表格,数据库已经被重新设想为网络中从存储到移动的每一种可想到的计算应用程序中的每一种数据类型。“机器学习有点像数据库,数据库是网络应用程序的巨大解锁器。几乎我们生活中使用过的所有应用程序都位于数据库之上。没有人关心数据库是如何工作的,他们只知道如何使用它。”Compound VC的管理合伙人Michael Dempsey表示,以前仅限于实验室的技术进入主流的时刻“非常罕见”,它们吸引了大量风险投资者的关注,这些投资者喜欢在可规模化的领域下注。尽管如此,他警告说:生成式人工智能的这一时刻可能最终成为一个“好奇阶段”,更接近宣传周期的顶峰。在这个时候成立的初创公司很可能会失败,因为他们没有专注于企业或消费者愿意付费使用的特定用途。

  该领域的其他人认为,今天开创这些技术的初创公司最终可能会挑战目前在人工智能领域占据主导地位的软件巨头,包括Google、Meta和Microsoft,。Hugging Face的首席执行官Clement Delangue说到,“将来会有一大批市值万亿美元的公司,一整代初创企业将以这种新的技术作为基础。”Hugging Face是一个类似GitHub的开发平台,提供预先训练过的模型,其中包括Craiyon和Stable Diffusion。它的目标是使人工智能技术更容易为程序员所使用。其中一些公司已经开始大规模融资。

  今年早些时候,Hugging Face从Lux Capital和红杉资本等投资者那里筹集到了大量资金,并且估值20亿美元。该领域最著名的初创企业OpenAI已经从Microsoft和Khosla Ventures那里获得了超1亿美元的资金。与此同时,据《福布斯》报道,Stable Diffusion的创造者Stability AI正在进行商业谈判,计划筹集高达10亿美元的风险投资。

  像AWS、Microsoft和Google这样的云供应商也可以从中受益,因为生成式人工智能需要非常巨量复杂的算力。Meta和Google已经雇佣了这个领域里最杰出的技术人才,希望这些先进技术能够融合到公司的产品中。今年9月,Meta发布了一个叫做“Make-A-Video”的AI程序,该程序可以生成视频而不仅仅是图像,使生成式人工智能技术更进一步。“这是相当惊人的进步,”Meta首席执行官Mark Zuckerberg在他的Facebook 上说到,“生成视频比生成照片要困难得多,因为除了正确生成每个像素之外,系统还必须预测它们将如何变化。”近期,Google与Meta进行了合作,共同发布了一个叫做Phenaki的程序的代码,该程序可以进行文本到视频的转换,并生成几分钟的视频。生成式人工智能的繁荣发展还可能带动英伟达(Nvidia)、AMD和英特尔等芯片制造商,因为这种先进的图形生成器,是训练和部署人工智能模型的理想选择。

  Nvidia首席执行官Jensen Huang 强调,生成式人工智能是该公司最新芯片的一个关键用途,他说这类程序可能很快“革命性地改变通信”。目前,生成式人工智能可盈利的最终场景很少见,今天很多令人兴奋的项目都围绕着免费或低成本的使用场景。例如,一些作者已经尝试使用图像生成器为文章制作图像。Nvidia的一个例子是使用模型生成新的人、动物、车辆或家具的3D图像,这些图像可以填充虚拟游戏世界。

可能存在的道德问题

  最终,每个开发生成式人工智能的人都将不得不努力解决一些来自图像生成器的伦理问题。

  首先是就业问题。尽管许多程序需要一个强大的图形处理器,但计算机生成内容的费用仍然比专业插画师的费用便宜得多,专业插画师的人力成本费用每小时需要花费数百美元。这可能会给艺术家、视频制作人和其他从事创造性工作的人带来麻烦。例如,一个人的工作是为宣传片选择图像或创建营销材料,这很快就会被计算机程序取代。事实证明,机器学习模式的数量级可能将开始变得比那个人更好、更快、更便宜。

  另外,作品原创性和所有权也存在着复杂的问题。生成式人工智能是在大量图像上训练出来的,原始图像的创作者是否有权对生成的图像有版权要求,使其符合原始创作者的风格。一位艺术家在科罗拉多州赢得了一场艺术竞赛,他使用的图像主要是由一种名为MidJourney的生成式人工智能创造的。不过,他在获胜后接受采访时表示,他是从自己创造的数百张图像中选择一张,然后在Photoshop中进行修改后处理这张图像的。

  一些由Stable Diffusion产生的图像似乎有水印,表明原始数据集的一部分是受版权保护的。一些使用指南建议在用于生成图像的“提示”指令中使用特定在世艺术家的名字,以获得更好的效果,模仿该艺术家的风格。上个月,Getty Images公司禁止用户将生成式人工智能图像上传到其库存图像数据库中,因为该公司担心图像存在版权问题。图像生成器也可以用来创建商标人物或物体的新图像。

  随着图像生成软件发展越来越快,它也有可能欺骗用户,让他们相信错误的信息,或者生成从未发生过的事件的图像或视频。开发人员还必须设法解决这样一种可能性,即经过大量数据培训的模型可能在数据中包含与性别、种族或文化有关的偏见,这可能导致模型在其输出的内容中显示出这种偏见。

Powered by Froala Editor