【万字深度长文】AWS 首席执行官:没有云就没有人工智能

人工智能
后台-插件-广告管理-内容页头部广告(手机)

编者按:日前科技媒体The verge独家专访了AWS 首席执行官 Adam Selipsky ,谈到了他领导AWS的决策原则,以及在人工智能时代,亚马逊AWS的人工智能战略等话题。文章很长,建议先收藏再细细读。耐心读下来之后,读者们应该大概能够理解,今天的AWS为什么能够开创云计算市场,并在这个市场一直领先,并且它在人工智能时代也非常可期。

以下是经编译的正文:

采访背景

迄今为止,AWS 已经参与了 21 世纪几乎所有的大型计算变革。Adam Selipsky并不担心下一个。

今天,我正在与Adam 交谈。他是亚马逊网络服务(通常称为 AWS)的首席执行官。AWS 是一个很传奇的故事。它始于大约 20 年前的一项实验,当时亚马逊试图出售其过剩的服务器。人们确实对此表示怀疑。为什么在线书店试图销售云服务?

但现在,AWS 是全球最大的云服务提供商,也是亚马逊利润最高的部门,仅上个季度就创造了超过 220 亿美元的销售收入。据估计,AWS为全球大约三分之一的互联网提供了动力。在极少数情况下,AWS 集群出现故障时,无数平台、网站和服务都会感受到这种情况,数亿用户也会感受到这种情况。

Adam 几乎从一开始就在那里:他于 2005 年加入,在效力亚马逊11年后于2016年离开,转而经营Tableau,并于2021 年成为 AWS 首席执行官。当时 AWS 前首席执行官安迪·贾西 (Andy Jassy) 接替杰夫·贝佐斯 (Jeff Bezos) 担任亚马逊首席执行官。

虽然时间已经很长,但请注意 Adam 对 AWS 进一步增长的前景感到非常兴奋。他估计,即使微软和谷歌等大型竞争对手取得了进展,但潜在客户中也只有 10% 转向了云计算。

这留下了很大的增长空间,我想知道:他认为增长可以从哪里来?更重要的是,什么才能让 AWS 保持竞争力。

答案当然是人工智能。AWS 在人工智能领域大举进军,但也面临一些挑战。ChatGPT 的开发者 OpenAI 与微软签订了云服务独家协议。谷歌在人工智能上下了巨大的赌注,显然运行在自己的云服务之上,并通过谷歌云独家销售谷歌大模型的访问权限。

因此,AWS 必须在其他方面都表现出色,并且仍然必须争夺运行这些大模型所需的硬件,而这些硬件供应正面临极度短缺。

我还忍不住问 Adam 关于 AWS 如何在机场和 NFL 做广告 — 是否有人需要使用 AWS ,但并不了解它呢?Adam 的回答非常好。

现在最好的人工智能芯片是由 Nvidia 制造的,该公司不久前在将其 GPU 技术用于人工智能方面下了很大的赌注。它的 A100 和 H100 GPU 是最先进的人工智能芯片,但是即使对于 AWS 来说也很难获得。这也意味着很多厂商都在尝试制造自己的芯片,AWS 有两个芯片,称为 Trainium 和 Inferentia。

好的,采访AWS 首席执行官 Adam Selipsky开始了。

(为了篇幅和清晰度,以下文字经过了编辑)

【万字深度长文】AWS 首席执行官:没有云就没有人工智能

AWS 首席执行官 Adam Selipsky

云转型背后的深刻意义

记者:Adam Selipsky,您是 Amazon Web Services(俗称 AWS)的首席执行官。欢迎接受采访。

Adam:非常感谢您邀请我。

记者:AWS 将迎来 20 年,现在它已经成为亚马逊最赚钱的部分。它正在引领许多领域的发展,包括人工智能。你早期参与其中。您离职后成为 Tableau 公司的首席执行官。您于 2021 年重新担任AWS的首席执行官。您现在如何看待 AWS?

Adam:当我们开始时,我们谈论了很多 IT 收益,比如解放了很多IT运营当中的无差别繁重工作。但是,现在我们不再谈这些问题了。因为,我认为,人们已经真正明白,AWS可以真正改变组织的运行方式。我认为,我们已经成为公司重塑和转型的驱动力之一,而不仅仅是 IT 和互联网运作方式的一部分。

记者:“云转型,创新 IT 变革”就是AWS机场广告的内容。我的第一个问题是:你批准机场广告吗?对于您正在使用的话术“云转型”来说,这对您有用吗?这只是为了让人们了解 AWS 吗?或者这些代号是让具有决策能力的人说:“好吧,我熟悉 AWS。”

Adam:如果我们做得好的话,这其实就是现实。因为如果你去和我们重要的客户谈谈,他们正在改变他们所做的事情的特定部分。我们应该详细说明这意味着什么。但我认为它对他们有意义。这不是代码。我会称之为简写。它是他们所看到的变革的简写。

让我给你一个非常具体的例子:我可以给你看很多制药公司,他们以前有科学家,高薪的科学家,需要12到20周才能获得服务器,实际的物理服务器来进行他们的研究。他们会坐在那里等待,效率低下。

而通过AWS开创的弹性计算模型,你可以在不到30分钟内完成这项工作。制药公司一个接一个地告诉你,他们使用AWS改进了并缩短了药物的上市时间。所以,这是一个非常具体的例子。

如果你必须为一个大项目花费大量的资本支出,花费很多钱,你已经花了钱,你不会再拿回来了。即使项目进展不顺利,也没有人会轻易承认。但是在云计算的模式中,你只需要打开和关闭东西。所以会发生什么?你会得到快速的实验。所以当我谈到变革时,这不是一个时髦的词。它是关于,例如,一个特定的概念,即减少失败的惩罚。

记者:减少失败惩罚的说法,这是你的术语吗?你也是这么想的吗?或者这是市场随着时间的推移而发展起来的东西?

Adam:我们已经说了很长时间了,不同的人听到不同的含义。我们可能更擅长或更不擅长放大某些信息。但我认为它现在引起了人们的共鸣,部分原因是因为我们仍处于云之旅的早期阶段。我不知道该相信哪些分析师的报告,但我们可能认为,10% 或 15% 的 IT 现在已经迁移到云中。人们认为它一定不止于此,因为我们现在的业务年收入为 880 亿美元,而且还有其他云提供商,他们会说,“哦,这些都是巨大的业务。所以这件事肯定已经发生了。” 但IT实在是太庞大了。每年花费数万亿美元,很容易很快看出大部分迁移尚未发生。

记者:当你提到IT时,我对这个词特别好奇。我认为大多数人听到 IT,他们的大脑会转向那些提供笔记本电脑的人,或者他们的鼠标坏了,或者打印机无法工作。您正在以一种截然不同的方式谈论 IT。“我正在创业,这个生意是在互联网上进行的。为了运行该业务,我需要在计算机上运行一些代码,需要配置、维护该计算机、升级服务,而亚马逊应该完成这些工作,以便您可以专注于计算机上运行的代码。”

Adam:完全正确。过去,您必须拥有自己的数据中心或在其他人的数据中心租用空间。您必须在该数据中心拥有物理服务器。您必须通过网络连接到该数据中心。然后,这些物理服务器上有一堆软件,无论是数据库、存储软件、网站等应用程序,还是基因组分析,或者金融蒙特卡罗模拟,无论是什么——您都可以在堆栈上运行所有软件应用。云的第一次重大革命是 AWS 基本上取代了它。所以现在,您只需带来自己的应用程序,然后您只需在云上运行它们即可。这就是 AWS 所开创的。

这种不必受所有必须购买的东西束缚的概念改变了人们的思维方式。一个又一个的客户告诉我们,“是的,我们刚刚开始旋转东西。我们把东西分解,我们进行实验。我们知道其中一些将会失败。” 接下来发生的是公司内部的人变得更加创新,因此公司也变得更加创新。如果公司变得更具创新性,那就相当于公司的文化正在发生变化。所以,当我谈论转型时,是的,我想这可能是一个暗语。这是一个暗语:减少失败的惩罚,提高创新能力,实际上,每个人每月都会获得比以前更多的新想法。这是我们客户内部的文化变革,他们发现这种变革的力量非常强大。

投放机场广告背后的考量

记者:AWS 在 NFL 上的广告支出以及机场的广告是否值得?

Adam:我们非常仔细地审视我们的所有支出。总体而言,亚马逊是一家非常节俭的公司。AWS 也不例外。我们现在已经是一家足够大的企业,拥有许多不同类型的客户,技术含量很高的开发人员,他们是我们的第一批客户,并且在许多方面仍然是 AWS 的命脉。我们还有财富 50 强公司的首席执行官和政府机构的首席信息官以及中间的每个人,因此您可以在不同的地方以不同的方式接触不同的人。

我们公司的广告规模可能比许多其他公司要少得多。但我们确实认为,某些媒体合作伙伴针对我们的某些客户发布的某些信息,广告和意识建设是有用的。对于 NFL,我们不仅仅是与 NFL 一起做广告,我们还与 NFL 一起进行创新。

我们拥有围绕下一代统计数据的整个系列功能,并且 NFL 正在真正进行创新,为客户提供令人难以置信的有趣数据。我们在球员安全方面与 NFL 紧密合作。我们在足球场和球员身上安装了 300 多个传感器。我们正在考虑天气、场地本身和设备等因素。NFL 将利用我们帮助他们建立的所有分析能力来减少脑震荡、减少膝盖受伤,并让运动员更安全。

这些就是我们想要讲述的故事类型。我们不仅仅是想说,“哦,AWS 存在。” 我们想说的是,“这就是 AWS 对于正在观看这场足球比赛的观众的意义。这意味着您将获得更好的体验。这意味着你可以理解这些运动员。我们尝试尽可能将AWS与该合作伙伴相关的应用场景真正联系起来。

记者:我总是很想问这个问题,因为在 NFL 比赛期间,我的 Twitter 或其他信息流上都是已经知道 AWS 是什么的人们,他们都在说:“谁还不知道 AWS 还会需要 AWS 呢?”

Adam:如果你回想一下,也许云已经渗透到 IT 的 10%,那么另外 90% 又在哪里呢?其中一些在现有客户中的比例正在从很小的比例上升到很大的比例。其中一些是新客户。当然,有些国家在云采用方面的进展不如美国。甚至美国也还处于起步阶段。再说一次,我认为人们看到我们的业务规模以及我们的发展速度有多快,他们会说:“嗯,它一定非常成熟。未来不可能有更多了。” 但这不是真的,那是因为整个市场规模是如此巨大。

云技术还处于早期阶段。很多创新都在我们身后。我预测 10 年后我们回顾时会说:“你还记得 2023 年吗?那时一切都还那么年轻。而且那时候还那么早,你能相信X、Y、Z吗?” 我的意思是,作为一个独立市场,我们还远未成熟。

AWS的差异化

记者:您很好地总结了AWS 价值,大致是:“您不应该运行这么多自己的计算机。把它交给我们。您可以扩大或缩小规模,这会降低您的风险。它会让你更有创新精神。” 但是把这些推荐词的某些版本粘贴到 Microsoft Azure 或 Google Cloud也是可以的。我想谈谈差异化。当您考虑竞争环境时,您的云业务的颠覆性竞争对手现在在哪里?那些以不同方式做你没有做的事情的小公司在哪里?您看到这种情况了吗?或者说这三个巨头正在碾压一切?

Adam:好吧,我首先要说的是,大型云服务提供商并不都是一样的。顺便说一句,我们面临着激烈的竞争。但这对我们的客户有好处。坦白说,这对我们也有好处,竞争让我们变得更好。但我们并不都一样。如果查看过往的记录,就会发现我们比其他云更安全,出现问题的类型确实也较少。但我们对此并不骄傲。安全不是能够自满的事情,因为你永远不知道明天会发生什么。但从经验来看,由于我们采取的方法和付出的努力,我们变得更加安全。

其次,非常重要的是,我们拥有绝对一流的卓越运营和可靠性。再说一次,虽然完美是唯一的目标,但我们知道我们永远不会真正达到统计上的 100.0% 的完美。每当我们遇到服务问题时,我们都会感到非常痛苦,因为这对我们的客户来说也是痛苦的。但同样,根据经验,如果你查看第三方的测量结果,我们的正常运行时间是所有主要云提供商中最高的。在过去的几个月里,其他一些厂商出现了一些非常明显的多天服务中断,这在 AWS 的历史上从未发生过,这是因为我们的架构不同。所以我们并不都一样。我们拥有最广泛和最深入的能力,这就是为什么我们比其他云提供商要大得多。

除了这些供应商之外,竞争还来自哪里?我想你会看到现在无处不在的人工智能。你可以很容易地看到一些刚诞生不久的初创公司——或者甚至还没有诞生,所以我们都不知道——以不同的方式解决这些问题。

我个人多次谈到,我们不想表现得像现任者。我们总是想像一个叛乱者一样行事:现有者担心他们拥有什么并担心如何保护它,而叛乱者则考虑客户的可能性。我们怎么可能以他们今天不高兴的方式让他们高兴呢?让我们去做吧,无论需要付出什么代价。现任者管理数字和比率,而颠覆者管理产品或客户。

我们试图让尽可能多的人关注产品和客户。你可以看到,随着人工智能领域发生的所有创新和变革,这些公司中的任何一家都可能醒来并决定,“嘿,亚马逊 - 或任何其他大型云提供商 - 他们认为自己有数据库业务,或者他们以为他们有存储业务。但相反,我是一家人工智能公司,做的是完全不同的事情。我正在以不同的方式看待世界。” 我选择对可能存在或甚至可能不存在的初创公司抱有强烈的警惕性,他们会以不同的方式解决问题,并从我们看不到的角度解决问题,因为我们有现有的业务。

如何在AWS做决策

记者:亚马逊确实有一套非常强大的领导原则和非常清晰的决策流程。听起来你是在说,你想要时刻处于“Day one”的心态,而不是“Day two的保护心态。你的决策框架是什么?你如何做决定?

Adam:这是一个很难抽象地回答的问题,但让我尝试一下。你提到了亚马逊的领导原则,我们有 16 条。我有时称其为亚马逊的操作系统。我们在招聘时运用这些领导原则。因此,如果我正在进行循环面试,我可能会被分配“坚持最高标准”或“大胆思考”或“学习并保持好奇心”。我实际上会面试这个领导原则。它确实成为日常用语的一部分,成为亚马逊词汇的一部分。它们非常重要。如果我必须选择一个,那么亚马逊真正的核心就是顾客至上的领导原则。

为了回答你的问题,我认为我们(当然是我自己)做出决策的方式是始终从客户的角度出发。顺便说一句,人们存在误解——我了解到,当人们说以客户为中心,或者我们说客户痴迷时,他们的意思是不同的。我认为,很多人认为你表现出这一点的方式是在情感层面上。“我不喜欢我的客户吗?” 据我所知,有一些非常传统的 IT 竞争对手,他们似乎不喜欢他们的客户。或者你可能喜欢你的客户,或者你可能爱你的客户,人们认为这才是真正的以客户为中心。

但我学到的是,你不能用情感尺度来衡量这一点,而且你真正能做的最以客户为中心的事情是双重的。第一,以大多数公司不花时间去做的方式深入了解您的客户。当然,他们会发出一份调查报告,或者让产品经理与一些客户进行交谈,但他们并没有深入了解他们的客户到底遇到了什么问题,也没有确切地了解他们对你迄今为止所构建的产品的看法。

然后,第二部分实际上比第一部分更难,就是接受这种理解并真正将其置于决策的中心。就是这么简单。你对客户有全面的了解,然后当你给某样东西定价时,你会说:“哦,好吧,对我来说,怎样才能利润最大化?我需要做什么?” 我看到在很多公司,当他们做出最重要的决定时,他们只是例行公事地将客户信息放在门口。

在做出决策时,我们确保将客户视角放在房间的中心。我们这样做的方式就是逆向工作过程。因此,任何时候我们要构建一些东西,不仅仅是一个大型新服务,甚至是现有服务的中型功能,我们实际上会在开发人员开始编码之前编写新闻稿。如果我们不能用简单的语言描述我们想要为客户构建的这个东西的令人高兴和突破的地方,那么我们到底为什么要浪费时间去构建它呢?

你还可以消除团队之间的各种误解。我们是为开发人员构建这个吗?我们是为 IT 员工构建它吗?这是针对业务线用户的吗?我们要在堆栈中构建多高的层?它会建立在我们原始的服务之上吗?我们需要新技术吗?这是一份新闻稿,然后是该新闻稿背后的详细常见问题解答。我们每年都会这样做数十次或数百次。这样我们就知道,我们即将开始构建一些至少可以为客户带来卓越表现的产品。这可能是我们做出决策的核心。

对我个人而言,另一件事是听到很多声音。我真的很喜欢吸收很多不同的观点。我并不认为离我最近的、最资深的人总是有最好的想法,或者总是对某事有最敏锐的观点。我会推动并要求人们证明并捍卫他们所说的话。这对我来说非常重要,可以帮助我们达成一致。或者,如果我们无法达成一致,至少可以让高级决策者能够能掌握尽可能多的知识,然后做出决定。

如何在AWS做决策

记者:请告诉我您是如何让 AWS 达到新规模的?我们要缩小组织规模。这是你的决定吗?你是如何将其付诸实践的?

Adam:首先,我要说的是,任何时候你要裁员,都会非常痛苦。你所面对的是人们的生活、他们的生计,而且还涉及他们的家庭。我们非常重视它,了解它对人们的影响。所以我不想以任何方式来最小化这一点。AWS 的员工数量增长极其迅速。只是在2020 年到 2022 年底,AWS 就增加了数万名员工。然后,今年早些时候,当我们考虑整体经济不确定性、宏观经济环境以及我们真正希望专注于最重要的优先事项时,我们最终确实进行了小幅个位数的裁员。

我们做出了这样的决定:我们如何才能提高效率,同时确信我们仍然拥有大量的创新潜力?我们试图越来越清楚我们真正的优先事项是什么。我们成长得如此之快,所以我们做了很多事情。我认为,任何时候当你处于这种情况时,时不时地退一步说:“我们的首要任务是什么?对客户来说最重要的服务是什么?”

在很多情况下,我们只是调动人员和团队,以便今年能够专注于我们最重要的优先事项——并不是因为有的东西不好,也不是因为它们是坏主意,而只是因为我们决定专注于最重要的事情。在少数情况下,如果我们没有足够的特定领域所需的技能,我们将取消这些角色。在我们最优先考虑的领域,我们仍然有空缺职位正在招聘,而我们裁掉的员工不具备现有的技能。

记者:你正在谈论重组AWS,重做优先事项。AWS 现在的架构如何?

Adam:在我们的产品方面,我们一直并且继续是非常去中心化的。我们针对创新和速度进行优化。速度经常被低估。我认为人们极大地低估了速度的重要性和力量。他们对此也非常宿命论。我经常听到客户说:“我们只是一家速度不快的公司。我们没有能力变得灵活。” 我告诉他们,速度是一种选择。你可以选择行动的速度,而这个选择需要考虑很多因素:你如何组织,你有多少人和什么类型的人,以及高层领导对他们的团队坚持的要求。

有一系列的事情很快就会发生。其中之一是组织。我们选择建立我们通常所说的可分离团队。所以我们希望团队尽可能独立。当然,现在团队确实相互依赖,但也可以有更少的依赖。我们选择尽可能多地分解和重构团队,使他们尽可能自治。他们尽可能掌握自己的命运。

另一个关键概念是单线程。如果你选择现有的成功企业和该企业的领导者,然后给该人一个新项目来开展工作,那么该项目几乎不可避免地会陷入困境,因为他们有收入来源、业务和运营来维持运营。

相反,我们倾向于做的是,让超级成功的领导者摆脱他们正在做的事情,让他们一心一意地对待新事物。这样,它就能获得 100% 的注意力。因此,我们确实有许多小企业或产品领域的总经理,他们既负责开发又负责产品管理,这些类型的职能。当统一在一个领导者的领导下时,他们的行动速度比我们拥有一些大型的、单一的职能结构要快得多。

现在,在进入市场方面,我们不想带着 200 项单独的服务出现在客户面前。因此,在进入市场方面,我们的结构更加围绕按行业垂直或地理区域划分的组织。但我们总会有一个账户所有者,作为客户的引导者,为不同的产品或不同类型的技术主题引入各种专家。这样我们就可以尽可能多地展示 AWS 的一面。

人工智能竞赛

记者:现在,我正在关注人工智能——一个完全新生的市场。目前人工智能领域唯一赚钱的玩家似乎是 Nvidia,它向所有人出售芯片。另一方面,消费者类人工应用程序似乎非常热门,但还没有人赚到钱。因此,市场还没有制定出一套有意义的成本结构。您是否采用相同的方法来拓展人工智能市场?或者随着市场的发展我们可能必须更加灵活?

Adam:我觉得我们的基本做法是灵活的。我们有能力创建任何团队来专注于需要构建的任何东西,这比单体应用灵活得多。人工智能是基础。所有的炒作都是有原因的。我坚信,我们所交互的几乎每一个应用程序,无论是在职业上还是在我们的个人生活中,都将受到显着的颠覆,并且在许多情况下,将被人工智能彻底改造。

我认为,随着生成式人工智能的发展越来越重要,不会再出现单一的生成式人工智能公司。人工智能并不是一个单独的东西。它本质上与云紧密相连。我为什么这么说呢?一方面,你需要一个适合你的人工智能数据策略。无论你是在谈论更好地服务教育、更好地服务金融服务客户,无论你是在谈论药物发现,无论你是在谈论媒体、资产创造,你都必须知道你拥有什么数据。你必须知道你想要获取哪些数据并将其作为生成人工智能的输入。

那些长期在 AWS 平台上建设数据平台的公司拥有巨大的优势,因为它们能够将数据很方便地进行输入。先进的数据平台位于云端。它位于 AWS 上。这是一个有力的例子,说明了云中的数据和生成式人工智能如何相互绑定。

另一个原因是,生成式人工智能并不便宜。目前它的价格非常昂贵。GPU 的性能非常好,但也相当昂贵。例如,训练模型的成本非常昂贵。然后,运行推理或运行模型并在生产中对这些模型进行查询也非常昂贵。为了经济地完成这些任务,你需要云。绝大多数公司都需要像 AWS 这样的公司进行创新,随着时间的推移,大幅降低成本,以推动生成式人工智能的使用量呈指数级增长。

虽然我们确实是世界上最大的、也许是最大的基于 GPU 的主机之一,并且与你提到的 Nvidia 有着良好的关系,但我们也创新和设计自己的芯片。我们已经有了第三代通用芯片,但我们也有用于人工智能和机器学习的专用芯片:用于训练模型的Trainium,然后是用于运行模型和推理的Inferentia。这些芯片都做得很好,增长很快。

我非常有信心,因为它们拥有用于人工智能的所有芯片技术中最佳的性价比。这对于 Coherent、Anthropic、Stability AI 和 Hugging Face 等正在构建AI模型的初创公司来说非常重要。当然,对于已经在人工智能领域跟AWS合作的老牌公司来说,也很非常重要,比如 Travelers、Ryanair 和 Bridgewater Associates。

因此,云和人工智能并不是两个不同的东西。他们实际上只是同一事物的许多面孔中的两个。因此,我认为我们的组织模式将非常相似。我们已经建立了特定的目标团队来构建 Amazon Bedrock,特定的团队来构建我们自己的 Titan 模型的 Amazon 基础模型。我们正在建立一个专门的团队来处理 CodeWhisperer,等等。

记者:所以,这是一场比赛。看来你不认为比赛有终点。

Adam:对于我们任何一个商界人士来说,这场竞赛永远不会结束。你的表现取决于你今天为客户所做的事情。AWS 显然是云计算的先驱。我们于 2006 年推出了我们今天拥有的第一个云服务,S3存储服务。它已经 17 岁了。按收入计算,我们是我所见过的规模最大、利润率最高的公司。我不知道这是否属实,但我看到发布的统计数据称我们的规模可能是下一个最接近的竞争对手的两倍。但我们面临着非常激烈的竞争,而且我们才刚刚开始,我们并不比今天向客户提供的产品更好。所以比赛是永恒的。这是一个无限循环。

记者:AWS下一个最大的竞争对手是微软Azure。他们为独家访问 OpenAI 和 OpenAI 的模型支付了大量费用。如果要使用 GPT-4,则需要签署 Azure 合同。我们应该这样看待这场比赛吗?该模型的独家访问权似乎已经激发了每个人的想象力。

Adam:我们以客户为中心,从客户出发进行工作。因此,让我们通过列出为客户提供服务至关重要的三件事来回答这个问题。首先是选择和灵活性。我认为,一个模型统治所有是一个荒谬的主张。因为事实证明,同一个模型实际上并不适合一家公司的 5 个、10 个或 50 个用例,更不用说有数千、数万或数百万个用例的事实。显然必须有很多选择。因此,我们希望实现这种选择。而且,时间还早,现在就像生成式人工智能的第 0.1 天一样,我们不知道的东西比我们已知的东西多得多。对于客户来说,能够进行试验非常重要。所以第一是选择和灵活性。

对于任何老牌公司,尤其是企业和政府实体来说,第二点就是必须拥有安全性。安全和隐私不该被抛之脑后。但让我感到有点惊讶的是,这个领域的一些早期、最著名的进入者是通过扔掉一些东西开始的。没有安全模型,你的数据确实会通过互联网泄露。你在算法上对模型所做的任何改进都可能会返回到母舰中,并使你的竞争对手受益。然后他们回来说:“哦,等一下,将会有一个 V2,那将是这个的安全版本。”

安全不仅仅涉及功能,还是一种经营方式的哲学。如果我来到一家大型汽车公司或一家大银行,我会说:“嘿,我有一个新数据库,它真的很酷。它有很棒的功能。现在,它并不像其他所有东西一样安全,但别担心,我会让下一个版本成为安全版本。” 他们会把我赶出去。实际上,他们应该这样做。

我与至少 10 名财富 500 强 CIO 交谈过,这就是为什么他们禁止在其企业中使用 ChatGPT。所以,你必须问自己,谁会真正认真对待这里的安全问题。

然后,第三个东西就是此前谈到的数据。你的数据策略是生成式人工智能策略的一部分,它们不是两个独立的事物。

那么亚马逊、AWS 是如何看待这三件事的呢?Amazon Bedrock,这是我们用于运行生成式 AI 模型的托管服务。亚马逊正在建立自己的模型。我们从1998年就开始做AI。亚马逊网站上的个性化就是AI。我们于 2017 年推出了 SageMaker,这是世界上最大的机器学习平台。我们有超过 10万名客户在 SageMaker 上进行机器学习。然后,如果你想具体讨论生成式人工智能和基础模型,亚马逊的基础模型已经在生产环境中运行了几年。部分零售网站搜索由大型语言模型提供支持。如果你看看Alexa,很多 Alexa 的语音响应都是由 LLM 提供支持的。我们在这一领域拥有大量专业知识,并将其专门用于生成人工智能。

但是,我们还在构建我们自己的模型——扩展我们现有的模型并构建一些新模型。这些模型都将属于Titan品牌。这些Titan模型将于今年晚些时候推出。我们认为它们会很棒,而且对于很多客户来说它们的功能都非常强大。但同样,没有一种模式可以统治所有这些。

我们还与 Anthropic 建立了良好的合作关系,他们的模型就在其中,而 Stability AI 则负责生成图像的模型。Cohere 刚刚加入了 Bedrock、AI21,随着时间的推移还会有其他人加入。这都是一致的 API 集。因此,客户很容易拥有相同类型的框架工具,然后他们只需通过调用API 来使用他们想使用的模型即可。

我们的方法是提供简单的实验和非常广泛的选择。这就是第一个概念。

第二个是关于安全性……如果您使用 Amazon Bedrock 中的任何模型,它都与您的所有其他 AWS 资源位于同一个隔离的私有环境中。我们将其称为 VPC 或虚拟私有云。因此,所有内容都是加密的,不会通过公共互联网传播。如果您想使用这些模型之一,我们基本上会在您自己的虚拟私有云中实例化该模型。因此,如果你对模型进行算法改进,他们不会回到母舰来使你的竞争对手受益。这真的很重要。

第三,我们已经讨论过数据平台,以及如此多的客户如何让他们的数据平台真正在 AWS 上运行,这些客户需要我们拥有一套强大的生成式 AI 功能,因为他们知道他们的数据在哪里,还必须有他们的生成人工智能。这就是我们如何思考客户需要我们构建的能力。

打造自研人工智能芯片

记者:我的同事给我讲过一些故事,初创公司基本上需要 AWS 的内部连接才能让他们的人工智能应用程序上线,因为芯片的瓶颈非常高。您在这里要解决的第一个问题是我们的芯片需要具有竞争力或至少与 Nvidia 的芯片相当吗?或者是:我们只需要购买更多的 Nvidia 芯片?

Adam:我认为世界上每个人都希望有更多的芯片能够运行这些人工智能工作负载。无论你是谁,你都希望有更多。我认为,至少在短期内,需求超过供应,这一点毫无争议,对每个人来说都是如此。

记者:这是您正在积极致力于的事情吗?世界上没有足够的计算机或芯片来应对人工智能的市场机会。这是问题所在吗?

Adam:我们运行大量的 Nvidia GPU ——同样,我们是世界上最大的、也许是最大的 GPU 主机之一。客户正在抢购它们,它们被称为我们的 P5 实例。客户现在正在生产中使用我们的 P5 实例。我们肯定会在未来几周和几个月内引入更多的产能。我们将继续托管大量基于 GPU 的实例。

我们将成为一个非常重要的云托管服务商。此外,我们认为供应满足客户的需求非常重要,当然还要具有性价比和节能性,因此我们拥有自己设计的芯片,而不是 GPU。我们之前讨论过我们的 Trainium 芯片,而 Trainium 1已经上市一段时间了。Trainium 的未来版本也可能会出现。

记者:你把这个数字写在名字里。很容易猜测可能会有下一个数字。

Adam:是的,完全正确。与市场上任何其他替代方案相比,Trainium 为大量机器学习用例提供了出色的性价比。而且它只会不断改进。同样,对于我们所有的芯片,例如,我们的 Graviton3 芯片的能效比同等的基于 x86 的芯片高出 60%。同样,对于我们用于机器学习和人工智能的 Trainium 和 Inferentia 芯片,我们将非常非常注重能耗,这对我们的客户来说确实非常重要。因此,我认为 AWS 能够为我们的客户提供整个独立的供应链,这对于我们的客户来说非常有用且必要。我的意思是,你不可能只拥有一个全世界都依赖的供应链,而且可能会出现各种短缺和意想不到的事情发生。

记者:您是否预见到这样一个世界:您选择一个模型,并将该模型与某种亚马逊专有芯片配对,从而成为差异化因素?

Adam:这是一个很好的问题。我想说,很多模型都会选择在多个芯片上运行,并且他们这样做是有充分理由的。但我确实认为,您会看到某些模型提供商确实与 AWS 等公司非常接近,并说:“嘿,让我们一起优化。让我们确保该模型既能推动芯片的改进,又能利用该芯片的独特特性。” 因此,他们可能会选择不成比例地(或者在某些情况下可能完全)专注于一种芯片,因为这种专注具有显着的优势。但我也很确定您会看到很多模型在很多不同的芯片上运行。

这就是芯片方面。我认为我们为客户提供的巨大优势,特别是那些正在构建模型的客户,是这个完全独立的供应链,这个由亚马逊设计的芯片构成的完全独立的一整套能力。所以我认为芯片是一个很大的限制。

另一个很大的限制是电力。我认为众所周知,在世界上许多重要地点,计算能力的需求增长得如此之快,以至于不清楚在这些地点是否有足够的电力来为这些数据中心、服务器和芯片供电。我们正在全球范围内非常谨慎但积极地建设新的电力能力,这些地方我们认为有丰富的电力——清洁能源——因为到2025年,我们将在整个公司范围内实现100%的可再生能源,这就在不远的将来了。今天我们90%由可再生能源供电。所以我认为,在全球范围内建立整个芯片供应链,然后在美国以及其他国家的一些地方建立电力和数据中心容量,这些地方确实有意义,确实有发展前景,将成为我们提供所有这些客户所需求供应的关键。

构建负责任的人工智能

记者:亚马逊非常大——它只是一个非常大的公司。它涉足很多事情。最值得注意的是,它运营着一个巨大的电影工作室和流媒体服务,这些服务涉及到很多关于AI、艺术和版权法律等问题。AWS是一些数据托管的地方。这里是一些模型被训练的地方。你作为基础设施提供商是否考虑过这个问题?有一系列关于公平使用的版权法律问题即将出现,也许Stability会因为Getty而陷入麻烦。或者Anthropic会因为Reddit数据爬取而陷入麻烦,或者未来可能发生的任何事情。作为基础设施提供商,我们有一定的责任来调解这个问题,因为我们在AWS这边所做的事情可能会让Prime Video在那边与演员和编剧产生麻烦。

Adam:AWS非常关注负责任的AI和隐私以及所有伦理、监管和立法问题,这些问题都在得到适当的讨论。在AWS,我们不会因为Prime Video或任何其他内部客户而考虑任何独特的事情,就像我们在AWS做的其他所有事情一样,亚马逊是一个伟大的客户,一个非常大的客户,一个复杂的客户,他们经常是其他复杂企业要走向何方的很好的风向标。但他们没有特殊待遇。

记者:我不是在谈论亚马逊本身,而是说亚马逊作为一个公司制造艺术品。这对于亚马逊这样规模的科技公司来说是非常了不起的,就像它完全投资于制造艺术品。在创意社区中引起骚动的一件事是生成式AI:谁获得数据,谁拥有数据,是否公平使用数据进行训练。然后,在亚马逊的另一侧,你正在制造使这一切成为可能的工具。我只是想知道你个人作为负责这些工具的人,是否曾经刹车并说:“我们不知道这些问题的答案。一,我们可能只是让我们在Prime Video的朋友陷入麻烦。二,更重要的是,更直接的是,我们可能正在进入一个责任世界,因为我们已经让Stability去训练Getty的图像。”

Adam:我们不会踩刹车,但我们正在努力解决所有这些问题。一系列非常巨大和复杂的问题还处于早期阶段。这个问题不会在一夜之间得到解决,但现在就着手解决这些问题非常重要。

顺便说一句,我们不会自己解决这个问题。我们将努力成为所有这些问题的主导声音,但从本质上讲,我们无法自己解决这个问题。我们讨论了亚马逊正在构建的Titan模型,并且我们在用于训练模型的数据方面,非常认真地对待负责任的人工智能。减少诸如毒性之类的东西。准确性非常重要,因为关于模型中的幻觉有很多适当的讨论 - 基本上模型给你的结果不是真实的,或者它们是编造的,但它们看起来像是真的。

我们投入了大量的工作来最大限度地减少模型中可能发生的幻觉数量,并且还采用了各种交叉检查方法。因此,该模型可以判断它是否本质上是在编造一些东西,以便对您有所帮助。所以我认为这些模型将在准确性、毒性和适当的训练方面有一些真正的创新。其中很多内容将以积极的方式进入 Amazon Bedrock。因此,我们将拥有Titan模型,但也有其他模型提供商。我们正在制作一种叫做服务卡的东西。人们一直在讨论希望了解这些模型的内容、谁训练了这些模型以及使用了哪些类型的数据。

因此,我们正在为每个模型制作这些服务卡,并且我们希望为Bedrock内部的所有模型提供这些服务卡,它将提供有关该模型是什么的基本基本信息,并且至少在高级别上,使用什么类型的数据来训练它以及它的预期用途和限制是什么。我并不认为这会解决透明度、解决可见性问题,但至少在 2023 年,这是我们朝着正确方向迈出的一步。然后,在立法和监管方面,我认为我们需要成为许多重要声音之一。我们花了很多时间与政府、议员、欧洲和世界其他国家的类似机构打交道。

记者:您认为这对您来说更像是一个应用程序商店模式吗?那么,您是否检查过以确保 Meta 的模型不会以比其他人更高的速度产生幻觉?

Adam:我们不能那样做。我们不拥有该模型。因此,如果客户过来说:“嘿,SageMaker 是一个很棒的机器学习平台,我们希望在 SageMaker 中运行 LLaMA。” 我们不会说不,我们也不会成为 LLaMA 的世界专家。我们将对我们的模型负责。归根结底,模型提供商需要承担责任。政府需要决定在多大程度上希望立法规定其责任。并且需要提供可见性,以便潜在客户可以决定这些模型是否适合他们。

记者:如果你通过了一项法律,规定模型不能做 X,我们必须弄清楚谁来执行这一点。答案之一是像 AWS 这样的基础设施提供商,对吗?

Adam:我们有一个可接受的使用政策。当发生一些重要的事情时,我们会决定改变它。我们不经常这样做,但这是一个不断发展的事情。我们执行它,其中包括人工智能。因此,如果我们明天需要更改与人工智能相关的内容,我们明天就会更改。人工智能将具有独特的特征,但本质上并没有不同。但我认为政府会决定模型的一定规模或复杂程度。

人们正在谈论前沿模型。也许我们必须确保它们经过了独立的毒性测试和红队测试之类的测试。我们非常重视这样的事情。例如,CodeWhisperer是我们构建的一个很棒的编码助手。你输入单词,它会给你返回代码。这太神奇了。但是在代码中,我们构建了自动能力,使模型能够告诉你,如果你使用开源代码之类的东西,可能正在使用的开源代码的许可条款和治理是什么,以及过滤掉任何与毒性有关的东西。因此,对于我们控制的服务,我们非常认真地对待它,并尝试构建这些控件,这些控件不仅在伦理上很重要,而且在许多情况下在法律上也很重要,对于我们的客户来说也是如此。

努力实现可持续发展

记者:让我们以可持续性发展的话题结束,因为它是亚马逊投资组合的一部分。同时,我认为这也是您在尝试扩展AI时面临的挑战,因为除了区块链之外,在相当长的一段时间内没有任何东西使用更多的计算。而AI就是那个东西,它确实有用途,每个人都可以看到。同时,可持续性还没有到位。价格性能曲线没有下降。我们只是尽可能地运行GPU。您如何看待这种情况?是更专业的芯片,还是只是为数据中心生产更多可再生能源并让其运行?平衡在哪里?

Adam:本质上,生成式人工智能应用程序构建和运行模型将会产生巨大的需求。我认为以真正节能的方式完成这一点非常重要。因此,我们真正关注的是整个 AWS 的能源效率。

我们连续三年成为全球最大的可再生能源企业采购商。我认为,当我们已经签约的这些项目上线时,每年将足以为超过 350 万个美国家庭供电。在云中运行这些工作负载将比尝试自己运行这些工作负载的公司更加节能。所以我认为当客户说:“嘿,你如何帮助我们提高能源效率?您如何帮助我们实现可持续发展?” 好吧,明天您可以通过迁移到云上来做到这一点。

我们已经看到,许多企业通过迁移到云,可以将能源效率提高 80%,从而实现可持续发展。例如,如果您查看 Trainium,您会发现它的能源消耗比同类产品高出 29%。因此,我们使用的技术,我们的数据中心利用率更高,因为我们规模庞大,规模经济以及让服务非常高效地运行的这类事情非常重要。我们确实发展了购买可再生能源的巨大能力,以参与和资助世界各地的风能和太阳能项目。

记者:这里有两个概念,我只是想稍微分解一下。能源效率——利用现有资源做更多事情——以及可再生能源的大量增加。我们需要更多的能量来运行所有这些 GPU,并且我们还需要通过 Trainium 等工具提高我们现在运行的芯片的每瓦性能。

Adam:是的。Trainium 的每瓦性能令人难以置信。我认为很多问题都可以通过技术来解决。因此,像 AWS 开发的 Trainium 这样的东西,我相信它将成为运行生成式 AI 的最节能的解决方案。

记者:这就是你的重点?平衡在那里?

Adam:我们的重点是客户需要什么。

说真的。我们有很多客户正在使用 GPU,明天,我们将有更多的客户想要使用 GPU。是的,我们是世界上运行 Nvidia GPU 的最佳场所。我们的 P5 实例绝对出色。此外,将会有大量客户希望我们的 Trainium 和 Inferentia 芯片能够为他们的用例提供创新、能源效率和性价比。这不是一个“或”的问题,这是一个“和”的问题。我们致力于提供选择,而这些都将是巨大的需求,巨大的用例。

这实际上不是一种选择,但这只是我们为提高能源效率而做出的技术选择的一个例子。例如,我们一直在研究如何提高服务器的利用率。所以只要提高一个百分点,我们就能获得更高的利用率,接近 100% 的利用率就是巨大的能源节约。我们尝试提高能源效率的其他例子还有很多。那么正如你所说,我们总是会消耗能源。因此,能源必须是可再生的,到 2025 年我们将实现 100% 可再生能源。因此,我们正在推动可再生能源的出现。我们正在投资开发商围绕风能、太阳能建设的 15 年长期项目,其中很多都是开创性的。

我们与三菱和其他日本合作伙伴合作,在日本开展了第一个海上风电项目。所以真正具有开创性的东西。我们将继续努力帮助世界实现更多可再生能源的目标。这不是与其他公司的竞赛;而是是一场与温度计的竞赛。我的意思是,全球变暖是我们这一代人面临的挑战。我真的相信这一点。这就是为什么亚马逊非常公开地承诺到 2040 年在整个亚马逊范围内实现碳中和。这是一个艰难而艰巨的挑战。我知道我们将如何在可再生能源领域做到这一点。

在某些领域,我们需要进行科学研究,才能达到目标,但这更是公开一个大胆的目标的原因。现在已经有超过420家其他公司加入了我们的气候承诺,这其中有很多大型组织、大型公司。但无论我们做什么,显然,不用说,我们自己不能解决这个问题。所以我们想做的是催化和激励其他人加入我们。我希望他们真的超越我们。这是最好的事情。

记者:太棒了。我认为这是一个完美的结束点。这是一次令人惊奇的谈话。非常感谢您抽出额外的时间。

Adam:谢谢。我很喜欢它。这是一次非常有趣的谈话。

原文地址:
https://www.theverge.com/23824200/ai-cloud-amazon-aws-adam-selipsky

科技十点见重点关注云计算、芯片、人工智能、新能源车、金融科技等。为您分享行业趋势,解读产业变化。资深云计算产业分析师,为您提供独立思考与理性分析价值。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。