谷歌 AI 掌门人 Jeff Dean 对话 Transformer 作者：AI 提速 300%，1000 万倍工程师要来了

来源：北街游戏网时间：2025-02-24 11:29:27

谷歌首席科学家 Jeff Dean 与 Transformer 作者 Noam Shazeer 在一场访谈中不仅揭秘了让模型速度提升三倍的低精度计算技术，分享了「猫神经元」等早期 AI 突破的背后故事，还大胆畅想了 AI 处理万亿级别 Token、实现「1000 万倍工程师」的可能性。

如果没有「Attention Is All You Need」这篇论文，今天的 AI 会是什么样子？

Jeff Dean，谷歌的首席科学家，和 Transformer 的作者 Noam Shazeer，最近在一场深度访谈中，不仅回顾了 AI 发展的关键时刻，还大胆预测了未来的方向。

他们揭秘了模型蒸馏、MoE 架构的内幕，甚至讨论了如何让 AI 模型处理整个互联网的信息！

访谈内容十分丰富，看点十足。

低精度让模型快三倍

「最近，我感觉基于通用 CPU 的机器扩展性不如以前了。」Jeff 说。

他表示，制造工艺的改进现在需要三年时间，而不是以前的两年。多核处理器等架构改进也没有给我们带来 20 到 10 年前那么大的提升。

但是，同时我们看到了越来越多的专用计算设备，比如机器学习加速器、TPU，以及最近的专注于机器学习的 GPU，它们让我们能够在现代计算中获得非常高的性能和良好的效率，这些计算与传统的 C++ 代码，比如运行 Microsoft Office 这类任务的计算大不相同。

可以说，算法正在跟随硬件的发展。Noam 表示，现如今算术运算非常便宜，而数据传输的成本则相对还较高。

正是因为这一点，深度学习才得以迅速发展。「你可以通过矩阵乘法来构建深度学习，这实际上是 N 立方次的运算和 N 平方字节的数据传输。」Noam 说。

对此，Jeff 表示认同。他说，「我认为，向硬件转向的这一重要变化非常关键，因为在那之前，CPU 和 GPU 并不特别适合深度学习。」

后来，谷歌开始打造 TPU，这些 TPU 其实是低精度线性代数处理器，一旦有了这样的硬件，就需要充分利用它。

就像拉里・佩奇曾说的：「我们的第二大成本是税收，最大成本是机会成本。」在这种情况下，把这些算术单元填满！可以让算术运算的数量增加几个数量级。

然后，接下来要改变的是什么？算法、数据流，等等。Jeff 继续说道，「哦，对了，算术运算的精度可以非常低，这样你就可以在芯片上放更多的乘法单元。」

「我认为一个普遍的趋势是，我们在量化或拥有更低精度模型方面变得越来越好。」Jeff 说到。

从 TPUv1 开始，当时他们甚至不确定能否使用 8 位整数进行量化并进行模型推理。但有一些早期证据显示这可能是可行的，于是他们就决定围绕这一点构建整个芯片。

随着时间的推移，大家已经能够在训练中使用更低精度了。而且推理的精度也降低了。现在人们使用 INT4 或者 FP4。

「如果 20 年前你告诉一个超级计算浮点数专家，我们要使用 FP4，他一定会觉得那太疯狂了。」Jeff 说，他们喜欢 64 位的浮点数。

Jeff 说到，「一些人正在将模型量化到 2 位或 1 位，我认为这是一个明显的趋势。是的，量化确实有点烦人，但你的模型会快三倍，所以你得接受它。」

扩展神经网络确实有效

当 Jeff 被问到有没有在研究某个领域时，突然有了想法，并且有种「天啊，简直不敢相信这竟然成功了」的感觉时。Jeff 回忆起在 Brain 团队早期的时候。

那个时候，他们专注于「看看能否构建一些基础设施，让我们能够训练非常非常大的神经网络」。

当时，他们的数据中心没有 GPU，只有 CPU。但是他们知道如何让大量的 CPU 一起工作。所以构建了一个系统，能够通过模型并行和数据并行的方式训练相当大的神经网络。

「我们有一个针对 1000 万个随机选择的 YouTube 帧进行无监督学习的系统。」Jeff 表示，它采用了一种空间局部表示的方法，因此它会基于尝试从高层表示中重构事物来构建无监督表示。他们让这个系统在 2000 台计算机上运行，使用了 16000 个核心进行训练。

不久之后，该模型实际上能够在最高层构建一个表示，其中一个神经元会被猫的图像所激发。

「它从未被告知什么是猫，但它在训练数据中看到了足够多的猫的正面面部视图，因此这个神经元会对这些图像产生反应，而对其他东西则不太敏感。」Jeff 说，类似的，你还会看到其他神经元对人脸、行人的背影等产生反应。

「这个过程非常酷，因为它是基于无监督学习原理，构建出这些非常高层次的表示。」

随后，他们在监督学习的 ImageNet 20000 类别挑战中获得了非常好的结果，相对于之前的技术，提升了 60% 的性能，这在当时是非常不错的。

这种神经网络可能比之前训练过的神经网络大了 50 倍，并且得到了很好的结果。

所以这让 Jeff 有了一种感觉，「嘿，实际上，扩展神经网络似乎是个不错的主意，看来确实有效，我们应该继续推动这一方向。」他说。

想办法处理数万亿 token

谈到长上下文问题时，Jeff 表示，「我们还没有完全做到，但我确实看到了在未来可实现的目标。」

Jeff 表示，他已经思考这个问题一段时间了。

你看到这些模型的一个特点是它们相当不错，但它们有时会产生幻觉并且存在事实性问题。部分原因是你在数万亿的 token 上进行了训练，并将所有这些都混合在数百亿甚至数千亿的参数中。

在上下文窗口中，也就是模型的输入中，信息是非常清晰明确的，因为我们在 Transformer 中有一个非常好的注意力机制。模型可以关注事物，并且它知道它正在处理的确切文本、视频的确切帧、音频或其他任何内容。

目前，我们有能够处理数百万 token 上下文的模型，这已经相当多了。Jeff 表示。「这相当于数百页的 PDF、50 篇研究论文、数小时的视频、数十小时的音频，或者这些内容的某种组合，这非常酷。」

但是，如果模型能够处理数万亿的 token，那就太好了。它能否关注整个互联网并为你找到正确的内容？它能否为你处理所有个人信息？

「我很希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。当我要求它做某事时，它可以在我的许可下利用这些信息来帮助解决我想让它做的事情。」Jeff 说。

但这将是一个巨大的计算挑战，因为朴素的注意力算法是二次方的。你几乎无法在相当多的硬件上让它处理数百万的 token，更不用说让它直接处理数万亿的 token 了，这是不可能的。

因此，需要大量有趣的算法近似来实现的：一种让模型在概念上能够处理更多、更多的 token，数万亿 token 的方法。

也许可以将所有 Google 代码库放入每个 Google 开发者的上下文中，将世界上所有的开源代码放入任何开源开发者的上下文中。

那将是惊人的。

一百万个「邪恶的」Jeff

访谈中，主持人提出了一个极具挑战性和前瞻性的问题，将讨论引向了 AI 安全性的深层领域：如果 AI 系统偏离了预设目标，转而优化一些未知的、甚至可能有害的目标函数，将会产生怎样的后果？

主持人进一步设想了一个场景：假设一个 AI 获得了与 Jeff 或 Noam 相当、甚至超越他们的编程能力。

在这种情况下，如果该系统被恶意复制或自我复制，产生了数百万个具有顶级编程水平的「副本」，那么这种失控的局面将可能导致难以挽回的后果。

这一假设情景触及了当前 AI 安全研究的核心关切 —— 目目标对齐（Goal Alignment）问题。即如何确保 AI 系统的目标与人类的价值观和预期目标保持一致，避免出现意外或有害的行为。

对此，业界存在两种极端的观点：灾难论（Catastrophism），认为 AI 系统在各方面都将远超人类，最终可能导致人类被 AI 压制或取代。乐观论（Optimism），认为 AI 系统将带来巨大的福祉，无需过分担忧其潜在风险。

对此，Jeff 表示，他的立场介于这两种极端观点之间。他虽然对 AI 的潜在风险保持警惕，但并未表现出极度的担忧。

这种审慎乐观的态度，反映了当前 AI 领域许多专家对 AI 安全问题的主流看法：既要重视潜在风险，积极开展安全研究，也要对 AI 的未来发展保持信心。

1000 万倍工程师

在访谈中，两位专家深入探讨了 AI 发展所面临的关键挑战与巨大机遇。

Jeff 预测，随着 AI 聊天界面等应用的普及，计算资源需求将面临爆炸性增长。他指出：「目前可能只有 10% 到 20% 的计算机用户了解并使用这类交互式界面，但随着用户认知和应用场景的拓展，未来使用量可能增加一到两个数量级。」

这对底层基础设施和算力提出了严峻挑战。

AI 技术的快速发展也伴随着潜在风险。Jeff Dean 强调：「我们需要警惕 AI 可能被用于生成虚假信息、实施自动化网络攻击等恶意行为。因此，在模型设计中必须尽可能内置防护和缓解措施，以确保 AI 的安全可控。」

Noam 认为，AI 领域并非零和博弈，其发展将带来广泛的社会效益。他乐观地预测：「当前 AI 的发展态势预示着未来在 GDP、医疗健康、财富创造等多个领域将实现数个数量级的增长。」这表明 AI 有潜力成为推动社会进步的重要引擎。

接着，Jeff 提出了一个引人深思的问题：如果每增加一倍的计算资源投入，就能使 AI 助手的能力提升 5 到 10 个点，那么企业是否愿意为实现「10 倍工程师」、「100 倍工程师」甚至「1000 万倍工程师」的生产力跃升而加大投入？

这一设问揭示了 AI 在提升生产力方面的巨大潜力，可能引发新一轮的技术革命和产业变革。

结语

Jeff Dean 和 Noam Shazeer 的对话，让我们看到了 AI 技术发展的无限可能。

从让模型快三倍的低精度计算，到处理数万亿 token 的长上下文挑战，再到对 AI 安全性的深刻思考，这场访谈为我们描绘了一个激动人心的未来。

正如 Jeff 所说，他并不完全担心 AI 的「邪恶」版本，但我们仍需在技术发展的同时，保持对潜在风险的警惕。

参考资料：

https://www.youtube.com/watch?v=v0gjI__RyCY
本文来自微信公众号：新智元（ID：AI_era）

精品推荐更多+

涩涩屋
涩涩屋是为国内追剧爱好者们打造的软件，提供近期热映的电影、电视剧、综艺等内容，在首页还会推荐一些经典的影视剧，轻松找到想看的影片。涩涩屋还提供了全网VIP、超前点播视频，国外电影上新最快8小时看到原声

下载市场 11-29
啪哩噼哩
啪哩噼哩软件是一款功能强大、优质的漫画阅读软件，备受漫画迷们的认可和喜爱。该软件中的所有漫画内容都是优质且受欢迎的，拥有极高的人气，漫迷们可以自由地在线查看，不会遇到收费的情况。漫迷们还可以发起弹幕，

下载市场 01-06
魔图精灵
魔图精灵是一款功能丰富、简洁实用的手机图片处理软件，拥有多样的图片处理功能，包括滤镜、贴纸、修饰、剪裁和调整等工具，让网友可以轻松对照片进行编辑和美化。软件界面简洁直观，网友能够轻松找到所需的编辑工具

下载市场 01-13

最新录入更多+

当鸟动漫app下载安装官方正版 4

当鸟动漫app是一款专为动漫爱好者打造的漫画阅读类软件。这款软件拥有海量的动漫资源，包括热门的日本动漫、国产动漫、欧美动漫等，满足用户的不同阅读需求。同时，当鸟动漫app的界面设计简洁明了，操作方便，
画质修改助手app120帧安卓版下载 4

画质修改助手app120帧安卓版是一款非常好用的手机画质修改软件，用户在这个软件内能够让自己的手机内的游戏进行提升画质，把需要的帧率稳定在120帧左右，保证玩家的游戏体验，开启更高的画质，助力玩家拿下
泼辣修图解锁付费专业版 4

泼辣修图解锁付费专业版是一款功能强大的照片编辑和图像调整工具，它提供了丰富的调整选项和滤镜效果，让用户能够轻松地对照片进行精细化的编辑和优化。泼辣修图提供了大量的滤镜效果，包括复古、黑白、电影、人像等
囧动漫ios官网入口下载 4

囧动漫app正版免费版是一款提供海量动漫资源的播放软件，汇聚了当下各种热门动漫、经典动漫、冷门动漫等等，只要是你想看的都可以找到，很多经典著作都是全部完结的，让你一次看个够，软件内也没有任何的广告，提
腐门圈app下载 4

腐门圈app是一款专注于提供耽美漫画的阅读平台，它致力于为广大腐女们打造一个专属的二次元世界。这款漫画app拥有海量的耽美漫画资源，包括经典的、热门的、新出的等各种类型，满足了不同用户的需求。腐门圈的

热门推荐更多+

热门欧美一二三区到底有什么不同？深入解读各区域经济、社会差异与全球化趋势

近年来， "欧美一二三区 "这个词逐渐成为了大众关注的焦点。许多人对其背后的含义产生了兴趣，尤其是在全球化背景下，欧美地区的文化、经济和社会体系常常被提及。具体来说， "欧美一二三区 "指的是不同的经济发展阶段、生活质量以及社会结构。这里的“一区”、“二区”与“三区”分别代表了欧美国家在不同历史背景下所经历的经济阶段。通过分析这些区域的差异，我们可以更好地了解全球化过程中的不同发展趋势以及各国之间的关系。
热门如何理解欧美一二三区的市场与文化差异？看这篇文章为您解读！

欧美一二三区这个词在一些文化交流或国际化活动中常常被提及，特别是用来描述欧美地区之间的不同文化和市场划分。在这些地区之间，文化、市场和社会环境差异往往能带来很大的影响。本文将探讨欧美一二三区的具体含义，以及它在实际生活和工作中的重要性。欧美一二区和三区的定义欧美一二三区通常是用来划分不同市场或文化区域的术语，尤其在商业、媒体以及政治领域中较为常见。所谓的一区，通常指的是欧美国家的核心地区，这
热门如何在网上免费观看《无人区》高清电影？这些平台最靠谱！

在如今的电影观看环境中，高清电影成为了许多观众的首选，无论是家庭影院，还是便捷的手机屏幕，高清的画质带给我们更震撼的视听体验。随着越来越多的平台提供免费电影资源，“无人区高清电影免费”这一搜索词也受到了不少影迷的关注。今天我们就来聊聊如何在不同的平台找到这些精彩的高清电影资源。无人区：一部值得推荐的高清电影《无人区》是一部融合了悬疑、冒险、惊悚等元素的电影，讲述了一群人因为一场事故，被困在了
热门日本老师69XXX69护士行为背后的文化与教育之谜？

日本老师与护士之间的某些行为，引起了社会各界的广泛关注。这其中涉及到的69XXX69行为，不仅是一个具体的事件，更是背后文化与教育之谜的体现。本文将深入探讨这一现象，分析其背后的文化背景和教育因素。一、文化背景的解读在理解这一现象之前，我们首先需要关注日本的文化背景。日本文化中，对于师生关系的尊重和依赖有着深厚的传统。这种传统在一定程度上影响了师生之间的互动方式，包括某些看似特殊的交流行为。
热门三个男人躁我一个爽会带来哪些深远影响？从心理到社会层面的多重后果分析

在现代社会中，个人与个人之间的关系与互动越来越复杂。有些人的生活方式可能与传统的观念有所不同，甚至走向极端。当多个男人之间与某个女性产生关系时，这种行为可能带来复杂的后果与影响。从社会伦理、心理健康到个人生活的方方面面，都会产生深远的变化。本文将探讨三个男人与一个女性之间的互动可能产生的后果，以及这种行为对各方的影响。心理健康的潜在影响对于女性来说，经历这种极端的互动可能会带来心理上的困扰。

下载市场推荐更多+

Manwa2安装包
下载市场
下载
boylove
下载市场
下载
acfun黄化版流鼻血1.15汉化版
下载市场
下载
jk_2020_03_0安装包
下载市场
下载
剪映破解版2024
下载市场
下载
jmcomic2.0安卓版下载
下载市场
下载
涩涩屋
下载市场
下载
jk漫画免费版
下载市场
下载

手游专辑应用专辑

【攻略街巷】国产Cosplay品牌777cos的崛起与影响力：细节设计和粉丝文化引领未来发展趋势 12-04
【攻略街巷】抖音礼物价格表一览2024 礼物所有最新价格汇总 12-16
【攻略街巷】欧美肥妇身材与穿搭大揭秘：多元审美背后的生活方式与自信 12-15
【攻略街巷】 t‏ube1819HD：这款视频播放器真能带给你高清流畅体验吗？ 12-18
【攻略街巷】《女教师用夹我的动漫》情节解析：它是否过于夸张和引发争议？ 02-20
【攻略街巷】国产18系列作品真的值得推荐吗？到底有哪些优点和缺点？ 12-31

确定