今年 4 月,Alphabet 首席执行官桑达尔-皮查伊(Sundar Pichai)迈出了不寻常的一步:合并两个大型人工智能团队--它们有着不同的文化和代码--以赶上并超越 OpenAI 和其他竞争对手。
现在,对这一努力的考验即将到来,数百人正争分夺秒地在今年秋天发布一组大型机器学习模型,这是该公司有史以来投入最大的产品之一。这些模型统称为 "双子座"(Gemini),据一位参与 "双子座 "开发的人士称,它们有望让谷歌具备打造竞争对手无法打造的产品的能力。
OpenAI 的 GPT-4 大型语言模型可以理解并生成对话文本。这位人士说,Gemini 将超越这一点,将 GPT-4 等大型语言模型的文本能力与根据文本描述创建人工智能图像的能力结合起来,类似于人工智能图像生成器 Midjourney 和 Stable Diffusion。双子座的图像能力此前还没有报道过。
谷歌员工还讨论过利用 Gemini 提供一些功能,如分析图表或创建带有文字说明的图形,以及使用文字或语音指令控制软件。
谷歌正将赌注押在Gemini上,以支持从与OpenAI的ChatGPT竞争的Bard聊天机器人到谷歌Docs和Slides等企业应用的各种服务。谷歌还希望通过其谷歌云(Google Cloud)服务器租用部门向应用程序开发者收取Gemini的使用费。目前,谷歌云通过一款名为 Vertex AI 的产品,出售对谷歌自制的更原始人工智能模型的访问权。这些新功能可以帮助谷歌追赶微软,后者在为其 Office 365 应用程序提供新的人工智能功能方面一路领先,而且也一直在向其应用程序客户出售对 OpenAI 模型的访问权限。
"我认为在过去的九个月里,每个人都在问的一个大问题是,'什么时候才会有人看起来能赶上 OpenAI?"彭博 Beta 的人工智能初创企业投资人 James Cham 说。"这将是有人能以合法方式与 GPT-4 竞争的第一个迹象。"
由于 Bard 和 ChatGPT 等人工智能服务希望帮助人们在不使用传统搜索引擎的情况下找到复杂问题的答案,因此谷歌必须在不削弱其核心搜索业务的情况下推出新技术。谷歌还必须控制运行双子座模型可能产生的巨额服务器成本。谷歌公司计划在今年晚些时候向应用开发者正式发布 Gemini,在此之前可能会开始在某些产品中使用它。
像 Gemini 这样的机器学习模型通过分析大量的图片和文本来识别模式并生成查询答案。过去,谷歌使用较简单的模型来改进搜索。但像 Bard 这样的新产品则依赖于尖端的模型,这些模型可以压缩更多的数据,生成类似于人的对话式回复。利用YouTube的优势
据 The Information 报道,谷歌在大量 YouTube 视频文本语料库中对双子座进行了训练,但它还可以将视频和音频整合到双子座模型中,使其具备许多研究人员认为是人工智能下一个前沿领域的多模态能力。例如,根据YouTube视频训练的模型可以帮助机械师根据视频诊断汽车维修问题。它们还可以根据某人想要创建的网站或应用程序的草图生成软件代码--OpenAI 已经预览了这种功能,但尚未推出。
使用 YouTube 内容还有助于谷歌开发更先进的文本视频软件,根据用户想看的内容描述自动生成详细的视频,这与谷歌支持的一家名为 RunwayML 的初创公司正在开发的技术类似。好莱坞和内容创作者正在密切关注这类软件的发展。
至少有二十多位经理正在领导双子座的开发工作,《The Information》首次明确了他们在这个项目中的角色。他们包括曾在谷歌大脑(Google Brain)工作过的研究人员,谷歌大脑开发了该公司目前的人工智能模型--Pathways Language Model (PaLM) 2,而 DeepMind 则是谷歌在 2014 年收购的公司,此后一直独立运营。这个新部门正在研究如何平衡从合并代码到确定远程工作政策等各个方面。与 DeepMind 相比,谷歌大脑在远程工作方面要宽松得多。
DeepMind 联合创始人德米斯-哈萨比斯(Demis Hassabis)将领导合并后的谷歌 DeepMind。熟悉内情的人士称,DeepMind 的两位长期高管 Oriol Vinyals 和 Koray Kavukcuoglu 将与 Jeff Dean 一起负责 Gemini,Jeff Dean 是谷歌的资深领导人,曾领导过谷歌大脑。他们负责管理参与双子座开发的数百名员工。
项目初期出现的一个问题是,工程师们究竟会使用谷歌的软件还是 DeepMind 的软件,因为这两个部门拥有完全独立的代码库。
他们最终确定的方法是,在模型开发的早期阶段,使用谷歌大脑用于训练机器学习模型的软件 Pax,即预训练。在后期阶段,团队使用 DeepMind 开发模型的软件 Core Model Strike。参与该项目的人士说,这一决定安抚了每个小组的研究人员,但也激怒了其他一些人,因为他们不想使用不熟悉的软件。
熟悉开发工作的人士说,一直参与双子座项目的联合创始人谢尔盖-布林(Sergey Brin)一直在对模型进行评估,并帮助对模型进行培训。该人士说,在团队发现双子座被训练成具有潜在攻击性的内容(研究人员本打算排除这些内容)后,布林也参与了重新训练模型的技术决策。谷歌发言人对此不予置评。
强迫联姻
谷歌公司于 2011 年创建了谷歌大脑(Google Brain),旨在构建人工智能,以改进谷歌的搜索结果、广告定位和 Gmail 自动完成等功能。
总部位于伦敦的DeepMind则致力于更多的学术研究。它教计算机下国际象棋或围棋,其领导者认为这是人工智能发展道路上的一个里程碑。不过,虽然谷歌利用 DeepMind 的软件提高了数据中心的运行效率,但该部门的工作并没有对谷歌的核心产品产生多大影响。DeepMind 的工程师们也开发了自己的 LLM,但这并不是公司的重点工作。
这一切在去年年底发生了改变。2022 年 11 月,OpenAI 发布了 ChatGPT,用户数量在几周内激增至数千万,收入在几个月内达到数亿美元。
与此同时,谷歌也面临着一系列的离职问题,包括利亚姆-费德斯(Liam Fedus)、巴雷特-佐夫(Barret Zoph)和卢克-梅兹(Luke Metz)在内的研究人员流失到了 OpenAI,他们在 ChatGPT 的开发过程中发挥了重要作用。但谷歌也找回了一些人才:谷歌重新聘用了雅各布-德夫林(Jacob Devlin)和杰克-雷(Jack Rae,前 DeepMind 研究员,2022 年去了 OpenAI),雅各布-德夫林曾在 1 月份批评过巴德的开发工作,后来去了 OpenAI。
在合并之前,谷歌大脑和 DeepMind 分别开发了应对 ChatGPT 的方法。DeepMind 的员工开展了一个代号为 "Goodall "的项目,利用一个名为 "花栗鼠"(Chipmunk)的未公布模型的变体,开发 ChatGPT 的竞争对手。最终,DeepMind 停止了这项工作,转而与谷歌大脑合作开发 Gemini,尽管这两个人工智能团队之间存在着长期的竞争关系。
与此同时,谷歌在三月份利用谷歌大脑的现有模型推出了 "巴德"(Bard)。当时,一些用户批评 Bard 只是对 ChatGPT 的有限模仿。但谷歌继续对其进行改进,并在更多国家推出。今年 5 月,谷歌发布了一款 LLM--PaLM 2,改进了 Bard 的回答和编写代码的能力。(双子座旨在大幅升级此类编码助手功能)。
今年 4 月,皮查伊将大脑和 DeepMind 合并,以便它们能更快地开展工作。这一变化让一些研发 Gemini 的工程师大吃一惊,他们是在公司公开宣布这一消息时才得知的。
皮查伊任命哈萨比斯领导合并后的团队。哈萨比斯仍在伦敦工作,他的直接下属名单上增加了一位Googler: 产品管理副总裁伊莱-柯林斯(Eli Collins)。柯林斯曾负责监督对话应用语言模型(LaMDA)的开发,该模型是谷歌在 2021 年宣布的一个实验性聊天机器人,但从未公开发布过。
双子座“”领导团队
大脑公司和 DeepMind 公司的前领导人共同管理着监督双子座的大部分小组。詹姆斯-莫罗伊(James Molloy)和汤姆-亨尼根(Tom Hennigan)都曾在DeepMind工作过,他们与谷歌高级研究员保罗-巴勒姆(Paul Barham)一起负责基础设施建设。蒂莫西-利利克拉普(Timothy Lillicrap)曾参与DeepMind掌握国际象棋和围棋的系统工作,他和谷歌大脑研究员艾米丽-皮特勒(Emily Pitler)负责管理一个团队,该团队的工作重点是赋予LLM处理数学或网络搜索等专业任务的能力。
除了合并组织之外,该团队在发展的道路上还面临着巨大的挑战,包括如何确定可以在哪些数据上训练模型。
谷歌的律师们一直在密切评估这些训练数据。有一次,他们让研究人员删除了来自教科书的训练数据--这些数据可以帮助模型回答有关天文学或生物学等学科的问题--因为担心会遭到版权持有者的反对。
谷歌前高管、风投公司 Felicis Ventures 创始人艾登-森库特(Aydin Senkut)说:"不过,“双子座”基本上向我表明,谷歌决心再次走在最前沿,而不是一味保守。这是正确的方向。终于,他们有了火种。"
以上就是“谷歌计划如何打败 OpenAI?”的详细内容,想要了解更多IT圈内资讯欢迎持续关注编程学习网。
扫码二维码 获取免费视频学习资料
- 本文固定链接: http://phpxs.com/post/11295/
- 转载请注明:转载必须在正文中标注并保留原文链接
- 扫码: 扫上方二维码获取免费视频资料