原生多模态大模型Gemini(有道翻译版)_市场营销策划_重点报告202301202_doc.docx
4睛便产t-J4Cv:t:'.莅:,grl*https£fanyi.ycH谷歌DeePMindGemini:一个非常有能力的多模式模式的家庭Gemini小赳,我是Googlei本报告介绍了一个着的多模式模型家族,Gemini,它在图像、音频、视项和文本理解方面表现出卓越的能力.Gemini系列包括UlIra、ProDNano尺寸,适用于从复杂推理任务到设备上内存受限用例的应用.对广泛基准涌战的评估表明,我旬最强大的GeminiUIIra模型在32个基准流试中的30个中都达到了最先进的水平一一值得注意的是,它是第一个在经过充分研完的考试基准MMLU上达到人类专家性能的模型,并且在我们测试的20个多模式基准次试中都提高了最先进的水平.我11相信,Gemini模型在普模态推理和语言理解方面的新功能将支持各种各样的用根,我<将讨论如何负责任地向用户,皆它(1.介绍我们现在展示Gemini,一个由谷歌开发的高性能多模式模型家族。我们通过图像、音频、视频和文本数据对Gemini进行联合训练,目的是建立一个模型,该模型既具有跨模式的强大通才能力,又具有在每个各自领域的尖端理解和推理性能。Gemini1.0是我们的第一个版本,有三种尺寸:Uhra用于高度复杂的任务,Pro用于增强性能和大规模部署能力,Nano用于设备上的应用。每个尺寸都是专门定制的,以解决不同的计算限制和应用需求。我们在一套全面的内部和外部基准上评估Gemini模型的性能,这些基准涵盖了广泛的语言、编码、推理和多模态任务。Gemini在大规模语言建模方面取得了最新进展(Anil等人,2023;Brown等人,2020;ChoWdhery等,2023;霍夫曼等,2022年;OPenAl,2023;Radford等人,2019;Rae等人,2021),图像理解'(AIayraC等人,2022;Cheil等人,2022;DoSOVitSkiy等,2020;OpenAI,2023b;里德等,2022;YU等人,2022a),音频处理(RadfOrd等人,2023;Zhang等人,2023),以及视频理解(AlayraC等人,2022;Chen等,2023).它还建立在序列模型(SUtSkeVeretal.,2014)>基于神经网络的深度学习的长期工作历史(LeCUnetal.,2015)和机器学习分布式系统(Barhamctal.>2022;BradbUry等人,2018年;Deanetal.,2012),使大规模训练成为可能。我们最强大的模型GeminiUltra在我们报告的32个基准测试中的30个中取得了最先进的新结果,包括12个流行文本和推理基准测试中的10个,9个图像理解基准测试中的9个,6个视频理解基准测试中的6个,以及5个语音识别和语音翻译基准测试中的5个。GeminiUItra是第一个在MMLU上实现人类专家性能的模型(hendricks等人,2021a)个通过一系列考试测试知识和推理的著名基准一一得分超过90%0除了文本,GeminiUltra在挑战多模态推理任务方面取得了显著进展。例如,在最近的MMMU基准测试(YUeetal.,2023),它包含了关于需要大学水平学科的多学科任务中的图像的问题1完整的作者列表见投稿和致谢部分。请发送信件到gemini-l-report(3>googJe.m02023谷歌版权所有知识和深思熟虑的推理,GeminiUltra达到了新的最先进的得分62.4%,比之前的最佳模型高出5个百分点以上。它为视频问答和音频理解基准提供了统一的性能提升。定性评估展示了令人印象深刻的跨模态推理能力,使模型能够对输入的音频、图像和文本序列进行原生的理解和推理(见图5和表13)o考虑将图1中描述的教育环境作为一个例子。一个老师画了一个滑雪者下斜坡的物理问题,一个学生解决了这个问题。利用Gemini的多模态推理能力,该模型能够理解杂乱的笔迹,正确理解问题的表述,将问题和解决方案转换为数学排版,识别学生在解决问题时出错的具体推理步骤,然后给出一个经过处理的正确解决问题的方法。这开辟了令人兴奋的教育可能性,我们相信Gemini模型的新多模态和推理能力在许多领域都有巨大的应用。提示这是一个学生对物理问题的!爸.ZIaK示,41修知W上a下,991QM%SS>>能量的一致性意味着滑雪者在开 始和结束时的能量是相同的 Staul: E=mgL结束:E=lmv2>>NGL = 2MV2v=-2gL=2x9.81r80 = 39.6m.s-l试着一步一步地推理这个问题.学生得到正确答案了吗?如果答宴是ts的,话解称错在中里并解决向建,仅便用LaTeXS行政学海鼻,弁轿佟答案四包五人到小Bt点后再位.响应这个学生没有得到正确答案.这个学生在计真斜率开始处的势能时犯了一个福 误。料理开始处的势能由mgh给出,其中m是滑雪者的质.g是由于重力引 起的想速度,h是斜坡的百度O在计B!势能对,学生使用的是坡度的长度L 而不是高度儿正BHM决方让JE:彘量守恒是指潘雪杳在斜城开始和结束时的总能量是相同的,在斜坡的起点,清金者只有为IIL ISmgh6ttL在斜坡的末诸,滑击者只有动能,用ImV给出IStt, M可以写:MGH = ImV消去两边的质量m,我In得到:克二1解出V SflSH:v=V2gh代入给定值,得到:v=V2x9.81x 40=28.01 m/s因代,哥Sif在科收度尊的速度为28Qlm图1I验证一个学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。在理解图像中的文本的基础上,它需要理解问题设置并正确遵循指令来生成LATEX。大型语言模型的推理能力显示出了构建能够处理更复杂多步骤问题的多面手智能体的希望。AIphaCode团队构建了AlphaCode2(Leblond等人,2023年),这是一个新的双子座驱动的代理,它将Gemini的推理能力与搜索和工具使用相结合,在解决竞争性编程问题方面表现出色。在Codeforces竞争性编程平台上,AlphaCode2在进入者中排名前15%,比前50%的最先进的前身有了很大的改进(Lietal.,2022)。与此同时,我们通过GeminiNano推进了效率的前沿,这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色,如摘要、阅读理解、文本补全任务,并相对于其规模,在推理、STEM、编码、多模态和多语言任务中表现出令人印象深刻的能力。在接下来的章节中,我们首先提供了模型架构、训练基础设施和训练数据集的概述。然后,我们对Gemini模型家族进行了详细的部旅涵盖了经过充分研究的基准和人类偏好评估,包括文本、代码、图像、音频和视频一一包括英语表现和多语言能力。我们还讨论了友清任期著的方法,2包括在部署决定之前进行影响评估、制定模型政策、评估和减轻危害的过程。最后,我们讨论了Gemini更广泛的影响,它的局限性以及它的潜在应用一一为人工智能研究和创新的新时代铺平了道路。2 .模型架构Gemini模型建立在Transformer解码器(VaSWani等人,2017)之上,通过架构和模型优化的改进得到增强,以实现大规模的稳定训练,并在Google的张量处理单元上优化推理。它们经过训练以支持32k上下文长度,采用高效的注意力机制(例如,多查询注意力(ShaZeer,2019)。我们的第一个版本,Gemini1.0,包括三种主要尺寸,以支持广泛的应用程序,如表1所示。模型尺寸我们最有能力的模型,在各种高度复杂的任务中提供最先迸的性能,包括推理和多模式任务。由于双子座架构,它可以在TPU加速器上大规模有效地服务。在成本和延迟方面的性能优化模型,可在广泛的任务中提供显着的性能。该模型表现出强大的推理性能和广泛的多模态能力。我们最高效的型号,设计用于设备上运行。我们训练了两个版本的Nan0,参数分别为1.8B(NanO-I)和3.25B(NanO-2),分别针对低内存和高内存器件。它是通过从更大的双子座模型中提取来训练的。它为部署进行了4位量化,并提供了一流的性能。表1IGeminiLO模型家族概述Gemini模型经过训练,可以适应文本瑜入与各种各样的音频和视觉输入交织在一起,比如自然图像、图表、截图、pdf和视频,它们可以产生文本和图像输出(见图2)oGemini模型的视觉编码灵感来自我们自己在FIamingO(AIayraC等人,2022)、CbGi(YU等人,2022a)和RlLl(Chen等人,2022)上的基础工作。有一个重要的区别,即模型从一开始就是多模态的,并且可以使用离散的图像标记原生输出图像(RameSheIal.,2021;YUetal.,2022b)o视频理解是通过将视频编码为大上下文窗口中的一系列帧来完成的。视频帧或图像可以与文本或音频自然交错,作为模型输入的一部分。模型可以处理可变的输入分辨率,以便花费更多的计算我们计划在GeminiUIg模型全面上市之前更新这份报告,提供更多细节。喻入序列图2IGemini支持文本、图像、音频和视频的交错序列作为输入(通过输入序列中不同颜色的标记来说明)。它可以用交错的图像和文本输出响应。需要细粒度理解的任务。此外,Gemini可以直接从通用语音模型(USM)(ZhangeIal.,2023)特征中摄取16kHz的音频信号。这使得模型能够捕捉音频被天真地映射到文本输入时通常会丢失的细微差别(例如,请参阅网站上的音频理解演示)。训练Gemini系列模型需要在训练算法、数据集和基础设施方面进行创新。对于Pro模型,我们的基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练,利用Ultra的一小部分资源。Nano系列模型利用蒸储和训练算法的额外进步,为各种任务(如摘要和阅读理解)生产一流的小型语言模型,为我们的下一代设备体验提供动力。3 .培训基础设施我们使用TPUv5e和TPUV4(Jouppi等人,2023)来训练Gemini模型,具体取决于它们的大小和配置。GeminiUltra训练中心在多个数据中心使用了大量的TPUV4加速器。这代表了我们之前的旗舰型号PaLM-2的规模显着增加,这带来了新的基础设施挑战。加速器数量的增加会导致整个系统中硬件的平均故障时间成比例地减少。我们最小化了计划重调度和抢占的比率,但由于宇宙射线等外部因素,在如此大规模的所有硬件加速器中,真正的机器故障是司空见惯的(MiChaIaketal.,2012)TPUv4加速器部署在4096个芯片的“S叩CrPOdS”中,每个芯片连接到一个专用的光开关,它可以在大约10秒内动态地将4x4x4芯片立方体重新配置为任意3D环面拓扑(JOUPPi等人,2023),对于GeminiUltra,我们决定在每个超级舱中保留少量的立方体,以允许热备用和滚动维护。TPU加速器主要通过高速芯片间互连进行通信,但在GeminiUltra规模下,我们使用谷歌的集群内和集群间网络在多个数据中心中组合SuperPods(Poutievski等人,2022;WelheraIl等人,2023;姚红等,2018)。谷歌的网络延迟和带宽足以支持常用的同步训练范式,利用SUPerPOdS内部的模型并行性和S叩CrPOdS之间的数据并行性。Jax(Bradburyetal.2018)和Pathways(Barhametal.2022)的"单控制器”编程模型允许单个PythOn进程协调整个训练运行,极大地简化了开发工作流。XLA编译器中的GSPMD分区器(XUetaL2021)对训练步长计算进行分区,MegaScaleXLA编译器(XLA,2019)通过