欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    2024AIGC技术发展演进.docx

    • 资源ID:1091643       资源大小:1.55MB        全文页数:50页
    • 资源格式: DOCX        下载积分:7金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要7金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2024AIGC技术发展演进.docx

    AlGC技术发展与演进2024.01为什么是OPenAl率先突破WHYOpenAI & ChatGPT2017年6月,谷歌大脑团队发表论文Attentionisallyouneed,首次提出了基于自注意力机制的TranSfOrmer模型,并首次将其用于自然语言处理。Google 2018年10月,提出3亿参数的BERT 2019年10月,提出110亿参数的新预训练模型-T5 2021年1月,推出1.6万亿参数的SWitCh Transformer前瞻性Al视野人性化Al愿景多样应用探索强大技术实力 2021年5月,发布1370亿参数的LaMDA正确合作对象长期研究投入坚定的科技信仰:坚持不断改进GPT开放的合作伙伴:与微软达成合作较少的商业顾虑:声誉成本、利益冲突2018年6月,推出1.17亿参数的GPT:!模型2019年2月,推出15亿参数的GPT2©OpenAI2020年5月,发布了“5。亿参数的gpt32022年3月,InStrUCtGPT发布,回答更加真实2022年11月,ChatGPT发布,并率先破圈ChatGPT创新:持续迭代迈向AGl已实现的创新|自然语言处理(NLP )的进步ChatGPT在理解和生成自然语言方面表现出色,展 示了先进的自然语言理解和生成能力。上下文感知对话管理能够在一定程度上理解和记忆对话历史,实现上下文顺畅的交流。跨领域知识应用集成了广泛的领域知识,可以在多种主题上进行 交流和生成信息。用户意图识别与适应性回应具备识别用户意图并据此调整回答的能力,能够 根据不同的查询提供相应的信息和服务。多模态交互能力集成并理解多种类型的数据(如文本、图像、声 音)进行综合交互。尚未实现的创新I高级情感智能虽然具备基本的情感识别能力,但在理解和表达复杂情感方面仍有局限。深层次常识推理在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。无偏见输出由于训练数据的限制,模型输出可能受到数据、技术等偏见的影响。由于人类的偏见,故Al其实也无法实现完全的无偏见长期记忆和持续学习长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。(2024年2月GPT4.0已大幅度增强)GPT4:一骑绝尘进化迅速MChatGPT4.0相较于其他Al工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余Al工具难以企及的效果。基本理解全部的问题含义回答问题的增量创新和组合创新能力多模态能力上下文的逻辑关联能力Al幻觉&AI想象扩展了异感世界的构建能力学科能力的全维、全知、全量OPenAl宫斗:利益冲击观念博弈OPenAl的宫斗最终以奥特曼的回归落幕, 纵观全局既是权利之争也是观念博弈。f 11月16日:苏茨克维通知奥特曼开会。A 11月17日:奥特曼、布罗克曼和OPenAl高级研究 ”员相继离职。.11月18日:投资者愤怒并要求奥特曼回归,董事 “会初步同意。11月19日:奥特曼等加入微软,近750名OPenAlT员工威胁集体辞职,要求奥特曼回归。11月20日:奥特曼、布罗克曼与OPenAl董事会谈 命 判,微软对奥特曼的回归持开放态度。11月21日:奥特曼与临时首席执行官进行谈判,Q公司希望在感恩节前解决领导层问题。内部冲突细 节曝宪。结局:奥特曼达成原则上协议,将重返OPenAI担任CEO ,并组建新的董事会。观念博弈加速派”和末日论派在人类与Al的关系上的分歧。“加速派:希望通过最高效、最具影响力的技术进步 与突破来加速社会、经济或技术系统的变革过程,并把 风险视为变革的催化剂。“末日论派:更加审慎,认为一旦风险不可控,人工 智能带来的巨大影响将毁灭人类社会。事件核心人物 OPenAl联合创始人、前CEo山姆奥特曼(Sam Altman ) OPenAl联合创始人、前总裁格雷格布罗克曼(Greg Brockman) OPenAl联合创始人、首席科学家伊尔亚苏茨克维(Ilya Sutskever) OPenAl首席技术官米拉穆拉蒂(Mira Murati ) 微软公司首席执行官萨提亚纳德拉(Satya Nadella ) C)PenAI临时首席执行官埃米特谢尔(Emmett Shear)2024焦点:改善体验多模突破MAl幻觉率五大技术难题:高性能推理硬件成本、Al幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频高性能推理硬件成本复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗 限制了 Al系统与用户的的快速交互。提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对 于提供质量更高、更可信赖的生成内容至关重要。图像多语种文字生成生成内容一致性目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中 文),文生图技术中的文本处理技术有待优化。保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的 角色稳定),仍是AIGC领域的重要挑战。文本生成视频文生视频技术对场景、动作和情感等的深度理解W创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。注意力:动态聚焦平衡权重人机交互自注意力机制体现 用户:我昨天晚上去了一个音乐会,主要是为了看我最喜欢的乐队,但是开场乐队也非常棒。 Al:听起来你过得很愉快。你最喜欢的乐队演奏了哪首歌曲给你留下了深刻印象? 用户:他们演奏了深夜,那是他们最新的单曲,非常激动人心。不过,我也很惊讶于开场乐队的表现。Al:是啊,深夜是一首很有力量的歌曲。关于开场乐队,你最喜欢他们的哪个部分?用户描述:“我想要一个穿着红色连衣裙的女人站在一个蓝色的湖边,背景是雪山。该描述中有三个关键信息:红色连衣裙的女人、蓝色的湖、雪山背景。自注意力机制帮助Al关注到用户最关心的问题。:A)iJ'三i'欢的乐队,机器人据此询问了更多的:细节。;A1注意到用户对开场乐队的正面评价,机器人随后询问了更多关于开场乐:队的信息。I自注意力机制为每一个关键信息分配一个注章力权重"生成图硬时,根据权重来确定每个部分的细节和重要性。例如,红色连衣裙的女人可能会被赋予较高的注意力权重,因此在图像中她的细节和颜色可能会被更加准确地渲染。同样,蓝色的湖和雪山背景也会根据它们的注意力权重来确定其在图像中的表现。自回归模型没有规划.推理的能力,单纯根据 概率生成自回归的大语 言模型从本质上根本解 决不了幻觉、错误的问 题。世界模型才是正确 答案。世界模型可能带来?、提升自主学习能力:不再依赖于大量的 手工标注数据,而是通过观察世界如何运 作来自主学习,这会极大地提高机器学习 系统的效率和适应性。提升认知能力:随着机器对复杂环境和 抽象概念理解的加深,世界模型可以推动 Al在需要高级认知能力的领域的应用,如 法律分析、财务规划等。提升决策和预测能力:世界模型可以在 动态和不确定的环境中更好地预测未来的 事件和结果,对于自动驾驶车辆的路径规 戈(金融市场分析等领域有重要意义。世界模型:另一可能规划推理图灵奖得主YannLeCun>世界模型”指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如视觉图像.声音等)来构建对环境的内部表示,并在此基础上做出决策或预测。JointEmbeddingPredictiveArchitecture(JEPA)【学习方法】:自监督学习,通过创建外部世界的内部模型来学习【模型目标】:实现更高级的图像分析和理解,理解外部世界的内部模型【核心技术】:图像联合嵌入非生成式预测架构,学习表示的层次结构【应用领域】:图像分析和理解类任务单模多模:快速进步模拟世界属性单模态多模态理论问题未来研究数据丰富性单一信息源多信息源高效地从单一信息源提取特征发现并利用跨模态间的隐含关系鲁棒性单一模态的数据质量可能会影响整体性能可以通过其他模态补偿某个模态的不足提高单一模态的抗干扰能力确保多模态数据的一致性和完整性决策准确性决策基于单一信息源可能受限综合各种信息决策更为准确优化单模态的决策策略权衡并结合不同模态的决策处理复杂性处理流程相对简单需要处理和融合各种模态的数据复杂性增加优化单一模态的处理流程有效融合和处理多模态数据信息冗余无法从其他模态中获取冗余信息可能从不同模态中获取重复冗余的信息消除单一信息源中的冗余识别和处理跨模态的信息冗余上下文理解上下文理解可能受限于单一信息源能够结合多种信息更好地理解上下文提高单一模态的上下文理解能力结合多模态信息进行深度上下文理解特征维度特征维度相对较低由于融合了多种信息源特征维度可能会更高从有限的特征中获取最多的信息管理和选择跨模态的高维特征可解释性由于只有一个信息源可能更易于解释多种信息源的融合可能会降低模型的可解释性增强单一模态的模型解释能力提高多模态模型的可解释性和透明度数据同步不需要考虑不同模态之间的同步问题需要确保不同模态的数据是同步的优化单一模态的数据处理速度确保不同模态数据的实时同步和对齐计算资源计算资源需求相对较低需要更多的计算资源处理和融合多种模态数据提高单模态的计算效率优化多模态的计算资源分配和管理多模融合:高维互联信息贯通if多模态融合是指将来自多个不同类型(例如文本、图像、声音等)的数据合并,利用跨模态技术产生一个综合的数据表示或输出,代表一种全新、流畅和高效的人类交互体验,其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。在实际应用中,Al可以根据用户的需求,实现各个模态数据间的相互转换,例如:文本生成图像文本生成视频图像生成视频图像理解视频理解夏日的海滩日落图海底世界静态转为动态地标识别足球解说多模关键:感知我演化关键技术 自适应模态选择与优化:在多模态系统中,不同模态(如图像、文本、声音等)的重要性可能因应用场景而异。自适应模态选择与优化,关注如何动态地评估和选择最有用的模态,以提高系统的整体性能。 实时多模态处理与决策:强调如何在实时或近实时环境中处理和分析多模态数据,并据此做出决策。 人机交互的多模态适应:在人机交互(HCI)环境中,多模态大模型需要能够根据用户的行为和反馈进行自适应调整。这可能包括动态地改变输入/输出模态、调整交互界面等。难点 环境动态性:环境和任务需求经常变化,实时评估和选择最优模态是一个复杂的问题。 高维度和复杂性:模态选择必须在多个维度(如准确性、计算成本、响应时间等)上进行优化,这增加了问题的复杂性。 实时性与准确性的权衡:在有限的时间内进行复杂的多模态数据分析是一个挑战。 数据同步:在实时环境中,来自不同模态的数据需要准确地同步,以

    注意事项

    本文(2024AIGC技术发展演进.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开