2025年01月15日 欢迎访问中国智慧工程研究会智慧建设教育工作委员会
当前位置:首页 > 培训信息 > 正文
关于举办“文生视频及多模态大模型核心技术开发与应用研修班”的通知
0
发布时间:2024-06-25 浏览数:163 新闻来源:

关于举办“文生视频及多模态大模型核心技术开发与应用研修”的通知

各企、事业单位:

2024年政府工作报告提出“发展新质生产力”,并将其列为年度十大工作任务之首。新质生产力正在重塑社会生产运行的方式,为企业开辟一条通向高质量发展的道路。新质生产力的提出加速了企业数字化转型步伐,人工智能技术作为核心新质技术,正在赋能企业数字化转型。从2022年大语言模型ChatGPT的问世,到今年年初出视频生成大模型Sora的推出,人工智能技术已发展到生成技术和多模态大模型阶段,成为每一位科技人才重点关注和研究的方向。

为使更多科技人才掌握更新的前沿技术,加快培养数字技术人才,根据《国务院关于推行终身职业技能培训制度的意见》提出的“紧跟新技术、新职业发展变化,建立职业分类动态调整机制,加快职业标准开发工作”要求,联合北京龙腾智元信息技术有限公司特举办“文生视频及多模态大模型核心技术开发与应用研修班”。本次培训采用理论+实战培训模式。

一、时间安排:   

2024628 2024630日   北京(同时转线上直播)

28日报到发放上课材料,29-30日上课)

培训专家

北京理工大学教授,博士生导师,副所长。国家重点研发计划评审专家、国家原863项目评审专家,北京市自然科学基金/重点基金评审专家、博士点基金/博士后基金评审专家,国际期刊NLPR主编,以及其它期刊的编委。受邀出版国家出版基金项目人工智能出版工程《人工智能-机器学习理论与方法》教材。

、参会对象:

各省市、自治区从事多模态、大模型、人工智能、机器学习、深度学习、自然语言处理、图像处理、视频处理、文本生成、图像生成、视频生成、大数据、知识图谱等领域相关研究的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员,以及对文生视频、多模态大模型研究感兴趣的广大爱好者。

四、具体课程安排

时间安排

课程大纲

第一天

900-1200

1400-1700

一、生成式人工智能技术

1.生成式人工智能在计算机视觉领域的发展历史    2.生成对抗网络GAN

3.可变分自编码器VAE                          4.自回归模型Auto-regressive Model

5.扩散模型Diffusion Model


二、多模态大模型

1. 从ChatGPT到Sora的技术演进      2.大语言模型

3.视觉大模型                        4多模态大模型


三、Sora的概念、主要功能与应用

1.什么是Sora           2.Sora的主要功能

3.Sora的技术特性       4.Sora应用场景(Sora的个人应用场景  Sora的企业应用场景)


四、Sora的工作原理与流程

1.Sora的架构                                 2.Sora的工作原理

3.Sora使用的技术                            4.Sora的流程分析


五、Transformer模型

1.Transformer模型的基本架构           2.Self-Attention机制的原理与计算过程

3.Multi-Head Attention 的设计与作用    4.Positional Encoding的实现方法

5.Rotary Positional Embedding          6.Transformer中的Feed-Forward Networks

7.Layer Normalization的原理            8.Transformer模型中的残差连接

9.Teacher Forcing技术                 10.编码器与解码器的结构差异

11.视觉Transformer

第二天

900-1200

1400-1700

六、扩散模型

1.前向扩散过程                 2.反向生成过程

3.网络架构                     4.参数化

5.采样方法                     6.Stable Diffusion模型

7.Diffusion Transformer模型


七、CLIP: Contrastive language-Image Pre-training

1.CLIP架构                  2.对比预训练

3.数据集分类器创建          4.Zero-shot 推理

5.提示词工程与集成


八、VAE: Spacetime Latent Representation

1.Autoencoder               2.VAE模型原理

3.重参化                    4.VAE与AE的区别

5. Spacetime Latent Representation


九、数据工程

1.Longer Detailed Captions: LLM优化Prompt

2.Re-captioning: Text-Video pairs

3.Native aspect ratios:原生视频训练


十、模型训练

1.Sora训练流程

2.patchify—视频数据转换为图像块

3.Scaling Transformer生成

4.Latent转换为视频向量


十一、行业实现

1.文生视频

2.文生图像

3.OpenSora


十二、实操

文生视频代码分析


©版权所有:中国智慧工程研究会智慧建设教育工作委员会
Copyright(c) ccenbh.org.cn All Rights Reserved 京ICP备16008691号-3