IT之家 8 月 28 日消息,智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。官方表示大 " />
国内新闻

智谱 AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行

时间:2010-12-5 17:23:32  作者:国际新闻   来源:每日趣闻  查看:  评论:0
内容摘要:vpwwei">IT之家 8 月 28 日消息,智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。官方表示大

vpwwei">IT之家 8 月 28 日消息,智谱智谱 AI 开源了 CogVideoX-5B 视频生成模型,开源相比此前开源的视频生成 CogVideoX-2B,官方称其视频生成质量更高,模型视觉效果更好。运行官方表示大幅度优化了模型的智谱推理性能,推理门槛大幅降低,开源可以在 GTX 1080Ti 等早期显卡运行CogVideoX-2B,视频生成在 RTX 3060 等桌面端“甜品卡”运行CogVideoX-5B模型。模型CogVideoX 是运行一个大规模 DiT(diffusion transformer)模型,用于文本生成视频任务,智谱主要采用了以下技术:3D causal VAE:通过压缩视频数据到 latent space,开源并在时间维度上进行解码来实现高效的视频生成视频重建。专家 Transformer:将文本 embedding 和视频 embedding 相结合,模型使用 3D-RoPE 作为位置编码,运行采用专家自适应层归一化处理两个模态的数据,以及使用 3D 全注意力机制来进行时空联合建模。CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下:IT之家附相关链接:代码仓库:https://github.com/THUDM/CogVideo模型下载:https://huggingface.co/THUDM/CogVideoX-5b论文链接:https://arxiv.org/pdf/2408.06072
copyright © 2024 powered by 生龙活虎网   sitemap