阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩

栏目：国内作者：宋元明清发布时间：2023-03-22 17:23 阅读量：11170

感谢IT之家网友大眼夹、打工轨道人、航空先生的线索投递！

，近日，阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。

根据官方介绍，目前文本生成视频大模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成，整体模型参数约 17 亿，目前仅支持英文输入。扩散模型采用 Unet3D 结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

官方介绍称，本模型适用范围较广，能基于任意英文文本描述进行推理，生成视频。一些文本生成视频示例如下:

A giraffe underneath a microwave.

A goldendoodle playing in a park by a lake.

据IT之家了解，模型已经在创空间和 huggingface 上线，可以直接体验，也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下，通过调用简单的 Pipeline 即可使用当前模型，其中，输入需为字典格式，合法键值为 'text'，内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。

从试玩的结果来看，目前能生成的视频长度多在 2-4 秒，生成等候时间从 20 多秒到 1 分多钟不等。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

分享到微信

客商回流今年我国箱包出口呈持续复苏态势

我国是全球箱包的第一制造大国，数据显示，
“一房难求”与“鲜有问津”同现地产销售仍需加快推货抢收

人头攒动的售楼处、盖满“售罄”印戳的销控
青团、粽子、青稞奶……西藏青稞在盒马“七十二变”

继青稞八宝饭之后，盒马又把青稞结合时令玩
三星电机已申请14项固态电池相关专利

，据外媒报道，三星旗下电子零部件供应商三
OPPO推出ColorOS13.1系统：新增高效出行、高效会议等功能

，在今天下午举行的OPPOFindX6系
谷歌暂时将拼多多App从Play应用商店下架

感谢IT之家网友Coje_He、宇宙开发
苹果MacBookAir笔记本将率先配备OLED面板，最早将于2024年

，国外科技媒体9to5Mac近日盘点了关
育碧即将推出手游《MightyQuest:RoguePalace》，Ne

，据育碧消息，第二款Netflix会员独
主动权益基金超额收益趋低被动投资时代来了？

A股市场结构化极致行情愈演愈烈，主动权益

阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩

最新文章

热点内容