國內(nèi)做賭博網(wǎng)站風險大嗎鄭州千鋒教育培訓機構怎么樣
引子
最近視頻生成大模型層出不窮,上海AI Lab推出新一代視頻生成大模型 “書生?筑夢 2.0”(Vchitect 2.0)。根據(jù)官方介紹,書生?筑夢 2.0 是集文生視頻、圖生視頻、插幀超分、訓練系統(tǒng)一體化的視頻生成大模型。OK,那就讓我們開始吧。
一、模型介紹
筑夢 2.0 支持 5s-20s 長視頻生成,超過其他開源模型的生成時長。同時支持高達 720x480 分辨率的生成。該模型還能夠處理多種視頻格式,包括橫屏、豎屏、4:3、9:16 和 16:9 等比例,極大地擴展了其應用場景。與其他開源模型不同,筑夢 2.0 同步開源了用于視頻增強的生成式模型 ——VEnhancer,集成了插幀、超分辨率和修復功能。該增強算法可在 2K 分辨率、24fps 的情況下生成更加清晰、流暢的視頻,解決了視頻抖動等常見問題,顯著提升了視頻的穩(wěn)定性。
二、環(huán)境搭建
1、模型下載
https://huggingface.co/Vchitect/Vchitect-2.0-2B/tree/main
2、環(huán)境安裝
docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash
git clone GitHub - Vchitect/Vchitect-2.0: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models
cd /workspace/Vchitect/Vchitect-2.0-master
pip install -r requirements.txt -i Simple Index
pip install protobuf -i Simple Index
三、推理測試
1、修改代碼
python inference.py --test_file assets/test.txt --save_dir output --ckpt_path models