中企動(dòng)力雙語(yǔ)網(wǎng)站企業(yè)網(wǎng)絡(luò)營(yíng)銷(xiāo)目標(biāo)
CogVLM2和CogVLM2-Video是新一代的開(kāi)源模型,支持圖像和視頻理解,具有顯著的性能提升。最近發(fā)布的更新包括CogVLM2論文的發(fā)表、在線演示和對(duì)視頻理解的支持,能夠處理最多1分鐘的視頻。新模型支持中英文,文本長(zhǎng)度可達(dá)8K,圖像分辨率高達(dá)1344x1344,且在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。開(kāi)發(fā)者可以通過(guò)提供的API和演示快速入門(mén)。
來(lái)源:https://github.com/THUDM/CogVLM2
論文:https://arxiv.org/pdf/2408.16500
以下內(nèi)容來(lái)源github翻譯:
CogVLM2 & CogVLM2-Video
近期更新
- 🔥 News:
2024/8/30
: CogVLM2論文已經(jīng)發(fā)布到arXiv。 - 🔥 News:
2024/7/12
: 我們開(kāi)放了 CogVLM2-Video 在線體驗(yàn)網(wǎng)址, 歡迎前往體驗(yàn)。 - 🔥 News:
2024/7/8
: 我們發(fā)布了 CogVLM2 模型的視頻理解版本 CogVLM2-Video
模型,通過(guò)抽取關(guān)鍵幀的方式,實(shí)現(xiàn)對(duì)連續(xù)畫(huà)面的解讀,該模型可以支持最高1分鐘的視頻。閱讀我們 博客
查看更多信息。 - 🔥 News:
2024/6/8
:我們發(fā)布 CogVLM2 TGI 模型權(quán)重
,這是一個(gè)可以在 TGI
環(huán)境加速推理的模型。您可以使用這里的代碼在TGI上運(yùn)行 CogVLM2 模型。 - 🔥 News:
2024/6/5
:我們發(fā)布 GLM-4V-9B,它使用與 CogVLM2 相同的數(shù)據(jù)和訓(xùn)練配方,但以
GLM-4-9B 作為語(yǔ)言主干。我們刪除了視覺(jué)專(zhuān)家,以將模型大小減小到
13B。更多詳細(xì)信息,請(qǐng)參閱 GLM-4 repo。 - 🔥 News:
2024/5/24
:我們發(fā)布了 Int4 版本模型,僅需要 16GB 顯存即可進(jìn)行推理。歡迎前來(lái)體驗(yàn)! - 🔥 News:
2024/5/20
:我們發(fā)布了 CogVLM2 模型,它基于 llama3-8b,在大多數(shù)情況下與 GPT-4V 相當(dāng)(或更好)!歡迎下載!
模型介紹
我們推出了新一代的 CogVLM2
系列模型并開(kāi)源了兩款基于 Meta-Llama-3-8B-Instruct
開(kāi)源模型。與上一代的 CogVLM 開(kāi)源模型相比,CogVLM2 系列開(kāi)源模型具有以下改進(jìn):
- 在許多關(guān)鍵指標(biāo)上有了顯著提升,例如
TextVQA
,DocVQA
。 - 支持 8K 文本長(zhǎng)度。
- 支持高達(dá) 1344 * 1344 的圖像分辨率。
- 提供支持中英文雙語(yǔ)的開(kāi)源模型版本。
您可以在下表中看到 CogVLM2 系列開(kāi)源模型的詳細(xì)信息:
模型名稱(chēng) | cogvlm2-llama3-chat-19B | cogvlm2-llama3-chinese-chat-19B | cogvlm2-video-llama3-chat | cogvlm2-video-llama3-base |
---|---|---|---|---|
基座模型 | Meta-Llama-3-8B-Instruct | Meta-Llama-3-8B-Instruct | Meta-Llama-3-8B-Instruct | Meta-Llama-3-8B-Instruct |
語(yǔ)言 | 英文 | 中文、英文 | 英文 | 英文 |
任務(wù) | 圖像理解,多輪對(duì)話模型 | 圖像理解,多輪對(duì)話模型 | 視頻理解,單輪對(duì)話模型 | 視頻理解,基座模型,不可對(duì)話 |
模型鏈接 | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | 🤗 Huggingface 🤖 ModelScope | 🤗 Huggingface 🤖 ModelScope |
體驗(yàn)鏈接 | 📙 Official Page | 📙 Official Page 🤖 ModelScope | 🤗 Huggingface 🤖 ModelScope | 🤗 Huggingface 🤖 ModelScope |
Experience Link | 📙 Official Page | 📙 Official Page 🤖 ModelScope | 📙 Official Page 🤖 ModelScope | / |
Int4 模型 | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | 🤗 Huggingface 🤖 ModelScope 💫 Wise Model | / | / |
文本長(zhǎng)度 | 8K | 8K | 2K | 2K |
圖片分辨率 | 1344 * 1344 | 1344 * 1344 | 224 * 224 (視頻,取前24幀) | 224 * 224 (視頻,取平均24幀) |
Benchmark
圖像理解能力
我們的開(kāi)源模型相較于上一代 CogVLM 開(kāi)源模型,在多項(xiàng)榜單中取得較好的成績(jī)。其優(yōu)異的表現(xiàn)能與部分的非開(kāi)源模型進(jìn)行同臺(tái)競(jìng)技,如下表所示:
Model | Open Source | LLM Size | TextVQA | DocVQA | ChartQA | OCRbench | MMMU | MMVet | MMBench |
---|---|---|---|---|---|---|---|---|---|
CogVLM1.1 | ? | 7B | 69.7 | - | 68.3 | 590 | 37.3 | 52.0 | 65.8 |
LLaVA-1.5 | ? | 13B | 61.3 | - | - | 337 | 37.0 | 35.4 | 67.7 |
Mini-Gemini | ? | 34B | 74.1 | - | - | - | 48.0 | 59.3 | 80.6 |
LLaVA-NeXT-LLaMA3 | ? | 8B | - | 78.2 | 69.5 | - | 41.7 | - | 72.1 |
LLaVA-NeXT-110B | ? | 110B | - | 85.7 | 79.7 | - | 49.1 | - | 80.5 |
InternVL-1.5 | ? | 20B | 80.6 | 90.9 | 83.8 | 720 | 46.8 | 55.4 | 82.3 |
QwenVL-Plus | ? | - | 78.9 | 91.4 | 78.1 | 726 | 51.4 | 55.7 | 67.0 |
Claude3-Opus | ? | - | - | 89.3 | 80.8 | 694 | 59.4 | 51.7 | 63.3 |
Gemini Pro 1.5 | ? | - | 73.5 | 86.5 | 81.3 | - | 58.5 | - | - |
GPT-4V | ? | - | 78.0 | 88.4 | 78.5 | 656 | 56.8 | 67.7 | 75.0 |
CogVLM2-LLaMA3 (Ours) | ? | 8B | 84.2 | 92.3 | 81.0 | 756 | 44.3 | 60.4 | 80.5 |
CogVLM2-LLaMA3-Chinese (Ours) | ? | 8B | 85.0 | 88.4 | 74.7 | 780 | 42.8 | 60.5 | 78.9 |
所有評(píng)測(cè)都是在不使用任何外部OCR工具(“only pixel”)的情況下獲得的。
視頻理解能力
下圖顯示了 CogVLM2-Video
在 MVBench、VideoChatGPT-Bench
和 Zero-shot VideoQA 數(shù)據(jù)集 (MSVD-QA、MSRVTT-QA、ActivityNet-QA) 上的性能。
其中 VCG 指的是 VideoChatGPTBench,ZS 指的是零樣本 VideoQA 數(shù)據(jù)集,MV-* 指的是 MVBench 中的主要類(lèi)別。具體榜單測(cè)試數(shù)據(jù)如下:
Models | VCG-AVG | VCG-CI | VCG-DO | VCG-CU | VCG-TU | VCG-CO | ZS-AVG |
---|---|---|---|---|---|---|---|
IG-VLM GPT4V | 3.17 | 3.40 | 2.80 | 3.61 | 2.89 | 3.13 | 65.70 |
ST-LLM | 3.15 | 3.23 | 3.05 | 3.74 | 2.93 | 2.81 | 62.90 |
ShareGPT4Video | N/A | N/A | N/A | N/A | N/A | N/A | 46.50 |
VideoGPT+ | 3.28 | 3.27 | 3.18 | 3.74 | 2.83 | 3.39 | 61.20 |
VideoChat2_HD_mistral | 3.10 | 3.40 | 2.91 | 3.72 | 2.65 | 2.84 | 57.70 |
PLLaVA-34B | 3.32 | 3.60 | 3.20 | 3.90 | 2.67 | 3.25 | 68.10 |
CogVLM2-Video | 3.41 | 3.49 | 3.46 | 3.87 | 2.98 | 3.23 | 66.60 |
CogVLM2-Video 在 MVBench 數(shù)據(jù)集上的表現(xiàn)
Models | AVG | AA | AC | AL | AP | AS | CO | CI | EN | ER | FA | FP | MA | MC | MD | OE | OI | OS | ST | SC | UA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
IG-VLM GPT4V | 43.7 | 72.0 | 39.0 | 40.5 | 63.5 | 55.5 | 52.0 | 11.0 | 31.0 | 59.0 | 46.5 | 47.5 | 22.5 | 12.0 | 12.0 | 18.5 | 59.0 | 29.5 | 83.5 | 45.0 | 73.5 |
ST-LLM | 54.9 | 84.0 | 36.5 | 31.0 | 53.5 | 66.0 | 46.5 | 58.5 | 34.5 | 41.5 | 44.0 | 44.5 | 78.5 | 56.5 | 42.5 | 80.5 | 73.5 | 38.5 | 86.5 | 43.0 | 58.5 |
ShareGPT4Video | 51.2 | 79.5 | 35.5 | 41.5 | 39.5 | 49.5 | 46.5 | 51.5 | 28.5 | 39.0 | 40.0 | 25.5 | 75.0 | 62.5 | 50.5 | 82.5 | 54.5 | 32.5 | 84.5 | 51.0 | 54.5 |
VideoGPT+ | 58.7 | 83.0 | 39.5 | 34.0 | 60.0 | 69.0 | 50.0 | 60.0 | 29.5 | 44.0 | 48.5 | 53.0 | 90.5 | 71.0 | 44.0 | 85.5 | 75.5 | 36.0 | 89.5 | 45.0 | 66.5 |
VideoChat2_HD_mistral | 62.3 | 79.5 | 60.0 | 87.5 | 50.0 | 68.5 | 93.5 | 71.5 | 36.5 | 45.0 | 49.5 | 87.0 | 40.0 | 76.0 | 92.0 | 53.0 | 62.0 | 45.5 | 36.0 | 44.0 | 69.5 |
PLLaVA-34B | 58.1 | 82.0 | 40.5 | 49.5 | 53.0 | 67.5 | 66.5 | 59.0 | 39.5 | 63.5 | 47.0 | 50.0 | 70.0 | 43.0 | 37.5 | 68.5 | 67.5 | 36.5 | 91.0 | 51.5 | 79.0 |
CogVLM2-Video | 62.3 | 85.5 | 41.5 | 31.5 | 65.5 | 79.5 | 58.5 | 77.0 | 28.5 | 42.5 | 54.0 | 57.0 | 91.5 | 73.0 | 48.0 | 91.0 | 78.0 | 36.0 | 91.5 | 47.0 | 68.5 |
項(xiàng)目結(jié)構(gòu)
本開(kāi)源倉(cāng)庫(kù)將帶領(lǐng)開(kāi)發(fā)者快速上手 CogVLM2 開(kāi)源模型的基礎(chǔ)調(diào)用方式、微調(diào)示例、OpenAI API格式調(diào)用示例等。具體項(xiàng)目結(jié)構(gòu)如下,您可以點(diǎn)擊進(jìn)入對(duì)應(yīng)的教程鏈接:
basic_demo 文件夾包括:
- CLI 演示,推理 CogVLM2 模型。
- CLI 演示,使用多個(gè)GPU推理 CogVLM2 模型。
- Web 演示,由 chainlit 提供。
- API 服務(wù)器,采用 OpenAI 格式。
- Int4 可以通過(guò)
--quant 4
輕松啟用,內(nèi)存使用為16GB。
finetune_demo 文件夾包括:
- peft 框架的高效微調(diào)示例。
video_demo 文件夾包括:
- CLI 演示,推理 CogVLM2-Video 模型。
- Int4 可以通過(guò)
--quant 4
輕松啟用,內(nèi)存使用為16GB。 - Restful API 服務(wù)。
- Gradio 演示。
模型協(xié)議
該模型根據(jù) CogVLM2 LICENSE 許可證發(fā)布。對(duì)于使用了Meta Llama
3基座模型構(gòu)建的模型,需要同時(shí)遵守 LLAMA3_LICENSE 許可證。
引用
如果您發(fā)現(xiàn)我們的工作有所幫助,請(qǐng)考慮引用以下論文:
@article{hong2024cogvlm2,title={CogVLM2: Visual Language Models for Image and Video Understanding},author={Hong, Wenyi and Wang, Weihan and Ding, Ming and Yu, Wenmeng and Lv, Qingsong and Wang, Yan and Cheng, Yean and Huang, Shiyu and Ji, Junhui and Xue, Zhao and others},journal={arXiv preprint arXiv:2408.16500},year={2024}
}
@misc{wang2023cogvlm,title={CogVLM: Visual Expert for Pretrained Language Models}, author={Weihan Wang and Qingsong Lv and Wenmeng Yu and Wenyi Hong and Ji Qi and Yan Wang and Junhui Ji and Zhuoyi Yang and Lei Zhao and Xixuan Song and Jiazheng Xu and Bin Xu and Juanzi Li and Yuxiao Dong and Ming Ding and Jie Tang},year={2023},eprint={2311.03079},archivePrefix={arXiv},primaryClass={cs.CV}
}
參考資料
http://cogvlm2-online.cogviewai.cn:7868/
復(fù)現(xiàn):https://blog.csdn.net/hejiahao_/article/details/139449516
https://blog.csdn.net/qq_43501322/article/details/143725056?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0-143725056-blog-139449516.235v43pc_blog_bottom_relevance_base6&spm=1001.2101.3001.4242.1&utm_relevant_index=3
https://blog.csdn.net/LateLinux/article/details/140521281
https://huggingface.co/collections/THUDM/cogvlm2-6645f36a29948b67dc4eef75