當(dāng)前位置：首頁(yè) > news >正文

中企動(dòng)力雙語(yǔ)網(wǎng)站企業(yè)網(wǎng)絡(luò)營(yíng)銷(xiāo)目標(biāo)

news 2025/7/8 6:28:43

中企動(dòng)力雙語(yǔ)網(wǎng)站,企業(yè)網(wǎng)絡(luò)營(yíng)銷(xiāo)目標(biāo),導(dǎo)購(gòu)返利網(wǎng)站開(kāi)發(fā),長(zhǎng)春網(wǎng)站建設(shè)于健CogVLM2和CogVLM2-Video是新一代的開(kāi)源模型，支持圖像和視頻理解，具有顯著的性能提升。最近發(fā)布的更新包括CogVLM2論文的發(fā)表、在線演示和對(duì)視頻理解的支持，能夠處理最多1分鐘的視頻。新模型支持中英文，文本長(zhǎng)度可達(dá)8K，…

在這里插入圖片描述
CogVLM2和CogVLM2-Video是新一代的開(kāi)源模型，支持圖像和視頻理解，具有顯著的性能提升。最近發(fā)布的更新包括CogVLM2論文的發(fā)表、在線演示和對(duì)視頻理解的支持，能夠處理最多1分鐘的視頻。新模型支持中英文，文本長(zhǎng)度可達(dá)8K，圖像分辨率高達(dá)1344x1344，且在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。開(kāi)發(fā)者可以通過(guò)提供的API和演示快速入門(mén)。

來(lái)源：https://github.com/THUDM/CogVLM2
論文：https://arxiv.org/pdf/2408.16500

在這里插入圖片描述

以下內(nèi)容來(lái)源github翻譯：

CogVLM2 & CogVLM2-Video

近期更新

🔥 News: 2024/8/30: CogVLM2論文已經(jīng)發(fā)布到arXiv。
🔥 News: 2024/7/12: 我們開(kāi)放了 CogVLM2-Video 在線體驗(yàn)網(wǎng)址，歡迎前往體驗(yàn)。
🔥 News: 2024/7/8: 我們發(fā)布了 CogVLM2 模型的視頻理解版本 CogVLM2-Video
模型，通過(guò)抽取關(guān)鍵幀的方式，實(shí)現(xiàn)對(duì)連續(xù)畫(huà)面的解讀，該模型可以支持最高1分鐘的視頻。閱讀我們博客
查看更多信息。
🔥 News：2024/6/8：我們發(fā)布 CogVLM2 TGI 模型權(quán)重
，這是一個(gè)可以在 TGI
環(huán)境加速推理的模型。您可以使用這里的代碼在TGI上運(yùn)行 CogVLM2 模型。
🔥 News：2024/6/5：我們發(fā)布 GLM-4V-9B，它使用與 CogVLM2 相同的數(shù)據(jù)和訓(xùn)練配方，但以
GLM-4-9B 作為語(yǔ)言主干。我們刪除了視覺(jué)專(zhuān)家，以將模型大小減小到
13B。更多詳細(xì)信息，請(qǐng)參閱 GLM-4 repo。
🔥 News：2024/5/24：我們發(fā)布了 Int4 版本模型，僅需要 16GB 顯存即可進(jìn)行推理。歡迎前來(lái)體驗(yàn)！
🔥 News：2024/5/20：我們發(fā)布了 CogVLM2 模型，它基于 llama3-8b，在大多數(shù)情況下與 GPT-4V 相當(dāng)（或更好）！歡迎下載！

模型介紹

我們推出了新一代的 CogVLM2
系列模型并開(kāi)源了兩款基于 Meta-Llama-3-8B-Instruct
開(kāi)源模型。與上一代的 CogVLM 開(kāi)源模型相比，CogVLM2 系列開(kāi)源模型具有以下改進(jìn)：

在許多關(guān)鍵指標(biāo)上有了顯著提升，例如 TextVQA, DocVQA。
支持 8K 文本長(zhǎng)度。
支持高達(dá) 1344 * 1344 的圖像分辨率。
提供支持中英文雙語(yǔ)的開(kāi)源模型版本。

您可以在下表中看到 CogVLM2 系列開(kāi)源模型的詳細(xì)信息：

模型名稱(chēng)	cogvlm2-llama3-chat-19B	cogvlm2-llama3-chinese-chat-19B	cogvlm2-video-llama3-chat	cogvlm2-video-llama3-base
基座模型	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct
語(yǔ)言	英文	中文、英文	英文	英文
任務(wù)	圖像理解，多輪對(duì)話模型	圖像理解，多輪對(duì)話模型	視頻理解，單輪對(duì)話模型	視頻理解，基座模型，不可對(duì)話
模型鏈接	🤗 Huggingface 🤖 ModelScope 💫 Wise Model	🤗 Huggingface 🤖 ModelScope 💫 Wise Model	🤗 Huggingface 🤖 ModelScope	🤗 Huggingface 🤖 ModelScope
體驗(yàn)鏈接	📙 Official Page	📙 Official Page 🤖 ModelScope	🤗 Huggingface 🤖 ModelScope	🤗 Huggingface 🤖 ModelScope
Experience Link	📙 Official Page	📙 Official Page 🤖 ModelScope	📙 Official Page 🤖 ModelScope	/
Int4 模型	🤗 Huggingface 🤖 ModelScope 💫 Wise Model	🤗 Huggingface 🤖 ModelScope 💫 Wise Model	/	/
文本長(zhǎng)度	8K	8K	2K	2K
圖片分辨率	1344 * 1344	1344 * 1344	224 * 224 (視頻,取前24幀)	224 * 224 (視頻,取平均24幀)

Benchmark

圖像理解能力

我們的開(kāi)源模型相較于上一代 CogVLM 開(kāi)源模型，在多項(xiàng)榜單中取得較好的成績(jī)。其優(yōu)異的表現(xiàn)能與部分的非開(kāi)源模型進(jìn)行同臺(tái)競(jìng)技，如下表所示：

Model	Open Source	LLM Size	TextVQA	DocVQA	ChartQA	OCRbench	MMMU	MMVet	MMBench
CogVLM1.1	?	7B	69.7	-	68.3	590	37.3	52.0	65.8
LLaVA-1.5	?	13B	61.3	-	-	337	37.0	35.4	67.7
Mini-Gemini	?	34B	74.1	-	-	-	48.0	59.3	80.6
LLaVA-NeXT-LLaMA3	?	8B	-	78.2	69.5	-	41.7	-	72.1
LLaVA-NeXT-110B	?	110B	-	85.7	79.7	-	49.1	-	80.5
InternVL-1.5	?	20B	80.6	90.9	83.8	720	46.8	55.4	82.3
QwenVL-Plus	?	-	78.9	91.4	78.1	726	51.4	55.7	67.0
Claude3-Opus	?	-	-	89.3	80.8	694	59.4	51.7	63.3
Gemini Pro 1.5	?	-	73.5	86.5	81.3	-	58.5	-	-
GPT-4V	?	-	78.0	88.4	78.5	656	56.8	67.7	75.0
CogVLM2-LLaMA3 (Ours)	?	8B	84.2	92.3	81.0	756	44.3	60.4	80.5
CogVLM2-LLaMA3-Chinese (Ours)	?	8B	85.0	88.4	74.7	780	42.8	60.5	78.9

所有評(píng)測(cè)都是在不使用任何外部OCR工具(“only pixel”)的情況下獲得的。

視頻理解能力

下圖顯示了 CogVLM2-Video
在 MVBench、VideoChatGPT-Bench
和 Zero-shot VideoQA 數(shù)據(jù)集 (MSVD-QA、MSRVTT-QA、ActivityNet-QA) 上的性能。

在這里插入圖片描述

其中 VCG 指的是 VideoChatGPTBench，ZS 指的是零樣本 VideoQA 數(shù)據(jù)集，MV-* 指的是 MVBench 中的主要類(lèi)別。具體榜單測(cè)試數(shù)據(jù)如下：

Models	VCG-AVG	VCG-CI	VCG-DO	VCG-CU	VCG-TU	VCG-CO	ZS-AVG
IG-VLM GPT4V	3.17	3.40	2.80	3.61	2.89	3.13	65.70
ST-LLM	3.15	3.23	3.05	3.74	2.93	2.81	62.90
ShareGPT4Video	N/A	N/A	N/A	N/A	N/A	N/A	46.50
VideoGPT+	3.28	3.27	3.18	3.74	2.83	3.39	61.20
VideoChat2_HD_mistral	3.10	3.40	2.91	3.72	2.65	2.84	57.70
PLLaVA-34B	3.32	3.60	3.20	3.90	2.67	3.25	68.10
CogVLM2-Video	3.41	3.49	3.46	3.87	2.98	3.23	66.60

CogVLM2-Video 在 MVBench 數(shù)據(jù)集上的表現(xiàn)

Models	AVG	AA	AC	AL	AP	AS	CO	CI	EN	ER	FA	FP	MA	MC	MD	OE	OI	OS	ST	SC	UA
IG-VLM GPT4V	43.7	72.0	39.0	40.5	63.5	55.5	52.0	11.0	31.0	59.0	46.5	47.5	22.5	12.0	12.0	18.5	59.0	29.5	83.5	45.0	73.5
ST-LLM	54.9	84.0	36.5	31.0	53.5	66.0	46.5	58.5	34.5	41.5	44.0	44.5	78.5	56.5	42.5	80.5	73.5	38.5	86.5	43.0	58.5
ShareGPT4Video	51.2	79.5	35.5	41.5	39.5	49.5	46.5	51.5	28.5	39.0	40.0	25.5	75.0	62.5	50.5	82.5	54.5	32.5	84.5	51.0	54.5
VideoGPT+	58.7	83.0	39.5	34.0	60.0	69.0	50.0	60.0	29.5	44.0	48.5	53.0	90.5	71.0	44.0	85.5	75.5	36.0	89.5	45.0	66.5
VideoChat2_HD_mistral	62.3	79.5	60.0	87.5	50.0	68.5	93.5	71.5	36.5	45.0	49.5	87.0	40.0	76.0	92.0	53.0	62.0	45.5	36.0	44.0	69.5
PLLaVA-34B	58.1	82.0	40.5	49.5	53.0	67.5	66.5	59.0	39.5	63.5	47.0	50.0	70.0	43.0	37.5	68.5	67.5	36.5	91.0	51.5	79.0
CogVLM2-Video	62.3	85.5	41.5	31.5	65.5	79.5	58.5	77.0	28.5	42.5	54.0	57.0	91.5	73.0	48.0	91.0	78.0	36.0	91.5	47.0	68.5

項(xiàng)目結(jié)構(gòu)

本開(kāi)源倉(cāng)庫(kù)將帶領(lǐng)開(kāi)發(fā)者快速上手 CogVLM2 開(kāi)源模型的基礎(chǔ)調(diào)用方式、微調(diào)示例、OpenAI API格式調(diào)用示例等。具體項(xiàng)目結(jié)構(gòu)如下，您可以點(diǎn)擊進(jìn)入對(duì)應(yīng)的教程鏈接：

basic_demo 文件夾包括：

CLI 演示，推理 CogVLM2 模型。
CLI 演示，使用多個(gè)GPU推理 CogVLM2 模型。
Web 演示，由 chainlit 提供。
API 服務(wù)器，采用 OpenAI 格式。
Int4 可以通過(guò) --quant 4 輕松啟用，內(nèi)存使用為16GB。

finetune_demo 文件夾包括：

peft 框架的高效微調(diào)示例。

video_demo 文件夾包括：

CLI 演示，推理 CogVLM2-Video 模型。
Int4 可以通過(guò) --quant 4 輕松啟用，內(nèi)存使用為16GB。
Restful API 服務(wù)。
Gradio 演示。

模型協(xié)議

該模型根據(jù) CogVLM2 LICENSE 許可證發(fā)布。對(duì)于使用了Meta Llama
3基座模型構(gòu)建的模型，需要同時(shí)遵守 LLAMA3_LICENSE 許可證。

引用

如果您發(fā)現(xiàn)我們的工作有所幫助，請(qǐng)考慮引用以下論文:

@article{hong2024cogvlm2,title={CogVLM2: Visual Language Models for Image and Video Understanding},author={Hong, Wenyi and Wang, Weihan and Ding, Ming and Yu, Wenmeng and Lv, Qingsong and Wang, Yan and Cheng, Yean and Huang, Shiyu and Ji, Junhui and Xue, Zhao and others},journal={arXiv preprint arXiv:2408.16500},year={2024}
}

@misc{wang2023cogvlm,title={CogVLM: Visual Expert for Pretrained Language Models}, author={Weihan Wang and Qingsong Lv and Wenmeng Yu and Wenyi Hong and Ji Qi and Yan Wang and Junhui Ji and Zhuoyi Yang and Lei Zhao and Xixuan Song and Jiazheng Xu and Bin Xu and Juanzi Li and Yuxiao Dong and Ming Ding and Jie Tang},year={2023},eprint={2311.03079},archivePrefix={arXiv},primaryClass={cs.CV}
}

參考資料

http://cogvlm2-online.cogviewai.cn:7868/
復(fù)現(xiàn)：https://blog.csdn.net/hejiahao_/article/details/139449516
https://blog.csdn.net/qq_43501322/article/details/143725056?utm_medium=distribute.pc_relevant.none-task-blog-2_defaultbaidujs_baidulandingword~default-0-143725056-blog-139449516.235^v43pc_blog_bottom_relevance_base6&spm=1001.2101.3001.4242.1&utm_relevant_index=3
https://blog.csdn.net/LateLinux/article/details/140521281
https://huggingface.co/collections/THUDM/cogvlm2-6645f36a29948b67dc4eef75

查看全文

http://aloenet.com.cn/news/47465.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡