联觉-多模态大模型

项目简介

联觉是由浙江大学主导研发的跨媒体智能与推理项目，旨在“联接多重媒体信息，感知跨媒体语义”，从而高效构建跨媒体语义贯通的跨媒体智能。现已发布1.0版本多模态大模型-Cheetor，该模型提出可控知识注入机制，能够根据指令内容有效感知复杂多模态指令中的关键视觉信息，并将其注入模型，从而实现对涉及多张关联图像的复杂多模态指令的联合推理。联觉1.0版本多模态大模型Cheetor在复杂多图多文多模态指令理解的I4 Benchmark (9类任务，共29个任务) 上显著超越已有模型，实现了最佳性能，并且在多模态指令理解的MME benchmark上取得了优越的性能。

示例

Cheetor展示出在涉及多张关联图像的复杂多模态指令上进行推理的强大能力。例如，在 (a) 中，Cheetor能够敏锐地识别图像之间的联系，从而推理出导致这一不寻常现象的原因。在 (b, c) 中，Cheetor可以推断出图像之间的关系，并理解它们想要传达的意图。在 (e, f) 中，Cheetor通过与人类进行多模式对话展示了理解荒谬对象的能力。

复杂多图多文多模态指令理解-I4 Benchmark

Model	Version	Multi Modal Dialogue	Visual Story Telling List	Visual Relation Inference	Multi Modal Cloze	Knowledge Grounded QA	Text Rich Images QA	Multi Image Reasoning
BLIP-2	vicuna-7b	11.96	20.10	3.67	18.25	39.73	30.53	39.53
InstructBlip	vicuna-7b	33.58	24.41	11.49	21.20	47.40	44.40	48.55
LLaMA-Adapter V2	llama-7b	14.22	17.57	13.51	18.00	44.80	32.00	44.03
LLaVA	vicuna-7b	7.79	10.70	8.27	15.85	36.20	28.33	41.53
MiniGPT-4	vicuna-7b	13.70	17.07	7.95	16.60	30.27	26.40	43.50
mPLUG-Owl	llama-7b	12.67	19.33	5.40	16.25	33.27	32.47	42.50
OpenFlamingo	llama-7b	16.88	24.22	13.85	21.65	32.00	30.60	41.63
Otter	llama-7b	15.37	15.57	11.39	16.00	41.67	27.73	43.85
Cheetor	llama-2-7b-chat	42.70	24.76	25.50	22.95	51.00	44.93	48.68
Cheetor	vicuna-7b	37.50	25.20	25.90	22.15	48.60	44.93	50.28

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh.md

README_zh.md

联觉-多模态大模型

项目简介

示例

复杂多图多文多模态指令理解-I4 Benchmark

MME Benchmark (截止23.08.20)

Files

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

联觉-多模态大模型

项目简介

示例

复杂多图多文多模态指令理解-I4 Benchmark

MME Benchmark (截止23.08.20)