联觉是由浙江大学主导研发的跨媒体智能与推理项目,旨在“联接多重媒体信息,感知跨媒体语义”,从而高效构建跨媒体语义贯通的跨媒体智能。现已发布1.0版本多模态大模型-Cheetor,该模型提出可控知识注入机制,能够根据指令内容有效感知复杂多模态指令中的关键视觉信息,并将其注入模型,从而实现对涉及多张关联图像的复杂多模态指令的联合推理。联觉1.0版本多模态大模型Cheetor在复杂多图多文多模态指令理解的I4 Benchmark (9类任务,共29个任务) 上显著超越已有模型,实现了最佳性能,并且在多模态指令理解的MME benchmark上取得了优越的性能。
Cheetor展示出在涉及多张关联图像的复杂多模态指令上进行推理的强大能力。例如,在 (a) 中,Cheetor能够敏锐地识别图像之间的联系,从而推理出导致这一不寻常现象的原因。在 (b, c) 中,Cheetor可以推断出图像之间的关系,并理解它们想要传达的意图。在 (e, f) 中,Cheetor通过与人类进行多模式对话展示了理解荒谬对象的能力。
Model | Version | Multi Modal Dialogue | Visual Story Telling List | Visual Relation Inference | Multi Modal Cloze | Knowledge Grounded QA | Text Rich Images QA | Multi Image Reasoning |
---|---|---|---|---|---|---|---|---|
BLIP-2 | vicuna-7b | 11.96 | 20.10 | 3.67 | 18.25 | 39.73 | 30.53 | 39.53 |
InstructBlip | vicuna-7b | 33.58 | 24.41 | 11.49 | 21.20 | 47.40 | 44.40 | 48.55 |
LLaMA-Adapter V2 | llama-7b | 14.22 | 17.57 | 13.51 | 18.00 | 44.80 | 32.00 | 44.03 |
LLaVA | vicuna-7b | 7.79 | 10.70 | 8.27 | 15.85 | 36.20 | 28.33 | 41.53 |
MiniGPT-4 | vicuna-7b | 13.70 | 17.07 | 7.95 | 16.60 | 30.27 | 26.40 | 43.50 |
mPLUG-Owl | llama-7b | 12.67 | 19.33 | 5.40 | 16.25 | 33.27 | 32.47 | 42.50 |
OpenFlamingo | llama-7b | 16.88 | 24.22 | 13.85 | 21.65 | 32.00 | 30.60 | 41.63 |
Otter | llama-7b | 15.37 | 15.57 | 11.39 | 16.00 | 41.67 | 27.73 | 43.85 |
Cheetor | llama-2-7b-chat | 42.70 | 24.76 | 25.50 | 22.95 | 51.00 | 44.93 | 48.68 |
Cheetor | vicuna-7b | 37.50 | 25.20 | 25.90 | 22.15 | 48.60 | 44.93 | 50.28 |