厄瓜多尔电力供应紧张,铜陵有色旗下米拉多铜矿生产受到影响。
财报发布后,虎牙公司联席CEO兼高级副总裁黄俊洪在季报分析师电话会议上表示:“第三季度,虎牙在推动游戏相关服务业务方面取得了显著的进展。游戏相关服务、广告和其他收入创历史新高,占比达到总收入的26.7%。”
该报告主要介绍了多模态大语言模型(MLLM)的相关内容,包括背景、模型介绍、演进、团队工作以及未来展望。MLLM通过整合多种模态信息,突破了传统大语言模型仅处理文本的限制,能够处理多模态输入,获取更丰富的世界知识,在多个领域展现出强大的应用潜力。
多模态大语言模型背景
1. LLM的局限与MLLM的兴起
LLM虽能解决多种传统NLP任务及高级任务,但无法处理多模态输入,无法获取多模态世界知识。
近两年,工业和学术界积极转向MLLM,涌现出众多模型,如OpenAI的GPT - 4V、谷歌的Gemini - Pro等。
2. MLLM的应用能力
能完成传统视觉/多模态任务,如图片描述(Caption任务)、计数、定位等。
可执行更复杂的复合型任务,如基于视觉的感知和理解任务、图表推理、根据图表写代码等。
多模态大语言模型介绍
展开剩余85%1. 模型架构*
常用架构包含编码器、连接器和大语言模型三个部分。视觉编码器常用基于CLIP预训练的ViT;连接器有MLP结构和Q - Former,用于处理视觉token。
2. 数据与训练方法
第一阶段进行模态对齐训练,冻结LLM,用图文配对数据训练视觉编码器和连接器。
第二阶段进行指令微调训练,使用各种任务数据并改造为指令格式,提升模型指令遵循能力。
3. 模型评估
常规任务Benchmark聚焦特定任务,如VQA任务,用准确率评估。
专门Benchmark关注推理等能力,任务更复杂,如常识推理、代码推理任务。
多模态大语言模型演进
1. 更高的分辨率
高分辨率有助于获取更多信息、准确回答问题,可通过更大分辨率微调(如Qwen - VL从224提升到448)或切分图片为多块等方式提高视觉编码器分辨率。
2. 更丰富的输入形式
从单图输入发展到支持多图、视频输入,实现对多图计数、基于视频内容回答问题等功能。
3. 更丰富的I/O模态支持
输出更多模态,如图片、音频、视频,可通过后接生成模型(如扩散模型)或统一多模态模型(扩充词表、加入Tokenizer)实现,支持图文交错输出。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得炒股加杠杆怎么办,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系
发布于:广东省