炒股加杠杆怎么办 殷述康:多模态大语言模型领域进展分享


发布日期:2025-01-07 16:04    点击次数:133

炒股加杠杆怎么办 殷述康:多模态大语言模型领域进展分享

厄瓜多尔电力供应紧张,铜陵有色旗下米拉多铜矿生产受到影响。

财报发布后,虎牙公司联席CEO兼高级副总裁黄俊洪在季报分析师电话会议上表示:“第三季度,虎牙在推动游戏相关服务业务方面取得了显著的进展。游戏相关服务、广告和其他收入创历史新高,占比达到总收入的26.7%。”

该报告主要介绍了多模态大语言模型(MLLM)的相关内容,包括背景、模型介绍、演进、团队工作以及未来展望。MLLM通过整合多种模态信息,突破了传统大语言模型仅处理文本的限制,能够处理多模态输入,获取更丰富的世界知识,在多个领域展现出强大的应用潜力。

多模态大语言模型背景

1. LLM的局限与MLLM的兴起

LLM虽能解决多种传统NLP任务及高级任务,但无法处理多模态输入,无法获取多模态世界知识。

近两年,工业和学术界积极转向MLLM,涌现出众多模型,如OpenAI的GPT - 4V、谷歌的Gemini - Pro等。

2. MLLM的应用能力

能完成传统视觉/多模态任务,如图片描述(Caption任务)、计数、定位等。

可执行更复杂的复合型任务,如基于视觉的感知和理解任务、图表推理、根据图表写代码等。

多模态大语言模型介绍

展开剩余85%

1. 模型架构*

常用架构包含编码器、连接器和大语言模型三个部分。视觉编码器常用基于CLIP预训练的ViT;连接器有MLP结构和Q - Former,用于处理视觉token。

2. 数据与训练方法

第一阶段进行模态对齐训练,冻结LLM,用图文配对数据训练视觉编码器和连接器。

第二阶段进行指令微调训练,使用各种任务数据并改造为指令格式,提升模型指令遵循能力。

3. 模型评估

常规任务Benchmark聚焦特定任务,如VQA任务,用准确率评估。

专门Benchmark关注推理等能力,任务更复杂,如常识推理、代码推理任务。

多模态大语言模型演进

1. 更高的分辨率

高分辨率有助于获取更多信息、准确回答问题,可通过更大分辨率微调(如Qwen - VL从224提升到448)或切分图片为多块等方式提高视觉编码器分辨率。

2. 更丰富的输入形式

从单图输入发展到支持多图、视频输入,实现对多图计数、基于视频内容回答问题等功能。

3. 更丰富的I/O模态支持

输出更多模态,如图片、音频、视频,可通过后接生成模型(如扩散模型)或统一多模态模型(扩充词表、加入Tokenizer)实现,支持图文交错输出。

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得炒股加杠杆怎么办,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系

发布于:广东省