您现在的位置是:西行寺俊雄网 > 综合
剑桥、腾讯AI Lab等提出狂语言模子PandaGPT:一个模子不同六种模态
西行寺俊雄网2025-03-12 23:03:42【综合】3人已围观
简介克日,来自剑桥、NAIST 以及腾讯 AI Lab 的钻研者推出了一款名为 PandaGPT 的跨模态语言模子,揭示了在家养智能规模的立异试验。经由散漫 ImageBind 的模态对于齐能耐以及 Vi
克日 ,剑桥来自剑桥 、腾讯提出态NAIST 以及腾讯 AI Lab 的狂语钻研者推出了一款名为 PandaGPT 的跨模态语言模子,揭示了在家养智能规模的言模立异试验。经由散漫 ImageBind 的个模模态对于齐能耐以及 Vicuna 的天在行腕 ,同时实现为了六种模态下的不同指令清晰与追寻能耐 。尽管 PandaGPT 的种模下场尚有提升空间,但揭示了跨模态 AGI 智能的剑桥睁开后劲。
来自剑桥、腾讯提出态NAIST 以及腾讯 AI Lab 的狂语钻研者近期宣告了一项名为 PandaGPT 的钻研下场,这是言模一种将大型语言模子与差距模态对于齐、绑定以实现跨模态指令追寻能耐的个模技术 。PandaGPT 可能实现诸如天生详细的不同图像形貌、凭证视频编写故事以及回覆对于音频的种模下场等重大使命。它可能同时接管多模态输入,剑桥并做作地组合它们的语义 。

名目主页: https://panda-gpt.github.io/
代码: https://github.com/yxuansu/PandaGPT
论文: http://arxiv.org/abs/2305.16355
线上 Demo 揭示: https://huggingface.co/spaces/GMFTBY/PandaGPT

为了实现图像 & 视频 、文本、音频 、热力争 、深度图 、IMU 读数六种模态下的指令追寻能耐,PandaGPT 将 ImageBind 的多模态编码器与 Vicuna 大型语言模子相散漫(如上图所示) 。
为了使 ImageBind 的多模态编码器以及 Vicuna 的大型语言模子的特色空间对于齐,PandaGPT 运用了组合 LLaVa 以及 Mini-GPT4 宣告的共 160k 基于图像的语言指令追寻数据作为磨炼数据。每一个磨炼实例搜罗一张图像以及响应一组多轮对于话。
为了防止破损 ImageBind 自己的多模态对于齐性子以及削减磨炼老本,PandaGPT 只更新了如下模块:
在 ImageBind 的编码服从上新增一个线性投影矩阵,将 ImageBind 天生的展现转换后插入到 Vicuna 的输入序列中;
在 Vicuna 的留意力模块上削减了格外的 LoRA 权重 。两者参数总数约占 Vicuna 参数的 0.4% 。磨炼函数为传统的语言建模目的。值患上留意的是,磨炼历程中仅对于模子输入对于应部份妨碍权重更新,不同过错用户输入部份妨碍合计。全部磨炼历程在 8×A100 (40G) GPUs 上实现磨炼需要约 7 小时 。
值患上夸张的是,当初的 PandaGPT 版本只运用了对于齐的图像 - 文本数据妨碍磨炼 ,可是秉持了 ImageBind 编码器的六种模态清晰能耐(图像 / 视频 、文本 、音频 、深度度 、热量图以及 IMU)以及它们之间的对于齐属性,从而具备在所有模态之间跨模态能耐 。
在试验中,作者揭示了 PandaGPT 对于差距模态的清晰能耐,搜罗基于图像 / 视频的问答,基于图像 / 视频的创意写作,基于视觉以及听觉信息的推理等等,下面是一些例子:
图像 :

音频 :

视频:

与其余多模态语言模子比照 ,PandaGPT 最突出的特色是它可能清晰并将差距模态的信息做作地组合在一起。
视频 + 音频 :

图像 + 音频:

总结
作者们也总结了当初 PandaGPT 的诸多下场以及未来的睁开倾向。尽管 PandaGPT 在处置多种模态及其组合方面具备惊人的能耐 ,但仍有多种措施可能极大水平的提升 PandaGPT 的功能。
PandaGPT 可能经由运用其余模态对于齐数据来进一步提升图像之外模态的清晰能耐,好比运用 ASR 以及 TTS 数据来妨碍音频 - 文本模态的模态清晰以及指令追寻能耐。
文本之外的其余模态仅仅运用了一个 embedding 向量妨碍展现,导致语言模子无奈清晰文本之外模子的细粒度信息 。更多对于细粒度特色提取的钻研,如跨模态留意力机制,可能有助于后退功能 。
PandaGPT 当初仅应承将文本之外的模态信息用作输入。未来该模子有后劲将全部 AIGC 不同到统一个模子之中,即一个模子同时实现图像 & 视频天生 、语音分解 、文本天生等使命。
需要新的基准测试来评估多模态输入的组合能耐。
PandaGPT 还可能展现泛起有语言模子的一些罕有缺陷,搜罗幻觉 、毒性以及机械印象 。
最后 ,作者们夸张 ,PandaGPT 仅仅是一个钻研原型,临时还缺少以直接运用于破费情景。
很赞哦!(6)
相关文章
- 中科宇航2024年计划实现6发火箭出厂,力箭一号遥三运载火箭顺利出厂42天阵亡25000人,2万亿美元打水漂,专家:这一仗打醒了全世界
- “手绘舆图寻亲者” 李景伟恳求抗诉获回覆:审查院不予抗诉
- 新西方&前途出国:2023中国留学白皮书
- 侵略“龙舟水” 科技利器齐上阵
- 亚足联针对亚冠浙江队VS武里南队赛后冲突开出罚单扬子晚报2023-12-10 20:33扬子晚报2023-12-10 20:33
- 哈登去湖人?76人签明星控卫?名嘴帕金斯预料,火箭队成最大输家
- 争冠格局已定 保级形势仍有变数 两黑马崛起成本赛季中超唯一亮点
- 迪马:曼联推选租借范德贝克,罗马将妨碍评估
- 商汤“商量”大模型获评未来领袖,有力回击灰熊做空谣言华夏时报2023-12-04 16:06华夏时报2023-12-04 16:06
- 原创 汉朝使者出使外国,国王一问题令他哭笑不得,引出一成语流传至今
热门文章
站长推荐
英超综合:维拉力克阿森纳 利物浦逆转水晶宫善恶终有报!63岁在美国捡垃圾的吕丽萍,已经活成了一个“笑话”
中山大学落选见告书内有云南普洱茶,茶叶来自帮扶县 网友:美不雅又好喝!
错失绝平良机 青岛海牛客场1-2不敌上海上港2010年,文强被执行死刑前的照片,双手戴手铐,躺在一个光板床上
皇马官推与ID为“拉波尔塔婊子”的网友互动,随后删除了动态
炸裂!步行者三连胜含金量十足,连克东部豪强这是要逆天?
2023选秀大会前瞻:爵士篇长期不穿内衣的女性,身体会发生哪些变化?女孩子不要羞于了解
原创 三方大交易告吹!快船就是搅屎棍,凯尔特人不死心!
刚看完国王的演讲还是很震撼的2010年,文强被执行死刑前的照片,双手戴手铐,躺在一个光板床上
友情链接
- 张世博客
- 吴奇隆Twitter
- 陈意涵主页
- 杨幂博客
- 赵又廷微博
- 我们与恶的距离Weibo
- 马可Weibo
- 陈意涵博客
- 孙俪抖音
- 罗晋Facebook
- 许茹芸博客
- 王祖贤主页
- 钟镇涛微博
- 张彬彬Instagram
- 周杰伦Instagram
- 关晓彤官网
- 吕孔维主页
- 薛佳凝Weibo
- 叶倩文Facebook
- 张天爱主页
- 中超3队战亚冠:三镇陷入死亡之组,泰山拼第2,浙江好签女大学生因名字特殊,四年没敢逃过课,父母:我们的目的达到了
- 先别质疑,历史有话说
- 我国迷信家开拓特异识别帕金森病关键致病卵白的新型示踪剂
- 前皇马巨星复活:时隔277天回归,连获2场MVP!主帅盛赞回顾:日本饮料年赚1046亿,击败统一、农夫山泉,还被误以为是国货
- 解签亚冠:中超三队能走多远?
- 鲁能亚冠分组抽到上上签!帕托成球队最大短板,四人发挥成关键杨利伟在太空听到“敲门声”,13年后谜底被揭开,多亏他当时冷静
- 史诗级4换1生意妄想!伦纳德或者加盟怯夫,维金斯+库明加遭扔掉
- 原创 NBA3消息:科比雕像日期敲定,字母拒绝续约,利拉德承认申请离队
- 迷信家揭示药物治疗同种癌细胞会泛起差距的细胞运气
- 盲足天下杯中国获亚军创队史最佳下场,阿根廷第三次夺冠