多模态大模型如何看懂《长安三万里》?解密情商智商俱佳多模态大模型的发展与攻防一体！《追AI的人》第27期来咯！

Original AAIG 阿里巴巴人工智能治理研究中心 2023-11-28

收录于合集 #追AI的人 80个

本期热点讨论

💙 不许在脑海里想一头粉红色的大象，你想的是什么?立足心理学，探究多模态大模型的发展历程

💙 多模态大模型如何看懂《长安三万里》？以及如何生成AIGC内容？

💙 多模态大模型在实际业务场景中攻击与防守的实际应用？

💙 ChatGPT可以长出眼睛和耳朵？我们一起来畅想！

本周四(8月10日)19:00，《追AI的人》系列直播第27期邀请了阿里巴巴人工智能治理与可持续发展研究中心（AAIG）图片视觉大模型与视觉AIGC安全算法负责人洪海文分享《多模态大模型的发展与攻防一体》。

直播详情

直播主题：《能看懂《长安三万里》，也能画出粉红色的大象——多模态大模型的发展与攻防一体》

直播时间：2023年8月10日(周四)19:00

直播地点：微信搜索“阿里巴巴AI治理中心”视频号，B站搜“AAIG课代表”。

讲师简介

洪海文

洪海文，图片视觉大模型与视觉AIGC安全算法负责人。浙大计算机硕士，在ACMMM，ICCV，EMNLP，ACL，ICME等顶会上发表多篇文章。自研多模态乱序大模型，在阿里风控体系中支持几十亿级别业务流量中的安全，也应用于阿里各大视觉AIGC产品的安全可控。

03议题简介

心理学研究和人工智能相关的研究发现，当人们听到“不要想一只粉红色的大象”的时候，不仅会记得这些字，还会非常“叛逆”地在脑海中想象出一张模糊的粉红色的大象图，不仅会通过视觉模态来想象它的外表，还会通过听觉模态来想象它的声音，以及通过触觉模态来想象它的质感，本期直播立足这一有趣现象，介绍多模态大模型的概念。

并以《长安三万里》为例，通过分析电影中的文字、视觉等多种模态介绍多模态大模型在识别侧和生成侧的发展历程，包括早期的传统多模态模型，图文对齐的CLIP架构，Stable Diffusion架构，多模态大语言模型架构等，同时介绍我们根据各类多模态模型所做的，既用于正向攻击业务，又用于安全防控的学术成果与实践应用。

💛【课程大纲】：

1、不许在脑海里想一头粉红色的大象，你想的是什么？聊聊多模态是什么？

2、你是怎么看懂《长安三万里》的？聊聊多模态大模型在识别侧的发展

3、请你画一头粉红色的大象？聊聊多模态大模型在生成侧的发展

4、最强之矛也是最强之盾，多模态大模型的攻防一体与实际应用

5、如何让ChatGPT长出眼睛和耳朵？聊聊多模态ChatGPT的学术难点与展望

追AI的人是什么？

《追AI的人》系列直播是一档由阿里巴巴人工智能治理与可持续发展研究中心(AAIG)联合高校和产业界发起的AI治理交互栏目。重点关注并分享人工智能新技术、AI治理新观点、可持续发展新风向。目前联合高校、律所等多家单位举办了26期直播，吸引全国超100万人次实时观看。

直播好礼来咯！

🧸各型各款可爱萌公仔靠枕🧸

⛺️白皮书金句收藏版露营日历⛺️

📖知识产品《算法治理制度》系列丛书📖