华为云云服务高级顾问叶正晖:华为对多模态大模型的思考与实践
嘉宾介绍:
叶正晖,华为云云服务高级顾问,全球化企业信息化专家,从业年限超过23年,在华为任职超过21年,涉及运营商、企业、消费者、云服务、安全与隐私等领域,精通云服务、安全合规、隐私保护等领域相关解决方案。同时兼任ISC2协会中国区华南分会理事长职务。
以下内容为华为云云服务高级顾问叶正晖在中国计算机学会(CCF)、CCF CTO CLUB联合数新智能共同主办的“多模态数据融合技术创新与落地实战”活动中演讲全文
我今天主要分享一下华为对多模态大模型的一些想法和一些实践。
我们大模型的架构的趋势,还是要从以前的单一模态走向多模态大一统,在未来的趋势下,从2021年的Vision Transformer到2022年的Whisper大模型再到2024年的Sora,整个过程里面从以前的视觉到语音到混合,再到生成大模型的一个统一。但是,我们大模型要解决一个问题,就是我们怎么让AI像人类一样去理解复杂场景下的视觉、语言以及任务逻辑,这是我们大模型要解决的问题。
华为在这上面其实走了一条层次化的一条路,把感知、推理和融合放在一起这么一条路径。其实多模态大模型主要分成三类:一类是属于多模态的理解大模型;二是多模态的生存大模型;三是全模态的大模型。我这里仅为大家介绍理解大模型的情况。
华为的盘古多模态大规模的模型,它是一个层次融合的一个架构。什么叫层次化?它的表向分层包括的基础性能这一层面;第二个层面是专项能力;第三个层面行业解决方案。为什么要叫做层次融合呢?因为它在每一层里面它的相关的这些模块,它是共享一个语义的空间,实现相似的连接与衔接。
在基础性能这一块,它将感知、推理、综合是作为整个大模型的基础。为上面的专项能力以及行业解决方案提供相应模型的性能,以及后续的基本架构信息。
在基础性能方面,它会根据新技术或者产品的迭代会做架构更新,以及相关的数据集都会有变化,并根据实践的情况来改进训练的方法。所以这也为上层的专项能力和行业解决方案提供了相应的基础。
专项能力层,是能力侧重增强的一部分。在大模型的套件里面,目前来说是四个专项的大模型:视觉认知专项、文档理解专项、知识问答专项、任务规划的专项。
在这里面在加上数据工程套件、模型开发套件、模型应用套件这几个套件,面临不同的应用场景,提供了专项能力。而且可以看到不同的专项大模型,比如说像聚焦自然视觉现象,知识管理,就实现视觉认知的理解效果。比如任务规划专项,要与真实环境对齐的任务规划能力,在场景里面去做识别。
我们把视觉认知专项打开看一下,其实视觉认知专项在原来的基础多模态大模型中,经过海量的数据的训练,10000+通用及行业实用标签,包括场景标签,关系标签、行为标签都在这里面。再通过一个泛化的通用视觉认知能力,对里面视觉感知、还有我们平时的常识去做推理。现在可以支持到在一些大的场景下,普通产品的标签精度达到70%,重点行业达到80%。
这就重点谈到我们后续讨论case中的识别产品,它根据我们在现实世界里的一些逻辑在里面做推理抉择。目前在城市治理、安全生产这方面都在做相关的应用。
在文档分析的专项里面,我们是能够支持把一些非扫描版的,比如照相、卡证、文档这些非扫描类、纸质的混合型的东西都能够做混合在一起做识别。除了基础的文档解析之外,还会做文档的高阶的分析,比如数据图表分析,比如说上下文关联指向问答。
当然,像一些行业性专业文档,比如工业设计图,合同都可以做文档分析。目前大概有1.5亿文档数据去做训练,而且它能够达到我们现在这些图文交错、多模态的思维能力,包括常见的文件符号、图表都是可以制作的。
任务规划,其实是基于前面的文档理解专项大模型和视觉认知大模型基础之上衍生出来的。对于任务逻辑来说,要对应本身的具身规划、具身人物规划能力做训练,增强感知。再通过GUI模型在操作任务上能够做一些规范训练,由此得出来我们的任务逻辑。本身已经有编排引擎的基础之上,我们有相关的各种任务逻辑把这个做起来。
刚才谈到的一个Case,就是蚜虫检测。怎么帮助农场去做威胁消除、风险消除?怎么去准确定位蚜虫的位置,或者侵占农作物的程度?怎么能够做一个精准的识别是我们首先考虑的问题。
首先要知道,蚜虫的检测是有比较高的要求蚜虫检测的高要求主要体现在以下方面:
- 尺寸极小:成虫约 1-5 毫米(如芝麻大小),弱虫更小,对识别精度要求高。
- 拍摄器材特殊:需微距摄影器材以清晰捕捉微小个体;需特定固定器材防止拍摄时抖动,确保图像稳定。
- 拍摄角度与位置:蚜虫多位于农作物叶背面或根部,拍摄时需精准调整角度以覆盖这些隐蔽位置。
- 颜色识别难度大:蚜虫颜色与农作物接近或类似灰尘,易与环境混淆,增加识别难度。
在图象识别上存在一个问题就是检测挑战性。我们通过人工获得的蚜虫的图象会比较少,有什么办法可以通过AI大模型去解决问题呢?这就可以通过大模型,把这些极少的数据量,可以生成大量的数据。这个数据体量大,就可以提高我们图像识别的效果,提升检测的效率。
这是华为云在贵州一个农场上做的实例。这是一个比较简单的配置,还有很多应用,比如说在工业质检领域,会检测到工艺零件的表面的缺陷。还有通过知识图谱,能够关联出来零件的缺陷地方,以及修复的工具,并且能够自动生成维修工单,这个过程中是不需要人工干预的。
这一块是华为在多模态技术领域上创新和应用场景。谢谢大家。