探访WAIC2025:当AI成为双刃剑,合合信息如何破解真假难题
7月上海世界人工智能大会顺利举行,各种公司各放大招,AI技术的展示令人目不暇接,我也有幸去到了现场体验了各家的前沿技术。随着AI技术的不断发展,各种安全问题例如AI生成伪造和造假接踵而至,在众多展台中,合合信息的鉴伪技术展区格外引人注目。作为现场体验者,我深度感受了这家在人工智能领域深耕多年的公司,如何用技术手段应对日益猖獗的造假问题。
一、AI时代的新困扰:当技术成为造假工具
1. 展会现场的技术盛宴与隐忧
随着大模型技术的发展,尤其是多模态在今年的爆炸式增长,在各个视频平台上我们都可以看到AI生成的视频或者照片。不出意外得在WAIC展览现场,文生图、文生视频、智能对话…这些类似的多模态技术的应用让人眼花缭乱。但在这些炫目的演示背后,我也察觉到了一些让人不安的信号。
2.从便民工具到作恶利器的距离
事实正如我所料,就在前几个月,在某个公司就发生了一件非常严重的伪造欺诈问题,不法分子利用Deepfake技术伪造成公司高管,要求财务立即转账一笔巨款。视频中的高管无论是相貌、声音还是说话习惯都和真人一模一样,让财务也无法正确分辨,只能按照高管的要求去做,事情发生后才知道是伪造的,给公司带来了严重的危害。
这让我深刻意识到,当AI技术门槛越来越低、生成质量越来越高时,我们面临的不仅仅是技术进步带来的便利,更有可能被恶意利用的巨大风险。正是带着这样的思考,我来到了合合信息的展台。
3.技术发展的必然选择:以技术制衡技术
在合合信息展区,我了解到:合合信息早在最开始主要针对传统的PS篡改。但随着生成式AI的爆发,他们的技术重心也在快速调整,从静态图像检测扩展到了视频、多模态内容的全方位鉴伪。
"AI技术是把双刃剑,"现场技术专家说,"它既能被用来创造价值,也可能被恶意利用。我们要做的,就是用更先进的AI技术来识别和防范那些恶意的应用。"这番话让我对接下来的体验充满了期待,在AI造假技术如此发达的今天,我们确实需要更强大的防御工具。
二、毫秒级"火眼金睛":人脸视频篡改检测现场体验
1. 震撼的现场演示:当真假同框
在人脸视频鉴伪展台。轮到我体验时,工作人员让我对着摄像头站好,然后选择可以生成的目标对象,我选择了两个,一个男生一个女生。
几秒钟后,屏幕上出现了三个"我"——下边的摄像头显示的视频是之前捕捉的真实影像,上面的两个视频影像是由AI生成的,这让我十分震撼。这个算法生成的假脸不仅五官轮廓与我一模一样,连我说话时的表情变化、眨眼的频率都十分相似。如果单独看这两个视频上的人像,我真不能百分之百辨别出来这是AI生成的。
但更让我惊叹的是合合信息鉴伪系统的表现。当我们选择要鉴别的AI生成的视频的时候,系统就会迅速工作,分析各种可能得特征,同时在屏幕上显示此视频中的人像为AI生成的几率:
2. 技术原理的深度解析
通过现场技术人员的详细介绍,我了解到这套系统的检测原理相当复杂。首先是像素级分析,系统会为图像中的每个像素点判断真伪,然后计算伪造像素的占比,这个过程就像是给每个像素都贴上了身份标签。其次是特征层分析,重点关注面部肌肉运动的合理性、光影一致性等生理和物理特征,比如当一个人微笑时,眼角的细纹变化、面颊肌肉的收缩程度都有特定的规律,而算法生成的假脸往往无法完美复现这些细微的生理反应。
值得一提的是,合合信息在技术创新方面还有突破性进展。传统的伪造检测方法只能简单输出真假判断或标记区域,但难以解释"为什么"判定为伪造,且单一监督信号对多种伪造方式难以泛化。为此,他们基于image-mask-caption的多模态数据集对多模态大语言模型和分割模型进行微调,实现了由文本描述引导的伪造定位,让检测结果更加可解释。
同时,针对传统检测器仅给出真假二元判定、现有多模态大语言模型伪造鉴定易产生"幻觉"的问题,团队通过对比真实合伪造图像的底层特征,将差异化特征以大语言模型能理解的方式融入推理链,确保从检测到归因都具有充足的低级视觉证据支撑。
3. 实战应用的迫切需求
在交流的过程中,其中一位银行部门的负责人就提到了现在用深度伪造技术进行金融诈骗的案例越来越多,传统的身份验证手段已经达不到绝对的安全防护,就需要新的更加严格和准确的技术去分析和应用。同时在人脸识别的领域也出现了很多伪造的视频,如果没有技术手段来甄别,很容易会出现漏洞,让不法分子趁虚而入,造成不可逆转的后果。这让我深刻认识到,人脸篡改检测技术不仅仅是一个技术展示,更是现实世界迫切需要的安全工具。
三、智能版"大家来找茬":生成图像鉴别技术现场演示
1. AIGC图像鉴伪
从人脸检测区域走过来,我被另一个展示吸引了——“世界名画版找茬游戏”。展示屏上并排显示着多幅经典画作,我们可以任意选择一款画作,然后生成一款AI作品,对两者进行正确抉择,选出真实的画作。
作为一个曾经的艺术爱好者,我自信地开始了辨别。结果却让我大跌眼镜——无论是《蒙娜丽莎》的神秘微笑,还是齐白石《虾》的细腻笔触,让我完全分辨不出来哪些是真的,哪些是AI生成的。旁边另一位一同随行的小伙伴也完全辨别不出来,反而是更加倾向于选择AI生成的作为真的,可见AI生成技术的强大。
2. 算法的"超人"视觉
正当我们为自己的判断力感到沮丧时,合合信息的AIGC图像鉴别系统给出了标准答案。不到一秒钟,AI生成图像就被准确标出。人眼看到的是表面,其实算法看到的是本质,比如这张生成的《蒙娜丽莎》,虽然生成的十分逼真,但是在细节面部的光影关系存在细微的不合理之处。这些都可以被清晰的发觉和辨认。
在技术创新方面,合合信息深刻认识到生成式AI能产出高度逼真图像,严重威胁舆论安全和公共信任,而传统检测方法往往缺少可解释性和泛化性。为此,他们创新性地借助多模态大语言模型的推理能力,通过多角度Prompt设计加上融合策略,让系统不仅能准确识别伪造内容,还能清晰解释判断依据。在复杂数据集的测试中,这套方案的表现甚至超过了传统检测模型和人类专家,真正实现了从"能检测"到"能解释"的技术跨越。
3. 应对复杂现实场景的挑战
我提出了一个实际问题:现实中的图片经常会被压缩、裁剪,在社交媒体传播时还会降低画质,这会影响检测效果吗?"这确实是个挑战,但我们在设计时就考虑到了,"技术人员回答,“我们的模型经过了大量的对抗训练,包括各种压缩算法、尺寸变换、平台传输损耗等。即使在这些干扰条件下,准确率依然能保持在90%以上”。他还展示了系统的多角度分析能力包括视觉特征的的全面分析、物理的光影和透视分析等。从头到尾对图像做了一次全面的学习和分析,从多个维度来判断真伪。
四、文档安全的守护者:TextIn平台的全方位防护
1. 身边无处不在的文档风险
在展台的最后一个展示区域,展台的屏幕上有一堆看起来很正常的身份证、驾驶证、发票等证件或凭据。但是事实上这里面都是被篡改过的!
现在篡改文档技术十分简单,随便打开一个PS软件,几分钟就能修改身份证上的出生日期、发票上的金额、银行流水上的余额等,而且这些操作完全不需要专业技能,普通人看个教程就能学会。这让我想起了最近新闻中频繁出现的各种文档造假案例:用假学历求职、用假流水申请贷款、用假票据报销等。ChatGPT的4o模型可生成以假乱真的餐厅收据, 甚至能添加污渍褶皱提升真实度如下图所示:
在AI技术如此普及的今天,文档造假的成本越来越低,几乎所有人都具备这个能力,那该如何去预防和解决呢。
2. 百万级训练数据的检测能力
TextIn通用篡改检测平台的演示让我大开眼界。它不仅能检测几十种常见证件的篡改,从身份证、护照到各种财务凭证,覆盖范围之广超出了我的预期。这种效果的达成更加得益于合合信息的百万级数据训练,不仅有各种真实文档样本,还包括各种篡改手法的样本库,这可以让模型更加迅速有效的识别它们的特征,从而得到最准确的判断,揪出伪造的凭证。现场演示中,系统不仅能判断文档是否被篡改,还能精确定位被修改的区域。比如一张身份证,系统会用直接用红框标出被修改的具体数字或文字,十分高效和震撼。
点击链接在线体验,获取1000次图像处理免费体验额度:https://cc.co/16YSUi
五、技术军备竞赛中的思考:未来的安全之路
在展台体验的最后,我和几位技术专家深入交流了这个领域的发展趋势。这确实是一场永无止境的攻防对抗,造假技术在进步,检测技术也必须不断升级,而且要跑得更快。合合信息从传统PS检测起步,到现在的全方位多模态鉴伪,技术迭代的速度超出了很多人的想象。他们时刻保持对新技术的敏感度,第一时间跟进最新的造假手段,然后开发相应的检测方法。同时,合合信息也在不断地相互制约,用自己的造假技术去攻克自己的识别技术,两者相互进步相互对抗,才能创造出更加强大的技术手段,激励着自己不断进步,攻克每一个技术难关。
在与合合信息技术负责人的交流中,我了解到他们的目标不是赢得一场技术竞赛,而是帮助构建一个更加可信的数字环境,让人们能够安心地享受技术带来的便利,而不用担心被虚假信息欺骗。如何平衡创新与安全,如何让技术真正服务于人类福祉,这些都是我们需要深入思考的问题。只有在创新与安全之间找到平衡,我们才能真正享受到智能时代的红利。
其实说到底技术本身就是由人创造的,关键在于如何使用。当AI生成技术越来越强大时,我们确实需要像合合信息这样的公司,用技术的力量来守护技术本身。在未来的AI发展规律中,以技术去制约技术将会是大势所趋,只有在创新与安全之间找到平衡,我们才能真正享受到AI时代的红利,这也是我们技术的初心–让科技成为推动人类社会进步的力量!
点击链接在线体验鉴伪技术,获取1000次图像处理免费体验额度:https://cc.co/16YSUi