最近我们发现,违规内容已经开始玩“文字游戏+隐喻图片”的组合套路了。如卡通形象搭配隐喻文字,或文字合规但图片暗藏玄机。
当违规内容进化出这种“多模态伪装术”,传统审核手段已经失灵,常常造成误判或漏判。
比方说,视频中正在播报新闻,画面呈现的是涉案物品的图片,字幕呈现的是“警方破获新型毒品案”。
文本审核判断字幕没有问题,图像识别则会认为画面中有违禁品,这段视频最终会被判断为违规,因为单一的文本审核和单一的图像审核无法结合起来理解稍显复杂的场景。
面对这样的挑战,通过结合多种数据类型(如文本、图片、视频等)进行综合分析的审核方式——多模态审核才可胜任。
仅有多模态审核的想法还不够,关键在于如何让它真正跑起来、跑得快。这就需要解决一个核心问题:如何让多模态大模型在实际应用中达到可用的推理速度。
为了改善多模态大模型审核效率、效果的问题,匠数算法团队最近完成了一项重要工作:将kimi-vl多模态大模型成功集成到SGlang推理框架中,并获得了官方认可。
DeepCtrl
这项工作的核心挑战是什么?
简单来说,就像要让一辆F1赛车在普通公路上跑出最佳性能,需要做大量的适配工作:
1.摸透“引擎构造”
在文档资料稀少的情况下,团队深入研究SGlang源码,理解其多模态框架的运行机制,然后对kimi-vl模型进行改造,让两者能够完美契合。
2.更换“高性能零件”
将kimi-vl中的一些计算组件替换为SGlang中更高效的算子,就像给汽车换上更好的发动机零件。
3.优化“传动系统”
将kimi-vl的语言模型部分与SGlang中的deepseek-v2实现对接,充分利用各种高效推理算子(如fused_moe等),让整个系统运行更流畅。
4.严格“路试验证”
通过MMMU-Pro测试集验证集成后模型的准确性,确保优化过程中没有损失模型能力。
甚至在这个过程中,团队还发现并帮助SGlang修复了一些bug。
DeepCtrl
我们有什么收获呢?
1.实现推理效率优化
通过算子融合、代码优化等手段完成适配,多模态大模型推理效率可获得10倍左右的速度提升,从而可以高效率地将SGlang推理算子和框架利用到实际场景当中。
同样审核1000张新闻图片,假如原始模型要跑30分钟,优化后可能仅需5分钟,这种提速对要求审核时效性的场景来说至关重要。
2.实现跨模态语义理解
完成框架优化后的模型推理效率提升,从而让模型同时分析文字与图像的关联语境具备落地应用的条件,在实际应用中便可以充分地运用多模态审核破解违规内容的“变形计”。
例如,识别“毒品”文字与警方缴获画面的组合,判断为正常新闻场景,避免误判;而特定的卡通形象搭配不当文字时,能快速识别潜在风险。
这就可以解释文章开头描述的场景,当单一文本/图像识别不能充分理解复杂场景时,多模态审核可以补足这个短板,既能理解文字描述的内容、又能识别图像传达的信息,并将二者结合起来进行判断是否违规,做到同时“看懂”文字和图像的潜台词。
具备多模态审核能力的内容安全产品,可广泛应用于同时具有文字/字幕和视频/图片画面的场景中,如播放新闻、广告的公共显示屏,新闻网站,视频平台等场景,实现“图文联动审核”。
很多人说,在内容审核领域,AI技术是在帮助人们做一些“脏活累活”,但我们希望,即使面对“垃圾场清理工作”,也能做出一些技术美感。希望技术的提升能够更好地帮助AI提高应用价值,让真正需要高效率内容安全审核的场景,获得AI技术的帮助。