多模态审核：让AI同时“看懂”文字和图像的潜台词-匠数科技

多模态审核：让AI同时“看懂”文字和图像的潜台词

2025-08-08 01:01:42

最近我们发现，违规内容已经开始玩“文字游戏+隐喻图片”的组合套路了。如卡通形象搭配隐喻文字，或文字合规但图片暗藏玄机。

当违规内容进化出这种“多模态伪装术”，传统审核手段已经失灵，常常造成误判或漏判。

比方说，视频中正在播报新闻，画面呈现的是涉案物品的图片，字幕呈现的是“警方破获新型毒品案”。

微信图片_20250808010233.png

文本审核判断字幕没有问题，图像识别则会认为画面中有违禁品，这段视频最终会被判断为违规，因为单一的文本审核和单一的图像审核无法结合起来理解稍显复杂的场景。

面对这样的挑战，通过结合多种数据类型（如文本、图片、视频等）进行综合分析的审核方式——多模态审核才可胜任。

仅有多模态审核的想法还不够，关键在于如何让它真正跑起来、跑得快。这就需要解决一个核心问题：如何让多模态大模型在实际应用中达到可用的推理速度。

为了改善多模态大模型审核效率、效果的问题，匠数算法团队最近完成了一项重要工作：将kimi-vl多模态大模型成功集成到SGlang推理框架中，并获得了官方认可。

这项工作的核心挑战是什么？

简单来说，就像要让一辆F1赛车在普通公路上跑出最佳性能，需要做大量的适配工作：

1.摸透“引擎构造”

在文档资料稀少的情况下，团队深入研究SGlang源码，理解其多模态框架的运行机制，然后对kimi-vl模型进行改造，让两者能够完美契合。

2.更换“高性能零件”

将kimi-vl中的一些计算组件替换为SGlang中更高效的算子，就像给汽车换上更好的发动机零件。

3.优化“传动系统”

将kimi-vl的语言模型部分与SGlang中的deepseek-v2实现对接，充分利用各种高效推理算子（如fused_moe等），让整个系统运行更流畅。

4.严格“路试验证”

通过MMMU-Pro测试集验证集成后模型的准确性，确保优化过程中没有损失模型能力。

甚至在这个过程中，团队还发现并帮助SGlang修复了一些bug。

我们有什么收获呢？

1.实现推理效率优化

通过算子融合、代码优化等手段完成适配，多模态大模型推理效率可获得10倍左右的速度提升，从而可以高效率地将SGlang推理算子和框架利用到实际场景当中。

同样审核1000张新闻图片，假如原始模型要跑30分钟，优化后可能仅需5分钟，这种提速对要求审核时效性的场景来说至关重要。

2.实现跨模态语义理解

完成框架优化后的模型推理效率提升，从而让模型同时分析文字与图像的关联语境具备落地应用的条件，在实际应用中便可以充分地运用多模态审核破解违规内容的“变形计”。

例如，识别“毒品”文字与警方缴获画面的组合，判断为正常新闻场景，避免误判；而特定的卡通形象搭配不当文字时，能快速识别潜在风险。

这就可以解释文章开头描述的场景，当单一文本/图像识别不能充分理解复杂场景时，多模态审核可以补足这个短板，既能理解文字描述的内容、又能识别图像传达的信息，并将二者结合起来进行判断是否违规，做到同时“看懂”文字和图像的潜台词。

具备多模态审核能力的内容安全产品，可广泛应用于同时具有文字/字幕和视频/图片画面的场景中，如播放新闻、广告的公共显示屏，新闻网站，视频平台等场景，实现“图文联动审核”。

很多人说，在内容审核领域，AI技术是在帮助人们做一些“脏活累活”，但我们希望，即使面对“垃圾场清理工作”，也能做出一些技术美感。希望技术的提升能够更好地帮助AI提高应用价值，让真正需要高效率内容安全审核的场景，获得AI技术的帮助。

< 返回列表

盒谐咨询

您的姓名*

您的电话*

公司名称*

产品型号*

选择型号

盒谐V | 通用智能视频过滤器
盒谐E | 网络信息智能防护终端
盒谐S | 车站PIS智能视频过滤器
盒谐T | 车载PIS智能视频过滤器
盒谐W | 盒谐智能过滤插件
盒谐A | 集中式文字屏智能过滤器
盒谐AIFT | 盒谐智能计算中心
盒谐AIMG | 盒谐运维服务器

需求概述*

网盯试用

您的姓名*

您的电话*

公司名称*

产品型号*

选择型号

网盯S丨网站内容监控平台
网盯X丨内容安全检测预审自助平台
网盯C丨属地IP智能巡检平台
网盯H丨网站智能分类平台
网盯G丨政务检测平台

需求概述*

边缘计算

云计算

API云平台

解决方案

关于我们

相关推荐

400-616-1380

盒谐系列盒谐V 盒谐E 盒谐S 盒谐T 盒谐W 盒谐A100 盒谐A300 盒谐AIFT 盒谐AIMG

网盯系列网盯S 网盯X 网盯C 网盯H 网盯G

交通行业解决方案医疗行业解决方案金融行业解决方案教育行业解决方案文化版权行业解决方案网络安全监管解决方案

关于匠数新闻动态行业资讯

合作共赢加入匠数联系我们

macOS版 Windows版

更多详情请留言或拨打400-616-1380咨询

盒谐咨询

网盯试用

边缘计算

云计算

API云平台

解决方案

关于我们

相关推荐

400-616-1380

盒谐系列 盒谐V 盒谐E 盒谐S 盒谐T 盒谐W 盒谐A100 盒谐A300 盒谐AIFT 盒谐AIMG

网盯系列 网盯S 网盯X 网盯C 网盯H 网盯G

交通行业解决方案 医疗行业解决方案 金融行业解决方案 教育行业解决方案 文化版权行业解决方案 网络安全监管解决方案

关于匠数 新闻动态 行业资讯

合作共赢 加入匠数 联系我们

macOS版 Windows版

更多详情请留言或拨打400-616-1380咨询

盒谐咨询

网盯试用

盒谐系列盒谐V 盒谐E 盒谐S 盒谐T 盒谐W 盒谐A100 盒谐A300 盒谐AIFT 盒谐AIMG

网盯系列网盯S 网盯X 网盯C 网盯H 网盯G

交通行业解决方案医疗行业解决方案金融行业解决方案教育行业解决方案文化版权行业解决方案网络安全监管解决方案

关于匠数新闻动态行业资讯

合作共赢加入匠数联系我们