随着互联网的发展,网络上产生了海量的文本内容,并且仍在快速增长中,NLP技术在内容审核领域面临的挑战也越来越大。匠数科技创造性地提出了针对汉语的汉字拼音混合语言模型Themis,通过大量语料直接学习汉字和拼音的混合序列关系,提取上下文汉字、拼音以及拼音和汉字之间的注意力映射关系,在文本纠错和内容审核NLP上实现了技术突破。
一、文本纠错和内容审核对自然语言处理的挑战
随着互联网的发展,网络上产生了海量的文本内容,并且仍在快速增长中。不同于传统媒体,网络上文本内容由于来源多样、审核困难,存在着很多的文本错误和违规违法内容。快速纠正错误文本,识别违法违规内容,是一个现实且重要的自然语言处理问题。
想要纠正错误文本,识别违法违规内容,首先需要对文本错误和违规内容进行分析分类,才能有针对性地寻找解决方案。
在通常的文本纠错中,文本错误可分为三大类:
1 拼写错误主要指同音字、近音字和形近字错误。比如,“形像代言人”,“像”应为“象”;“超级讨算机”,“讨”应为“计”。
2 语法错误主要指多字、少字和乱序。比如,“我们今天来到这里里了”,多了一个里字;“你真是好个人”,这里应为“你真是个好人”。
3 知识性错误主要是指语句表述的知识不正确,比如,“端午节是农历五月初六”,这里应为五月初五。
除以上三类错误外,在内容安全审核领域,还有一种较为普遍的错误,即拼音变形错误,将文字用拼音或拼音首字母代替,达到规避审核的目的。如“这个人真的很ws”这里用“ws”代替了“猥琐”。实现文本纠错的难点在于:
▼ 错误来源多样
有的是用户输入错误,有的是ocr识别错误,有的是语音识别错误。不同来源的文本产生的错误类型差异性较大。如ocr识别文本中的错误主要是形近错误、语音识别的错误主要是音近错误。
▼ 真实错误样本稀疏
现实中,获取用户真实的错误文本代价较高,而且不同领域具有明显不同的错误分布,难以统一建模解决。
识别拼音变形文字属于内容安全审核的基础任务,具体到文本内容安全审核分类,主要可分为如下五类:
1 涉政 主要是攻击党和国家领导人、攻击党的理论方针政策等。
2 辱骂 主要是人身攻击类的文本。
3 诈骗 主要是利用中奖等虚假消息骗取用户钱财的文本。
4 赌博 主要是宣传博彩网站的文本。
5 色情 主要是淫秽文本。
文本内容审核的难点主要有:
▼ 问题类型多样,问题间重叠度高
以涉政文本为例,进一步可细分为危害国土安全、危害国际关系、反动辱华、宗教种族歧视、宣传邪教、政治污蔑、历史虚无主义等。同样的文本,可能同时属于辱骂和色情,或者同时属于色情和辱骂问题。
▼ 问题文本伪装对抗,难以检测
诈骗博彩类文本经常会采用变形字表达,常规的关键词检测难以捕捉。如:将加微信表达为“笳溦”、“加\/”、“+V”等。
▼ 问题文本和正常文本高度类似,难以判定
如“警方捣毁了葡京娱乐在线赌博网站”和“葡京娱乐在线欢迎您”。前者是正常的新闻报道,后者是赌博文本,使用关键词检测时前者也将会误报成问题文本。
综上,实现高效准确的文本纠错和精确全面的文本内容审核充满挑战。
1)全网覆盖的专业数据集和知识库
在文本纠错和内容安全审核领域,匠数科技已持续深耕多年,积累了海量的数据,构建了庞大的知识图谱。在内容安全审核上,收集了近10年内国内主流媒体报道数据和国内外负面文本数据。部分数据如图所示:
同时,在文本纠错中,收集常见混淆集近万对词语,覆盖政务、新闻、娱乐媒体、微博评论等多个领域。结合网络开源知识图谱,和匠数自有图谱挖掘系统,构建了规模上亿的三元对。
2)Themis语言和判别模型
当前,基于Transformer的预训练技术,实现了NLP的巨大突破。预训练大模型加数据集微调已经成为主流的NLP解决范式。
△Transformer模型
匠数科技基于自身多年海量数据积累,针对文本内容审核和文本纠错任务实际,创建了独特的Themis预训练方式。和常规预训练相比,Themis语言模型有如下特点:
▼ 将拼音还原作为预训练任务之一
如语句:“我们正在去北京的路上”。将“北京”替换成“bj”或者“beijing”,成为:“我们正在去bj的路上”或者“我们正在去beijing的路上”,让模型还原出真实的文本。这样,Themis模型天然具备了对抗拼音替换的能力,为下游文本纠错和内容审核提供强大支撑。
▼ 融入文本纠错能力
将正常文本中一定比例的字词替换为音近形近字词,训练模型还原原始文本的能力。如将“我们在去北京的路上”,替换成“我们在去背景的路上”,让模型还原出原始的文本。
使用该预训练方式,Themis模型可以实现更少的参数、更好的效果。实验数据显示,对文本内容审核,Themis模型仅用不到5000万参数的规模,即可达到1亿参数的Bert的效果,效率提升1倍。
基于Themis语言模型,我们使用多年积累的数据,分别训练了文本内容审核和文本纠错模型。在文本内容审核模型上,我们使用主动学习技术,汇总主流媒体近千万句子,筛选出模型预测错误的句子,加入训练集,大大降低了误判率,提升了准确率。和国内主流竞品对比,准确率高5个百分点,对困难样本的误判率降低了近20个百分点,效果十分显著。
如,在人民日报上,有如下句子:
“谎言十三:中国政府把新疆少数民族儿童送进寄宿制学校,‘强迫’其与父母分离。”对比竞品,这句话都预测成了问题句,只有Themis模型可以预测为正常。
在文本纠错模型上,我们在Themis语言模型上进行微调,使用领域数据构建训练数据,基本方法是将其中的字词替换为形近或者音近的字词。为了使得构建的样本更接近真实错误数据,我们采用了基于混淆度的数据判定方法,即仅当生成的训练句子比原句子混淆度高,且增加幅度较小时,才纳入训练数据。这样每个训练样本都更加真实,同时纠错难度也更大,有效提升了样本的利用效率。
自动构建的训练句子如下所示:
3)关键词检测模型
文本内容审核一个特点是时效性强。有些突发事件后,某些内容可能会立刻成为违规内容。在这种情况下,通过更新模型来应对往往比较难,为此,我们研发了基于动态权重的关键词检测模型。该模型可以动态加载关键词列表并调整关键词的检测权重。
△基于动态权重的DFA关键词检测
模型会根据关键词权重和类别计算待检测文本,达到一定阈值后,将会触发报警。
4)文本合规模型
针对政务类文本,对特定表述有明确规定的实际,我们开发了phrase checker文本合规检测功能。该功能可以由用户指定特定的表述,phrase checker可以自动检测文本中该表述的错误表达。如:“中华人民共和国”,文本中出现“中华任敏共和国”、“中人民共和国”、“中花人民共和国”等表述时,都将被检测出来。该功能背后,我们构建了基于拼音的ac自动机,来检测同音字错误,构建了基于编辑距离的bk树,来检测形近字、多字少字的错误。
△基于bk树的词语合规检测
同时,该功能支持用户热更新,用户可以随时更新检测的表述文本,服务不需重启即可生效。
三、典型应用场景举例
1)政府网站内容安全维护
政府网站内容代表政府官方,一旦出现违规内容或者网站内容被篡改未及时发现,将会对政府形象造成严重的负面影响,甚至造成不可估量的损失。根据中国互联网络信息中心(CNNIC)发布的数据显示,2020年,我国境内被篡改政府网站1030个,较2019年同期(787个)增长30.9%。
△数据来源:http://www.cac.gov.cn/pdf/web/viewer.html?file=http://www.cac.gov.cn/rootimages/uploadimg/1613923424818332/1613923424818332.pdf?filepath=ZBWvETi1XzcBKtOIkqelkJJ4Vn5uw9ZthCXJtWLSr0nQACMKH6Ejiw/UpdBYAwmsV5if6BYGd60xaZUMhKPZmjEjTcORl73kmCTdYOvdSjs=&fText=第47次中国互联网络发展状况统计报告-0203(打印生成)
匠数凭借多年的技术积累,可以实现24小时无侵入式的政务网站内容巡查,可以第一时间发现网站中出现的违规内容,并通知到相关网站维护人员。
2)媒体新闻稿件合规审核
媒体新闻稿件是面向公众的正规消息来源,具有一定的权威性。其发布的内容必须符合国家法律法规、不与党的路线方针政策相违背,确保真实性、有效性。匠数科技网盯A、网盯W可以实现预发布内容、已发布多媒体内容的自动审核,对图像、视频、文本内容实现无死角巡查,发现违规问题第一时间触发警报。
3)公共论坛和聊天系统言语合规审核
公共论坛和带聊天功能的系统,产生内容主要是用户产生,具有较大的不确定性,如果监管不当,出现违规内容,容易造成恶劣的影响,甚至触犯相关法律法规。匠数科技网盯S可以对属地公共论坛和聊天系统内容进行定期巡检,并生成巡检报告,对内容进行分级,帮助监管部门及时发现违规内容并进行整改。
4)其他行业
在图书出版、广告等行业,匠数科技的网盯系统都可以帮助检测违规内容,如是否违反广告法、是否有内容侵权等,确保出版物和广告内容的安全合规。文本纠错和内容安全审核在网络时代越来越重要,随着《国家网络安全法》的深入落地实施,网络内容安全审核将会成为政府和企业的“网络护身牌”。
匠数科技依靠多年的行业积累,已经成为该领域的先行者。未来,匠数将继续深耕文本纠错和内容安全审核领域,跟踪CV、NLP领域的前沿进展,研发更加先进的文本纠错和内容安全审核系统,推动行业发展。
本文作者:匠数科技算法团队
匠数科技算法团队由百度、阿里、微软的资深机器学习科学家和工程师组成,团队曾在Science、NIPS、ICML、CVPR等期刊/会议发表30多篇AI算法论文,曾获最佳论文并担任审稿人和组委会委员;团队多年深耕于深度学习、概率模型、小数据训练、弱监督训练、大数据预训练模型等研究课题,并且将技术运用于图像理解、文字识别、自然语言处理等问题。