涉政指的是涉及政治人物以及涉及政治事件。而一些政治人物或者政治事件的不宜或者应以更加合适的方式出现在互联网上,所以就需要涉政识别系统出现,那么涉政识别包括涉政视频、涉政文本以及涉政文字。今天就浅谈一下涉政文本识别系统的原理。
首先我们先明确什么是文本,这里的文本单指互联网上的文本。这种文本是用来记载或者存储文字信息的一个载体,在其中不包括图像、声音以及视频。常见格式有txt、doc等等。
那么涉政文本系统是如何实现识别得了?
首先涉政文本识别系统,通过关键词进行一个识别或者判别。首先,每个文本中的内容都会涉及一些关键词,而涉政文本识别系统通过设置一些政治人物以及政治事件的关键词,然后当文本中含有这类关键词就进行一个识别预警。当有了这部分识别后,会及时拦截,从而这些文本发送不出去。但有这需要大量的数据进行一个支撑,因为设置好关键词后,有的人会对关键词进行一个拆分,从而绕过系统的识别,这是一个弊端。
其次涉政文本识别系统,还可以通过问文本比对方式进行,如当前设置的文本格式以及大小是固定的,我们这边输入到涉政系统的文本库中,当有人发布这些涉政文本时,我们系统进行一个拦截提示,或者进行一个替换,从而实现涉政文本的一个识别。
涉政文本识别系统,我就给大家聊到这里。目前的涉政文本识别都是基于大数据基于深度学习和云计算的检测系统,在这种系统中,他们都设置有自己的学习模式,通过不断获取网上的海量数据,从而自我学习,提供自身的涉政识别能力,并且更好的服务与客户。而匠数科技推出的网络不良内容识别API云平台——ZenSoo AI开放平台,基于匠数人工智能及丰富的AI业务场景,面向合作伙伴提供视觉技术、自然语言处理、知识图谱等AI核心技术,助力内容生产企业智能化升级,共建开放共享的智慧业务生态。