互联网的快速发展方便了人们的交流,社交新媒体和短视频成为网民意见的集散地和扩音器,与匿名、快速、移动和碎片等网络传播的特征相对应,网络表达出现了情绪化和极化的现象,表现出较大的随意性,甚至出现了一些低俗化网络用语,污染了网络环境。那么对于这些低俗用语以及辱骂性文字该如何的?这就是辱骂文字识别系统,那么辱骂文字识别系统是如何进行识别得了?下面就为大家简单叙述下。
辱骂文字识别系统主要是通过关键词识别以及算法识别两种方式来实现的。
算法识别
算法识别也称之为规则识别。这种主要就是表达式的一个集合。这种的识别方式会有很高的准确率。但如果是辱骂信息使用复杂字符重组以及特殊符号会让这种识别方式束手无策。比如在辱骂信息含有方言或是拼音组合的话,就会漏过这些文字,从而造成很大的影响。
关键词识别
关键词识别,即设置好关键词,当发布的信息含有这些关键词自动过滤掉。具体流程则是,当用户发布内容提交后,进去系统,而系统根据用户的内容匹配关键词,如果在内容中含有辱骂性关键词,则拒绝审核,如果里面没有辱骂性的关键词,则通过审核。但这种关键词识别的方式对于系统内的关键词要求特别高,要把所有可能出现的关键词全部列举出来,不能有遗漏,如有遗漏,就会导致含有辱骂性关键词的内容发布出来,从而造成很大的影响。
那现实中,又该如何高效识别复杂语义下的辱骂文字内容呢?这时候我们就要依托语义分析来处理辨别。语义分析是依托深度学习技术和大数据技术,机器从辱骂文本内容特征库中提取和不断添加新特征,通过反复学习更有用特征,来达到对复杂语义中辱骂文本内容的精确判定。
以上就归于辱骂文本内容识别系统是如何进行识别的。主要是通过算法识别以及关键词识别,并且结合机器人的深度学习来更加精准以及准确的识别。