绿色BI论坛商业智能大数据交流社区
  互联网内容安全战争早已打响,网络内容审核也一直都有人在做,但是现在似乎解决问题的速度远远落后于问题出现的速度。现实的问题是:不良信息数据级别不断增加,人力根本应接不暇,而且人工审核的成本颇高,企业也颇受其累!
  人脑的理解力与联想力当然可以保证人工审核的质量,但人眼看的速度和计算的速度跟计算机比还是有很大差距。只有让技术不断积累学习人的判断力,我们才有可能战胜这些信息恶魔。
  技术要突破的难题:识别多且准确率高!
  北理工大数据搜索与挖掘实验室结合多年的实战经验,利用多项自然语言处理算法,推出了面向复杂文本大数据的内容智能过滤系统。
  九眼智能过滤系统在文本内容审核上有三大突出研究:1,可实时智能识别关键词音变、形变与拆字等常见变体;2,实现了语义的精准排歧;系统内置了国内最新最全的知识库,适用于众多不同场景。
  变形识别
  九眼智能过滤利用完美双数组TRIE树词典管理与检索方法,自动识别形变词、音变词、拆字、噪音、繁简体、全角半角、中间加各类干扰噪音等变体;
  音变:系统利用内置汉字拼音库,自动地对关键词进行字音转换,生成敏感词的全拼与简拼,极大地增加了过滤范围与命中率。
  形变:系统内置同形字库,可对关键词进行字型转换,使各类拆字、组合字等字型变种无所遁形。
102 .png
  语义分析
九眼智能过滤利用NLPIR语义精准分词系统与情感分析系统,精准识别与过滤,排除正面无害的信息。NLPIR语义精准分词系统是张华平博士先后倾力打造十余年,内核升级10次,获得了2010年钱伟长中文信息处理科学技术奖一等奖。主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;文本关键词提取,词性、类别、频率,人物、地点、事件等;
  得分参考:关键词类别的权重、词的长度、不同变形的权重(形变还是音变)以及文本形式:账号还是内容等等。
  内置最新最全词库
  系统内置了十大类型的关键词库。词库囊括了很多行业,适合不同领域用户使用,并且词库会在使用中不断积累优化,为用户定制本专业领域的最新最全词库。系统支持自定义关键词类别与权重,增量添加百万量级词库。
  我们对大量的账号做了测试,发现了大量的不良及有害信息,准确率也相当可观。技术的进步是无止境的,九眼智能过滤也一直在努力改进中,经过不断迭代,期望得到越来越精准的审核过滤技术。目前,九眼智能过滤系统已经面向企业市场,我们期待为中国的互联网净化做出一份努力!

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

奥威软件|联系奥威|新手须知| ( 粤ICP备09215901号-2    联系客服

Powered by Discuz! X3.2 © 2001-2016 Comsenz Inc.

返回顶部