垃圾短信大年夜数据自动识别系统分析_短信_指纹
旧系统监测:紧张指通过“频次+关键词” 等过滤办法,筛选得到现网疑似垃圾短信。如:内容含“发票&代开”,1分钟内发送20次等。若想提升垃圾短信管理效率,亟需引入 新的方法。
一、面临的问题以及现有方案
技能难点:
表示稀疏问题:单条短信内容短小,传统的BOW模型无法获取足够的特色信息,用来区 分垃圾短信和非垃圾短信;
数据噪音问题:存在大量的非正规措辞的利用征象,传统的基于词汇的文档表示模型无 法处理该问题;
动态蜕变问题:短信内容和措辞利用随韶光高速蜕变,固定的特色凑集和分类模型无法 应对该问题。
短文本分类方面,终端安全公司大多利用以贝叶 斯算法为代表的机器学习方法,在终端侧对用户接 收到的短信进行识别,将疑似垃圾短信拦截在垃圾 箱内,目前已得到广泛运用。
google公司前期提出Simhash算法,将长文本转化为64位的哈希码进行打算、比对,该方法在业界广受好评,但目前仅限于在长文本方面(如网页)运用。
二、本系统技能方案
将垃圾短信自动化识别系统成功运用到现网中,关键在于保障接入识别算法的准确率与查全率。通过对2016年3、4月份历史数据进行抽样剖析,约有12%的样本内容完备同等,有34%的样本内容相似,合计比例达46% !
短信样本分析饼图
鉴于此,以算法准确率与查全率为核心参考指标,我们重点考虑准确率极高的“基于短信内 容精确匹配的识别算法”与“基于指纹技能的大数据识别算法”,以及在垃圾邮件处理上已成功得到广泛运用的“基于贝叶斯学习的大数据识别算法”。
自动识别率:即是自动识别出的短信数量在总短信数量中的占比。
识别准确率:即是新方法识别精确的短信条数与识别的短信总条数之比。
识别率达到30%以上,准确率必须高于99%。
我们利用2016年4月的数据,共计2836万条样本,对三个方案的核心 算法进行仿照测试,效果比拟如下:
三种方案实验比对效果图
实验创造,方案一的自动识别率仅为11.5%,方案三的识别准确率仅为93%,与指标哀求差别大。方案二的指纹算法同时具有较好的自动识别率和识别准确率,与事理比对结果同等。项目终极将系统算法锁定为基于指纹技能的大数据识别算法。
三、详细设计
1、总体流程
在二次过滤模块中心平台中,引入垃圾短信自动化识别系统,用以提升垃圾短信识别率。详细垃圾短信大数据识别运用方案,如下图:
利用中移信安中央前期积累的海量短信样本对人工智能分类器和指纹数据库进行初始化;
将系统与现有垃圾短信管理模块对接,吸收监测模块发来的全量疑似短信,并进行自动识别;
得到识别结果的短信,直接送至处置模块实时处置;未识别的短信按照原有流程 进行处理。
2、系统整体架构
基于上述核心算法,项目组结合运用处景和线上持续运营哀求,完善系统功能设计,知足以指纹识别算法为核心算法的线上识别功能和运营功能。
运用创新指纹算法对待识别短信进行处理;核心算法可扩展, 支持引入新算法交叉领悟识别;
在根本运营功能的根本上,打造稽核质检、投诉回溯核查等针对指纹算法特点研发出的持续运 营功能;
采取金库管理模式,对数据安全进行双重保障;
创新采取分布式多机多核系统架构,通过kafka实现内部做事之间的通讯,有效保障了现网的实时运行需求。
3、算法优化
研究团队基于Google公司Simhash开源算法,结合技能运用处景和短信文本短的特点进行重构开拓,打破算法准确率等方面的局限性,研发出具有自主知识产权的指纹识别算法。
考虑到中国移动线上管理的极高准确性和性能哀求,我们创新提出动态数据库、基于多指纹库识别、指纹筛选与指纹比对分离技能,以达到知足现网运用的哀求。
1)动态数据库机制
在入库方面,为指纹算法设计二次入库技能 ,并采取哈希再散列技能(FNV-1),来降落演习数据冲突造成的影响;
在出库方面,动态剔除入库早、不常利用的指纹,办理指纹库膨胀问题,保障指纹库的容量可持续高效运营,并进一步提升算法识别准确率。
2)研发多指纹库存储
搭建多指纹库,根据处置办法不同,分为正常短信指纹库、违法诱骗短信指纹库、商业广告指纹库;
对违规类型指纹库采取更为严格的校验入库机制和优先级更高的识别反馈机制;
根据稽核各指纹库相互冲突指纹,实现对数据库的进一步去噪,降落算法误识别比例。
3)指纹筛选与指纹比对分离
为了担保分布式模块中预测指纹库的同等性,算法对指纹库的筛选入库(演习)和指纹比对(预测)进行了分离。通过统一的指纹筛选库完成对入库指纹进行筛选,以担保在分布式系统中,所有指纹比对(预测)模块利用的指纹库是相同的。指纹比对与指纹入库的解耦,增强了算法识别部分的可扩展。
4)在分布式构造上实现了所有模块的做事化
在系统中我们将所有模块进行做事化,模块之间无直接交互,全部通过中间件kafka进行间接的通报。这种模式不仅仅 实现了做事的解耦,也间接实现了做事的负载均衡。
5)后续方案与展望
在系统中可以引入多种算法,实现算法领悟。通过算法模型的实时更新,能够及时识别现网中的新型垃圾短信(CNN,RNN,LSTM等深度学习算法,word2vec语义扩展等),令识别系统对垃圾短信的识别更准更全。
四、运用效果
历时两年,经由6轮44组,累计剖析现网数据68亿余件次,剖析指标5万余项的大数据测试验证,中国移动垃圾短信大数据自动识别系统于2017年1月上线,覆盖全网31省。
1、运行效果
截止目前,系统吸收垃圾短信系统全量疑似垃圾短信1.1亿余条,自动识别处理4300万条,自动识别率达到40.1%,识别准确率99.8%,运行效果良好。
2、社会效益
垃圾短信大数据自动识别系统上线以来,运行状态良好,对线上疑似垃圾短信开展持续管理。 在此期间,做事支撑了“党的十九大”、“金砖国家领导人厦门会晤”、“一带一起高峰论坛” 等多次重大保障,圆满完成任务,实现了垃圾短信的高效管理。
1)月均减少垃圾短信近亿条
通过引入大数据识别技能,垃圾短信自动剖断均匀耗时仅为0.07毫秒,违规号码的关停及时性大大提高。系统月均识别违规号码14.4万个,通过估算,可月均减少不法分子发送的垃圾短信约8500万条,有效的保障了广大用户的通信权柄!
注:( 50条/号码/分钟6分钟14.4万个号码/月2个月=8500万条垃圾短信)
2)垃圾短信投诉同比降落26%
系统上线后,中国移动10086999平台受理垃圾短信投诉同比低落26%,效果明显,保障中国移动垃圾短信管理持续处于行业领先水平。
加米谷大数据行业大数据运用案例分享:垃圾短信大数据自动识别系统剖析。有兴趣的童鞋请关注加米谷大数据,后续将持续分享大数据技能及干系运用案例。须要大数据技能资料的童鞋可以关注本号后私信获取。
本文系作者个人观点,不代表本站立场,转载请注明出处!