2021年,新冠肺炎疫情依旧没有结束,但是社会生产与技术进步并未因此而停滞,人工智能技术的研究与应用正在不断进步,人工智能安全也在2021年有了一些新的发展。
本文将对人工智能安全展开详细的描述与分析,概述启明星辰(002439)集团在2021年的若干实践案例,并对当前人工智能安全的发展趋势给出分析预测。
1、落地应用印证趋势法规出台热度攀升
Gartner在2019年发布的一份报告中将人工智能安全(AI Security)的涵义解读成三个方面,分别是人工智能赋能安全防御、人工智能恶意应用带来的安全威胁以及人工智能自身安全。
由于人工智能的恶意应用目前在网络安全层面的实践相对较少,本文主要关注另两个方面在2021年取得的进步。
在人工智能赋能安全防御方面,总体情况基本符合近几年来的发展趋势。回望过去,2017年的RSA大会是人工智能最热的一届,之后人工智能逐步从炒作走向落地实用,如今已成为安全防御能力的一个普通组成部分。
2021年的RSA大会受新冠疫情影响改成在线上举办,参展厂商锐减至187家,通过对线上数字展台的浏览分析,上述趋势再次得到印证:人工智能已经成为构建检测、分析等安全能力的基础组件,在安全分析平台、IDS、NGFW、勒索软件检测等产品中均能找到其身影,且通常非独立出现,而与其他技术紧密结合。
2021年6月,美国安全和新兴技术中心(CSET)发布了一份题为《机器学习与网络安全――炒作与现实》(《Machine Learning and Cybersecurity - Hype and Reality》)的报告,其中分析指出当前机器学习技术给网络安全领域带来的主要是改进式变化,而不是变革式的,没有带来显著性的攻防地位转变。
虽然上述发展趋势及分析报告可能让人感觉人工智能赋能安全防御远没有达到之前人们所期望的“奇效”,但从另一角度来看这实际上也是一种肯定,人工智能确实在一些场景中为网络安全防御提供了支撑与能力提升。
2021年2月,全球移动通信系统协会(GSMA)发布了《AI in Security人工智能赋能安全应用案例集》,其中包含了来自国内多家网络通信及安全厂商的30个人工智能在网络信息安全领域应用的优秀案例(其中启明星辰的案例有5个),涵盖通信安全、数据安全、内容安全、业务安全、终端安全等诸多应用场景,正是人工智能技术在赋能网络安全防御方面所发挥出的切实作用的真实写照。
在人工智能自身安全方面,除了系统、应用及算法的鲁棒性受到学术界及业界的更多关注外,数据层面的安全威胁在2021年度更是倍受关注。《数据安全法》、《个人信息保护法》等一系列法律法规相继出台实施,使以机器学习、深度学习等为代表的人工智能算法模型在训练过程中使用的大规模数据,必须遵守相关规定。
尤其是在多方联合建模或是数据可能涉及到个人隐私的场景,如何确保数据安全与隐私保护成为人工智能应用构建过程中需重点考虑的问题。因此,可信执行环境、联邦学习、多方安全计算等隐私计算技术的热度有明显上升,业界对此也有较多的关注。
位列2021年的RSAC创新沙盒十强之一的Cape Privacy正是专注于此领域,而Gartner在2021年10月发布的2022战略技术趋势报告中也将隐私增强计算(Privacy-Enhancing Computation)列入其中。
2、实践方能出真知人工智能助力网络安全发展
2021年,启明星辰继续在人工智能安全领域开拓创新,展开自主研发实践并取得了优秀成果,以下将从人工智能赋能网络安全防御与人工智能自身安全两方面进行说明。
在关于2021年度启明星辰研发创新大赛的报道文章《创新――让启明星辰始终照亮网络安全时空》一文中,已经对获得冠军的“AI安全建模与赋能系统”进行了介绍,这正是启明星辰在人工智能赋能网络安全防御方面的优秀实践成果之一,本文不再赘述,下面将重点介绍其他代表性成果。
第一个是同样在2021年度集团研发创新大赛中荣获优秀奖的“Webshell通信流量智能检测系统”。由集团核心技术研究院与检测产品本部共同研发的这一成果,设计提出了一种基于机器学习的Webshell通信流量检测技术,并针对大规模数据下性能瓶颈、训练所需标注数据不够丰富、既有特征不足以及模型部署后对新数据出现漏报/误报等难题给出了创新的解决方法,从而实现在真实数据流量下测试达到高检出(~99.9%)、零误报的优异效果。这一成果已经实现在NFT产品中的模块化,并提交相关发明专利申请。
另一个是由集团核心技术研究院与VenusEye威胁情报中心合作研发的“恶意代码智能检测系统”。经过数年的研究积累,研究团队设计提出了多个恶意代码静态及动态分析检测的模型,基于千万量级恶意代码样本,并针对样本不均衡问题给出改进机制,最终实现模型的检测精准度达到业界前沿水平。其中部分模型经过多次数据分析大赛的检验验证,包括阿里云安全恶意程序检测天池长期赛(2019-2021)第一名、科大讯飞(002230)恶意软件分类挑战赛(2021)第三名、CCF BDCI数字安全公开赛之恶意软件家族分类赛(2021)优胜奖等。这一成果已经初步部署于威胁情报处理系统中,并提交相关发明专利申请。
而在人工智能自身安全方面,启明星辰从数据安全层面出发,在2021年12月正式发布数据安全新版图――数据绿洲,为数字经济时代数据要素价值的充分发挥打造支撑技术与平台,为人工智能等数据分析业务场景提供“数据可用不可见”的能力。
数据绿洲的背后,既有公司近二十年在数据全生命周期管控的积累作为基础,也有近两年来集团核心技术研究院在区块链、联邦学习、多方安全计算等前沿技术领域的持续跟踪研究的成果作为支撑。数据绿洲在未来必将成为促进与保障数据要素安全流通共享的重要力量。
3、技术与形势双重驱动人工智能安全发展
随着人工智能技术的研究与应用发展,以及网络与信息安全问题受关注度的不断提升,近年来人工智能安全这一交叉领域正在技术与形势的双重驱动下持续向前推进。当前人工智能安全的发展有以下几项趋势。
(1)人工智能赋能网络安全防御逐渐脱离“黑盒”应用模式
在业界对人工智能赋能网络安全防御热炒的初期(2017-2018年),很多方案将人工智能算法模型当作“黑盒”使用,以深度神经网络(深度学习)为代表的复杂模型的采用更是成为一个重要宣传点。
这些方案虽然在特定问题中能够在检测率等指标上达到比传统方法更好的结果,但是其存在的不可解释性问题一直为人们所诟病,而且对数据集的依赖度通常较高。
炒作大潮过后,实际的落地效果与安全能力成为核心关键点。由于硬件资源的限制与实时检测的需求,以及关联分析方面的考量,“黑盒”应用模式变得越来越不适用。相反地,更多的新方案开始采用计算效率与可解释度更高的传统机器学习模型,并融入安全领域专家知识(包括安全知识图谱的采用)。
此外,人机回圈(human-in-the-loop)对于网络安全领域人工智能模型的训练、持续优化以及透明度与可解释性提升将是一种有效的方式,未来可能得到更多关注。
(2)高质量的网络安全数据集的构建与积累将愈发重要
经过几度起落,2010年代人工智能技术的再度兴起,不仅仅是由于深度学习算法的提出,而同时与ImageNet等高质量的大规模数据集出现有很大关系。相比于计算机视觉、自然语言处理等人工智能应用最广泛的领域,网络安全领域的数据集可谓是“聊胜于无”,而且很大一部分年代久远,缺乏持续的更新维护,只在近年来的若干数据分析比赛中公开提供少许新数据集。
尽管小样本学习、合成数据等新技术的提出能够在某种程度上缓解可用数据少的情形,但是高质量的真实数据集在未来一段时间内对于人工智能赋能网络安全防御的发展仍然是不可或缺的,甚至直接关系到其可用性及落地效果。
(3)系统的工程化可能加速人工智能赋能网络安全防御应用的构建
Gartner连续两年将人工智能工程化(AI Engineering)列入战略性技术趋势(2021-2022),它对于各类人工智能应用中算法模型的性能、可维护性、可扩展性、可解释性以及可靠性提升有重要助力。
在网络安全领域,人才缺口的问题一直存在,而同时掌握人工智能与安全两个领域知识的人才更是稀缺,而系统的人工智能工程化在助力模型构建、维护的同时,也在某种程度上降低了构建网络安全领域人工智能应用的门槛。它使得相关知识与经验可以在系统中不断积累,创建新应用时不再需要从零开始,从而助力加速构建应用。
(4)隐私计算技术将更快速地从理论走向落地
人工智能算法模型在训练过程中需使用的大量数据,如何确保这一过程中的数据安全与隐私保护也是人工智能应用构建过程中需重点考虑的问题。与人工智能赋能网络安全防御不同,隐私计算技术的兴起是在合规的需求推动下出现的,而不单单是由技术发展与炒作所催生的。
随着数据安全及隐私保护相关的一系列法律法规出台,数据采集、处理及运营方必须采取相应措施来保证其行为合规。而另一方面数据的价值又只有通过计算分析与共享流通才能充分体现,这就从客观上决定了隐私计算技术的必要性。尽管当前的隐私计算技术还存在着开销大、效率低等问题或不足,但是合规性方面的要求客观上决定了它势必将在各种场景下以不同形式被采用。因此,相比于人工智能赋能网络安全防御,隐私计算技术可能会更快速地走向落地。
人工智能技术正在日新月异的飞速发展,启明星辰集团将抓住机会、急流勇进,继续在人工智能安全等前沿技术领域开拓进取,为实现“护航数字中国,领航信息安全”的使命愿景不断奋进。