2016年 Sep月 26日
懒惰、网络安全以及机器学习
事实证明,人类是一个懒惰的物种。许多事情往往是能偷懒就”偷懒”。但反过来这也是好事,因为懒惰是…人类进步的动力!什么?为什么这么说?举个例子,如果对于人类某项工作过于困难、繁琐或复杂的话,某些懒惰(但认真负责)的人(所谓人类的惰性?)就会将工作交给机器去做!在网络安全领域,我们称其为最优化。
每天分析数百万个恶意文件和网站,开发针对未来威胁的’疫苗’,永远改进主动安全防御措施,以及完成数十项其它重要任务–所有这些在不采用自动化技术的情况下根本无法完成。而机器学习显然是自动化技术使用的主要理念之一。
自动化技术从网络安全诞生之日起就开始运用于网络安全领域。我仍然记得,早在本世纪之初,我专为机器人编写了一段代码,目的是分析传入的恶意软件样本:机器人按照每个检测文件的特征,自行判断是否放入相应收集恶意软件的文件夹。即使在当时,也无法想象如果这些工作全部由自己手动完成!
如今,简单地向机器人发出你希望它们做工作的精确指令并不够。相反,发出的工作指令应该模糊一些。没错,就是这样!
例如,’在照片里寻找人脸’。你不需要描述人脸的样子,以及人脸和狗狗脸的差别。你只需向机器人显示几张人脸的照片并给出提示:’这些是人类,这个就是人脸,那些是狗狗;剩下的工作就交给你自己去完成’!简而言之,就是称之为机器学习的’创造自由’。
ML + CS =爱
如果没有机器学习(ML)的帮助,没有一家网络安全供应商能在这十年里存活下来(除非是从其他供应商那儿直接复制过来)。而有些初创公司大肆宣传ML是网络安全领域(CS)的一场革命–由他们’发起并领导’的革命。但事实上,ML已在网络安全领域使用了超过10年–只是缺少市场宣传而已。
机器学习作为一门学科,已撰写了数千篇有关这一课题的博士论文,同时还有大量专业教科书,因此要想在一篇博文中讨论清楚这一话题显然并不现实。甚至几篇博文都不够。但不管怎么样,亲爱的读者们,你们真的需要详细的理论技术文章吗?当然没有这个必要。相反,我会告诉你们更多有关它的实际运用–更符合我们博文的风格:最原汁原味、内容最丰富、最重要且最令人惊叹的机器学习元素 –且站在我们卡巴斯基的视角。
起初,我们采用多种自动化数学模型,只是为了内部需要;例如,应用于用户恶意软件分析员的工作站(从众多信息流中挑选最重要的内容),集群化(按照属性分类目标),以及网络爬虫(基于不同因素的权重,通过数百万URL确定抓取内容的首先次序和强度)。
我们显然明白了一个道理,如果未在我们的产品内采用此类智能技术,”网络洪流”会将我们彻底淹没。我们需要机器人能快速且准确地回答某些复杂问题:’嗨,机器人,请根据以往的样本,显示出最可疑的文件’。或者说:’机器人。请看–这就是超酷的启发式程序–检测过了成千上万的对象。你需要做的是在其它恶意样本中寻找共同特性,然后自行执行相同的程序–仅针对不同目标’。
但等一下…
如果你想当然认为这一切都易如反掌,那就大错特错:将机器学习方法应用于真实工作,许多困难和细微差别就会出现。尤其是网络安全:网络黑市常常会发明出各种新的网络攻击,因此无论数字模型有多么出色,都需要不断改进。而这正是网络安全领域机器学习的主要难点:我们在一个恶劣的动态环境中工作,机器学习需要不断面对针对自身的反抗作用。
首先,需要将所有这些新网络攻击都找出来。当然,cyberswine很少会向我们”馈赠礼物”…恰恰相反:他们尽可能长时间地隐藏自己,如此便能赚取更多的犯罪收入。针对此类攻击的持续专家研究工作成本不菲,因为需要用到高度复杂的仪器和智能。
其次,分析人员需要训练机器人分清工作的主次顺序。但这真的非常难,就好比草坪上摆满了各种草耙,随时可能不小心踩到。只有一个例子:那就是过拟合问题。
过拟合的经典案例还包括:数学家创建一种模型,利用多张动物照片识别出牛的照片。随后模型开始识别牛!而一旦将照片复杂化后,模型什么照片都识别不出。但不久他们还是决定看看有有什么新变化。他们发现该算法已变得’过于聪明’(某种程度),并开始’自我欺骗’:–训练自己能识别在草原上放牧的牛群。
过拟合的经典案例还包括:数学家创建一种模型,利用多张动物照片识别出牛的照片。随后模型开始识别牛!而一旦将照片复杂化后,模型什么照片都识别不出。但不久他们还是决定看看有有什么新变化。他们发现该算法已变得’过于聪明’(某种程度),并开始’自我欺骗’:–训练自己能识别在草原上放牧的牛群。
因此,让技术拥有’智慧’极具挑战性;需要长时间的反复试验并将至少两种专知结合到一起–数据科学和网络安全。
从那时起,我们产品中的自动化技术得到了长足的进步。无论是产品还是组件中均引入了不同的数学方法,且横跨各个领域:反垃圾邮件(根据垃圾邮件级别对邮件分类);反网络钓鱼(启发式识别钓鱼网站);上网管理(挑选出不合适的内容);反诈骗;防范有针对性的攻击;以及活动监视器等等。
发展并不如想象的快
在阅读了所有关于机器学习的成功案例后,其中’将智能机器算法直接导入客户计算机并任其自由发展’的案例最令我感兴趣:既然该算法如此智能,就让它自由学习吧。然而在机器学习游戏中,”独行侠”却没有任何进步的学习空间。原因如下:
首先,这种方法受限于计算机性能。用户需要把握好安全保护质量与速度以及现有技术发展与新增技术之间的平衡–无论有多么智能–终会耗尽宝贵的系统资源。
其次,这种’独立模式’–无更新,无新学习材料–不可避免降低安全防御的质量。需要定期向该算法教授全新的网络攻击类型;否则,其安全检测能力很快就会过时,因为每天都有大量新的网络威胁出现。
第三,将所有’战斗’技术集中到一台计算机,能为网络犯罪分子提供很好的机会,学习有关安全保护的细节内容,进而设计出新的办法予以攻破。
以上只是其中三个最重要的原因,当然还有更多。
那么到底该如何做呢?
其实很简单:将所有”重型武器”–重负荷且最耗费资源的机器学习技术–放到比用户计算机复杂得多的地方!为创建’远程大脑’,基于从数百万台客户端计算机学习的数据,能够快速且精确地识别网络攻击并交付所需的安全保护…
可爱的云技端
为此,10年前我们创建了KSN(拥有17项专利和专利应用)–即所需的’远程大脑’。KSN作为一项云技术,拥有能与各安全保护计算机连接的高级基础设施,且几乎不会占用端点资源并能提高安全保护的质量。
实质上,KSN就是个俄罗斯玩偶:’云’内含许多其它智能技术足以对抗网络攻击。此外,还采用’战斗’系统并不断开发实验模型。我曾写过其中一种模型– Astraea(专利号US7640589、US8572740和US7743419),自2009年以来一直自动分析受保护计算机上的事件,以发现未知威胁。目前,Astraea一天内能处理超过10亿个事件,进而能计出算数千万目标的评级。
尽管云技术已证明了其卓越的能力,但仍然有相同自动化的孤立系统在出售。经过一段时间只完成了初步的机器学习,由于是在客户端计算机内,因此很少更新。完全可以猜到实际的效果。
但等一等。
生产这些孤立解决方案的公司表示,感谢机器学习技术,他们能够不需要定期更新就检测出’新一代恶意软件’。但没人对这个检测方法提得起兴趣,因为只能保护会给犯罪分子带来微不足道经济收益的’表面’部分(用户太少=缺少兴趣)。偶尔会检测出一些威胁,但都是你从未听到过的。似乎他们从未发现过任何重大网络安全问题–类似Duqu、Flame或Equation这类高级间谍攻击。
如今,我们分析的99.9%网络威胁使用机器学习支持的基础结构算法。从在受保护设备上发现可疑行为到发布安全补丁平均只需10分钟。当然,有时还未等到主动安全防御措施捕捉到网络威胁时,安全补丁就已经发布(例如,针对漏洞利用程序的自动安全保护)。已经有不少这方面例子,从发现可疑目标到发布更新就用了40秒钟。为此一些地下论坛可谓怨声载道:’为什么这帮家伙能那么快检测出来?怎么总是能比我们领先一步!’
简而言之:云基础设施+机器学习=超高效安全保护。即使以前,我们都一向在独立测试中表现出色;而自从KSN横空出世后–我们无可争议地成为了第一。此外,我们还保持着非常低的误报率,在速度方面,我们可以说是行业中的翘楚。
陈年佳酿对比去年的劣酒
似乎,我们终于找到了解决所有网络威胁的”万能药”!将占用资源少的客户端拦截器装在终端,所有重负荷工作则在云端完成。但实际情况并非如此。一旦网络出现问题,终端也将无法得到安全保护。事实上,从实际应用中可以看出,适合智能技术发挥作用的理想环境是介于两个极端条件之间–自动化和云技术的结合。
还有观点认为,机器学习能代替所有其它安全保护方法。也就是说将所有鸡蛋放到一个篮子里。
但…如果不法分子最终掌握了该算法的工作方式及如何躲避安全保护的方法,那会发生什么?这意味着需要对所有数学模型进行调整并向受保护设备发布更新。就算对模型做了调整并发送/接收更新,用户仍需独自面对网络攻击–且缺乏安全保护。
结论十分明显:最好的安全保护方法是将各个层面的不同技术结合使用,同时将所有攻击途径考虑在内。
最后且最重要的是:机器学习由人类创造–数据和网络危险分析方面的高水平专家。两者不可缺其一。这就是所谓的人机一体化智能。
反复试验的过程往往需要持续许多年时间。这就好比陈年佳酿–品质总好过去年的劣酒,而且不管牌子有多出名。谁能在漫长曲折的机器学习道路上保持领先呢–拥有更具经验的专家、更好的技术以及更可靠的安全保护显然是必备条件。这不仅仅是我个人的观点。这是经过大量测试、调查/研究及客户反馈验证后的结果。
附赠歌曲:《O tempora o mores》!
一些IT安全初创公司的商业模式显而易见:不在乎能赚多少钱,只在乎你价值多少。其目标是通过刺激、操纵和伪造开展集中营销活动–但终究这个泡沫都会破裂。
一旦这些初创公司不再”欺诈”公众,他们很快就会意识到,没有多层安全保护,没有各种现代安全保护技术的应用,没有自己专家的研发–一切都只是徒劳;因为投入的资金和用户’信任信用额度’终将有归零的一天。
另一方面,从零开始制作一款出色的安全产品,要想一下子达到各方面的高要求显然很难,至少目前看来很不现实。如今初创公司相比资金而言,更缺的是头脑和时间。而且,我猜一些初创公司会选择从小规模做起,然后稳步成长。
可以确信,迟早会出现真正意义上的’革命性’初创公司,所开发出的技术也一定经得起测试和时间的考验,进而展现出真正的效果。那些年轻初创公司中最优秀的,将通过积累宝贵的经验和专知,不断扩大自己的安全保护”武器库”,最终有能力在那些网络威胁还未浮出水面时即予以’消灭’。然后将其产品逐步提升至一个专业水平,最终展现出达到真正网络安全质量标准的能力。
#机器学习对于#网络安全至关重要。@E_KASPERSKY了解有关它的逸闻趣事#AI_OILTweet