本文是微步在线威胁情报沙龙华南站的嘉宾聂君的分享整理,以下为总结。
矩阵式监控提升安全有效性实践
从业以来,我一直在甲方从事安全建设工作。在工作的过程中,我发现甲方和乙方的思维在企业安全建设方面有一些不同,乙方的出发点是怎么把产品或服务更好地卖给客户,但甲方用户更多关注产品怎么去解决实际的安全问题,这两件事之间相对而言是有一些鸿沟的。但随着甲方认知的提升,以及像微步在线这样注重给客户提供有效服务的公司越来越多,乙方和甲方的也会逐步融合,差距在慢慢缩小。
在我理解中,安全人员的安全观最重要,安全观如果在方向或者思路上有偏差的话,安全防护的效果也会有很大差异。对于甲方安全人员来说,最重要的是对待安全问题的解决思路以及看待这些安全问题的角度和高度。
在银行和证券的安全防护中,我的安全观是:信息安全是人和人之间的博弈与战争,交战双方所争夺的是对信息资产的控制权。那么,在这个过程中需要注意哪些问题呢?
我们在对抗的时候总希望有一种类似照妖镜的工具,一经安装就可以发现所有对我们的攻击行为,但实际上这种工具是不存在的,没有什么上帝之手或者一劳永逸的解决方案。我从自己十年金融行业安全建设经验中,提炼出一套比较适用的框架,也就是今天要分享的矩阵式检测。我们的框架中包含四个模块,安全防护框架、安全运维框架、安全验证框架和安全度量框架。
安全防护框架主要是指在整个安全体系建设中需要一整套位于前端的安全感知器Sensor,这些安全感知器构成了信息安全的“天网”,这部分是基础工作,也是传统安全的主战场,需要历经多年的持续投入积累。安全Sensor的部署遵循纵深防御的理念。除了下面列的这些外,实际中还有很多Sensor可以监测,比如像微步在线提供的与威胁情报结合的安全监测点,比如网络层,有些防火墙还自带IPS功能,如CheckPoint的SmartDefense,就是很好的Sensor,还有记录交换机、路由器登录和命令操作日志的ACS信息、堡垒机信息、虚拟层虚拟主机操作信息、主机层的安全客户端信息、KVM、ILO等带外管理系统信息、ITIL系统工单信息、应用层的OA和公文系统应用日志等。企业基础安全的很大内容就是建设各类安全Sensor,解决点状的安全问题和需求,可以说这些Sensor是我们安全防护框架的最重要的一个部分。在这个层面里,我们可以发现很多有意思的东西,比如运维人员短时间批量下载文件服务器信息,那么这个人可能有离职行为。
监测到大量的告警信息之后,怎么去发现信息里的异常呢?这就需要通过安全运维框架来实现。像木马、病毒这类的异常,基于单一的检测规则就能够实现,还有一些是需要关联分析、在模型和阈值中进行判断等等,这些都是我们能够在安全运维框架中做的一些事。
发现了真正有用的异常信息之后,我们会放到安全运维框架所对应的一个跟踪落地流程中。在企业中,将安全的告警一个个跟踪确认到底需要安全人员花了很多的时间和精力,此时就需要引入事件管理流程,通过安全验证框架来实现,比如使用WAF、IPS这样的工具进行相应的安全防护,主机上会部署安全客户端或agent,依靠机器的规则和运维人员进行跟踪。那么如何确认这套体系不会失效?现在的方法是有两种,第一种是白盒验证,模拟攻击事件,然后检测能否在预计时间内(如24小时)处理掉这个事件;第二种是黑盒验证,让白帽子对企业进行众测并提交漏洞。
安全度量框架是用一系列安全有效性的指标来度量防护体系是否有效。通过灵活运用安全度量框架,能够检测出当前的安全状况,并作出未来三年的规划。
这四个框架的构建和完善都要花费很长时间,需要不断迭代提升。
前面讲了我做安全的整体思路,接下来说说监控的重要性和我们踩过的坑。安全的Sensor是我们的一双双眼睛,眼睛是否有效,就要看监控如何调度。监控的重要性和业务系统、安全系统的重要性是等同的,在实践中我们发现的由于安全监控失效导致防线被突破的情况很多。
第一就是重要的防护设施没部署,或者利用率上不来,当未纳入集中统一管理的设备越来越多时,资产管理效果就会变差,因此如何确保新增设备部署相应监控是一个需要重视的问题。比如防病毒设备,对于已知病毒或者已知恶意程序的查杀率基本是100%,但是很遗憾,很多企业部署之后的安装率和正常率两个指标长期徘徊在比较低的水平,这就意味着有检测能力也检测不到。
第二是安全Sensor的监测功能失效。首先Sensor本身是程序,是程序就存在着各种各样可能的问题。其次,如果监测到的信息不能很快地触达监测后端的处理平台,也会造成同样的效果。
第三是安全运营平台的安全监测规则是不是有效、是不是明确和统一。我们遇到过这样一种情况,商业化产品中,为了提升用户体验,会有一个自动修正不良规则的功能,当某种规则导致的告警到达一定阈值以后,产品就会觉得规则有问题,会帮助用户修正。但这样就会导致误杀有用规则,或者漏掉有效的高级信息。
第四,其他告警方式包括邮件、短信的失效、账号的误禁用等等。
那么,应当采取什么解决方案呢?
资产准确性,明确监控标准,矩阵式监控,持续跟踪整改。
资产准确性方面,我们自己建立一套资产管理平台,将资产管理系统化,统计IP、域名、主机等信息,将以前的Excel文件的管理形式变为自动化的方式,将IP地址和域名系统做出关联,自动地获取,放入我们的资产管理系统,同时我们还和自动化扫描和资产识别的工具关联。这两年做互联网一侧的资产管理和发现的厂商越来越多,大家可以去了解一下,但是最重要的还是和企业内部的管理相结合。
明确监控标准方面,这里有一个示意图:
横向是我们要监测哪些类型的安全设备的配置,纵向的是我们能够采集到哪些被监控对象。比如说我们的平台要去采集这些日志,我们的安全客户端要在这些主机上进行部署,打钩就表示这一类型的设备要安装这个监控。比如采集日志,我们认为所有的这些监控设备,都需要被采集日志,对于安全客户端,我们可能只对主机、防火墙的规则进行监测,比如图中的CheckPoint和Junifer。N/A表示无效,不涉及。每一个项目都有相应的责任人去负责制定该监控的标准,然后进行矩阵式的监控部署,从横向和纵向两个监控维度去产生各自的报表,然后进行自动化的比对,从而发现里面一些监控失效的地方。
横向的维度就是这些配置,比如windows server 就要监测是否存在日志监控的进程。
纵向的结果就是,从日志监控这类某个单一维度中查看被监控对象的数据,比如从SOC平台中查看是否全部的Windows主机都能够被采集到日志,如果有采集不到日志的,就可以被认为是没有处在监控环境下的。
那么,通过横向和纵向的比对,结果必然是四种类型:
如果横向和纵向均为Fault,则说明此项监控缺失,需要立即整改;
如果横向和纵向中有一个为Fault,一个为OK,则说明其中某个结果有问题,可能是程序问题或者网络不通等原因,在比对结果中显示诶diff,需要进一步排查;
如果横向和纵向均为OK,则说明此项监控已配置,并工作正常;
如果横向和纵向均为N/A,表示此项不适用。
将横向结果、纵向结果和比对结果与资产清向关联,发现资产清单中未部署监控的设备,从而保证监控系统全覆盖。
发现了这些缺监控的缺失项之后,就要需要持续地跟踪整改,我们的做法是每天会生成一份矩阵式的监控报表,将存在的问题划分优先级,然后进行相应的这个优先级高的就纳入督办和整改。我们初期对自己还挺有信心,因为这么多年我们还是比较重视监控,结果上了矩阵式监控之后,发现了非常多的监控缺失,花了N多的时间啊把这项监控的基础工作来做好,我们还把矩阵式监控日报和安全的日常值班进行了集成,将不合规的项目放在监控界面上进行图形化的展示,并有值班人员来进行每日检查,在值班的记录里面进行详细的登记,那由团队负责人来督导这种不合规项的整改。如果没有及时整改,可视化的监控平台上就会有持续的亮红。
部署矩阵式监控之后,我们取得了这样一些收益:第一,我们资产清单主机名和IP的错误达到了20项以上,在一个工作日以内就可以发现,并且迅速修复,监控的覆盖率接近了100%,同时也能查看到新增的设备有没有纳入到资产管理和安全监控里面,或者已有的设备监控下失效等情况。这样,我们监控的结果,就不再单纯地依赖于人员的责任心和运气了,跟之前相比就有一定的改进和提升。
我认为,矩阵式监控的思路具有普适性,不仅能够用来确保安全运营的有效性和可持续性,同时也会适用于绝大多数运营领域。我的理解是,再强的安全技术和产品,也需要让一些不太具备这样技能的人能够运营,比如微步在线这样的产品就可以做到。很多时候面对商业化的产品,我首先会考虑我的运营成本是多少,能不能运营得下来,如果运营不下来,那这个产品或者方案对我就是无效的。再有效的监测技术,如果没有安全运营的话,那就是一个马其诺防线,好看不顶用。所以我们在矩阵式监控的思路里面,一线的安全值班人员,是不需要有什么技能的,甚至刚毕业的人就能做。它的前端展示非常简单直接,就是这上面有亮红,就通知他去处理,基本上不需要其他操作。这就是安全工程化能力的体现,而我认为安全工程化是衡量企业安全建设能力高低的一个重要指标。
我的分享到此结束,谢谢大家。
微步在线威胁情报沙龙华南站的所有分享PPT已经上传,请点击“阅读原文”下载PPT资料。我们将在此公众号上陆续发布其他演讲者的分享内容,请持续关注。