正文
威胁情报的运营开始于信息的收集,来自各种Web页面的开源内容是收集的主要目标。
利用大模型极其强大的文本分析能力,可以方便地实现网页的处理,ScapeGraphAI工具就是这样一个集成了大模型文本分析能力的网页内容爬取工具。这里是一个使用其爬取Mitre网站的APT组织信息页面并转化为结构化数据的例子。
工具充分利用了大模型理解抽象指令和页面解析的能力,处理复杂页面不需要再专门写适配的解析代码,只要描述要求即可,当前这个例子核心AI能力使用了本地部署的llama3模型,其实就当前的任务而言都不需要能力这么强的模型,用更轻量级的Mistral就可以了。
另一个非常有用的工具是jina.ai,这是一个非常方便的把网页内容精减成Markdown格式文本的工具,目前可以免费使用,使用频率上有点限制。它会获取网页,自动去除掉包括广告在内的无关信息,输出一个Markdown格式的文档,这些内容可以被后续的大模型应用所消费。
比如给jina.ai指定下面这样的一个威胁行为体的介绍网页:
https://unit42.paloaltonetworks.com/cve-2024-3400/
https://r.jina.ai/https://unit42.paloaltonetworks.com/cve-2024-3400/
使用方式非常简单,只要在要处理的网页链接前添加”https://r.jina.ai/”即可。
小结
● 利用大模型的能力进行网页爬取、解析及结构化目前还处于概念验证阶段,实用系统需要较强的工程化能力和强大的算力支持。
● 用于处理复杂网页较为合适,简单网页杀鸡用牛刀。
● 获取页面内容最好用jina这样的核心信息提取服务,后续大模型处理时既可以减少非相关信息的干扰,又能减少Token的消耗。
● 输出后续用于大模型的精减格式化数据非常有用,数据通过API以结构化的方式交换加速成为主流,将来Web页面被人眼访问的比例会越来越低,Web可能慢慢走向消亡。
获取到的文本可能是多语言的,当然主要是英文,需要尽可能准确地转换为中文,毕竟我们是中国的安全厂商,接下来看看大模型对于翻译问题最终解决。
例子是一个安全厂商Blog发布的关于某个APT组织活动的介绍文章。我们重点关注两处可以体现翻译能力差距的地方。
1、compromises
2、high-profile
https://www.welivesecurity.com/en/eset-research/moon-backdoors-lunar-landing-diplomatic-missions/
compromise最合适的翻译应该是失陷或侵入,high-profile比较好的翻译应该高关注度、高知名度实体。
没有大模型加持的翻译甚至做到文本通顺都有问题,就像Google Translate那样。
Google Translate,Pormpt:翻译如下文本到中文
GPT4翻译得比较通顺,但对我们关注的概念处理上还谈不上完全正确。
GPT4-1,Pormpt:翻译如下文本到中文
GPT4改进提示词以后的表现有所改善,但Kimi看起来翻译得最贴切。
GPT4-2,Prompt:在网络安全语境下,翻译如下文本到中文
Kimi,Prompt:翻译如下文本到中文
小结
● 基于大模型技术的翻译水平碾压传统的翻译技术,大模型对于多语言的掌握已经远超一般的人类,在技术文档的翻译方面代工基本上已经可有可无。
● 就翻译中文的需求而言,中文的大模型翻译效果上优于哪怕是最好的国外大模型,在这点上国内原厂的大模型确实还有些优势。
情报信息的来源除了现成的文本,图像视频也应该是另一个重要来源,在这个领域我们也应该积极获取数据,所以OCR的技术也是必备的,而这方面也是大模型所擅长。
这是一个扫描版的SANS培训材料,虽然为PDF文档,但文档的每页都是一张独立的图片。我们尝试通过OCR技术提取图片中的文本与格式。
SANS - 578.4 - Analysis and Dissemination of Intelligence (SANS).pdf
市面上已经有不少基于深度学习的OCR工具,这里展示的Surya工具只是其中一个,对于文档的处理已经比较完善,识别完成以后保持与图像完全一致的观感(右边是源文档页图片,左边是识别后的文本)。但从情报分析需求来看,下面我们来看看大模型在OCR功能上的表现。
用大模型执行识别任务,先尝试GPT4 vision模型,Prompt:
You are provided with one image (see uploaded file). You need directly extract text from image. You need feedback me the extracted text. Keep the paragraph structure from the original image. Remove extra new line characters and keep one new line between each paragraph.
从识别以后输出的格式看,GPT4并没有百分之百的还原,忽略了部分它认为不重要的信息,还会对格式有一些自己的改动,注意上面那7个条目的编号,PPT页脚的内容被忽略了。
GPT4-vision的识别结果
通义千问内容还原度相当高,没有什么自己额外的发挥,包括PPT页的页脚都翻译并呈现了,对段落进行了智能识别与重整。
通义千问的识别结果
Kimi识别出了几乎所有文本内容,但在输出格式上做得很不好,甚至有点错乱,段落的回车位置却严格按照原图,没有做智能化的处理。
Kimi的识别结果
总体来看通义千问的输出效果最好。
换到对于视频中的文字识别场景,我们先用GPT4 vision处理,Prompt:
You are provided with one image (see uploaded file). You need directly extract text from image. You need feedback me the extracted text.
电影《剑鱼行动》中的场景
可以看到它准确地识别出了核心内容,还自动分割了区域,并给出了自己的看法。
GPT4的识别输出
让Kimi和通义千问来识别一下同样这个图片,结果:通义千问只识别出了部分内容,Kimi识别出了里面大多数文字,但看起来并没有理解里面的内容。但智能化的分析理解就一定好吗?看下面的例子。
这是某年参加的一个安全会议上拍的演讲题目,拍得不清楚不是因为离得远,而是屏幕分辨率实在不高,让GPT来处理这个内容识别。
GPT4的识别输出
注意PPT标题部分,出现了幻觉!大模型知识内置的好处在于能自动弥补上下文,甚至基于此做更深入的研判,但坏处是随意发挥造成误导。对于质量较差的图片,其输出的结果不能完全信任。