现在每个人都可以在电脑内置一个10年经验的安全专家了。
SecGPT-Mini:是一个可以在普通CPU上运行的网络安全大模型。
对昨天 https://mp.weixin.qq.com/s?__biz=MzU2NzcwNTY3Mg==&mid=2247484914&idx=1&sn=e828f22691bd3f72c5fab014ce81709c&chksm=fc986cd5cbefe5c3a3180faeb743639e078feea6d3a703bb7ae5e9653a0b61bbfb765d0de32c&token=1274830974&lang=zh_CN#rd 的一点补充。
关于源码
源码一些勘误:需要python3.9以上,并且transformers依赖库是最新版本
速度比想象中快,有很多群友已经搭建成功开始玩耍了,有好心群友制作了docker镜像,可以一键玩耍
docker pull tanheyii/secgpt-mini:latest
docker run -d -p 7860:7860 tanheyii/secgpt-mini:latest
然后访问 IP:7860即可。
Dockerfile
FROM python:slim
WORKDIR /secgpt-mini
COPY . /secgpt-mini
RUN pip install -i https://mirrors.ustc.edu.cn/pypi/web/simple -r requirements.txt
EXPOSE 7860
CMD ["python", "webdemo.py", "--base_model", "/secgpt-mini/models"]
docker镜像感谢 @七安
dockerfile感谢 @沉默
关于数据
好的安全数据对训练网络安全模型帮助很大,手头的数据还是远远不够,几次试验感觉还是没有激发很多大模型对安全的理解,怀疑是数据量还不够。
目前训练数据包含10G安全数据,来源从GitHub,社区论坛,知识星球,安全大会pdf,epub书籍,wooyun等等。清洗完后的训练数据只有1~2G左右。
如果读者手中有安全数据可以邮件我,可以来一起训练网络安全领域的大模型,后续也会将数据进行开源(获得许可的情况下)。
需要的数据类型:
后续还有打算1是编写爬虫爬取安全类博客文章,2是通过对通用爬虫数据清洗出安全数据 ,有相关经验的读者也可以交流。
邮件地址:master@hacking8.com (最好是邮件,公众号后台不常看,有些不错的私信由于时间间隔过长也无法回复)
后面也会写一些文章教大家如何训练,如何最小资源训练,不同的数据比例训练的模型回答风格也不相同,这块主要看经验,也挺有意思的,欢迎关注我。
其他