正文
虽然模型的推理是利用TensorRT-LLM在本地进行,但是在使用中还是需要链接一下互联网(需要科学上网)。接下来我们就介绍下如何完全离线运行.
-
修改user_interface.py文件
打开你的安装目录C:\Users\
yourname
\AppData\Local\NVIDIA\ChatWithRTX
[1]
,在C:\Users\
yourname
\AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\ui里面有一个user_interface.py文件,打开它并找到254行左右的位置,在interface.launch函数里加上share=True,如下图所示:
注 [1]:
^Chat with RTX缺省安装在当前用户所在文件夹,yourname代表用户名
2. 配置UAE-Large-V1
启动Chat With RTX时,需要联网的原因可能是它需要从HF上下载一个文件,我们打开:C:\Users\
yourname
\AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\config\app_config.json,如下图, 我们可以看到:
这里就要求去HF网站下载“WhereIsAI/UAE-Large-V1"这个模型。我们可以提前直接从HF下载(地址:
https://huggingface.co/WhereIsAI/UAE-Large-V1/tree/main
),然后将这个选项修改为本地路径就好。当然,对于无法访问HF的朋友,可以搜索百度云盘地址。
当然,如果你
已经
正常联网使用了一次,那么就可以将上述UAE-Large-V1地址改成本地缓存路径(我这里就使用了缓存的UAE-Large-V1模型):
三、中文大语言模型配置和Llama2补救
由于在Chat With RTX安装过程中没有成功安装Llama2模型,并且内置的两个语言模型对中文支持不是很好,因此需要增加中文模型,并将Llama2重新配置。
1. 安装chatglm3_6b_32k
要增加一个模型,需要TensorRT-LLM编译构建模型引擎。TensorRT-LLM是专门为大语言模型推理而设计的,工具能够加速AI模型的推理速度,让我们的模型运行起来更快,更节省内存。
幸运的是,Chat With RTX已经替我们事先安装好了一个TensorRT-LLM(版本号0.7.0)。
接下来我们详细说明如何安装大语言模型,首先我们得确认一下这个语言模型是必须是TensorRT-LLM支持的,查看NVIDIA/TensorRT-LLM官方网站,查询支持的大语言模型,图中红色方框标记的是我们将要增加的中文模型:
接下来,我们来添加ChatGLM:
0)下载chatglm3_6b_32k模型包;
1)从启动菜单栏,点击Miniconda3 Power Shell,进入PS命令行窗口;
2)激活RAG环境:这一步是激活Chat With RTX的环境,意味着我们接下来的操作和我们运行Chat With RTX处于同一情形,避免出现因为某些包的版本不匹配而造成的错误;
conda activate C:\Users\yourname\AppData\Local\NVIDIA\ChatWithRTX\env_nvd_rag
3)进入TensorRT-LLM的chatglm目录:
cd C:\Users\yourname\AppData\Local\NVIDIA\ChatWithRTX\TensorRT-LLM\TensorRT-LLM-0.7.0\examples\chatglm\
4)构建TensorRT-LLM模型,