12G显存/Chat with RTX中文语言模型配置及使用体验

企业存储技术 · 公众号 · · 2024-04-20 08:30

正文

请到「今天看啥」查看全文

虽然模型的推理是利用TensorRT-LLM在本地进行，但是在使用中还是需要链接一下互联网(需要科学上网)。接下来我们就介绍下如何完全离线运行.

修改user_interface.py文件
打开你的安装目录C:\Users\ yourname \AppData\Local\NVIDIA\ChatWithRTX ^[1] ，在C:\Users\ yourname \AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\ui里面有一个user_interface.py文件，打开它并找到254行左右的位置，在interface.launch函数里加上share=True，如下图所示：

注 [1]： ^Chat with RTX缺省安装在当前用户所在文件夹，yourname代表用户名

2. 配置UAE-Large-V1
启动Chat With RTX时，需要联网的原因可能是它需要从HF上下载一个文件，我们打开：C:\Users\ yourname \AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\config\app_config.json，如下图, 我们可以看到：

这里就要求去HF网站下载“WhereIsAI/UAE-Large-V1"这个模型。我们可以提前直接从HF下载（地址： https://huggingface.co/WhereIsAI/UAE-Large-V1/tree/main ），然后将这个选项修改为本地路径就好。当然，对于无法访问HF的朋友，可以搜索百度云盘地址。

当然，如果你已经正常联网使用了一次，那么就可以将上述UAE-Large-V1地址改成本地缓存路径（我这里就使用了缓存的UAE-Large-V1模型）：

三、中文大语言模型配置和Llama2补救

由于在Chat With RTX安装过程中没有成功安装Llama2模型，并且内置的两个语言模型对中文支持不是很好，因此需要增加中文模型，并将Llama2重新配置。

1. 安装chatglm3_6b_32k

要增加一个模型，需要TensorRT-LLM编译构建模型引擎。TensorRT-LLM是专门为大语言模型推理而设计的，工具能够加速AI模型的推理速度，让我们的模型运行起来更快，更节省内存。

幸运的是，Chat With RTX已经替我们事先安装好了一个TensorRT-LLM（版本号0.7.0）。

接下来我们详细说明如何安装大语言模型，首先我们得确认一下这个语言模型是必须是TensorRT-LLM支持的，查看NVIDIA/TensorRT-LLM官方网站，查询支持的大语言模型，图中红色方框标记的是我们将要增加的中文模型：

接下来，我们来添加ChatGLM：

0）下载chatglm3_6b_32k模型包；

1）从启动菜单栏，点击Miniconda3 Power Shell，进入PS命令行窗口；

2）激活RAG环境：这一步是激活Chat With RTX的环境，意味着我们接下来的操作和我们运行Chat With RTX处于同一情形，避免出现因为某些包的版本不匹配而造成的错误；

conda activate  C:\Users\yourname\AppData\Local\NVIDIA\ChatWithRTX\env_nvd_rag

3）进入TensorRT-LLM的chatglm目录：

cd C:\Users\yourname\AppData\Local\NVIDIA\ChatWithRTX\TensorRT-LLM\TensorRT-LLM-0.7.0\examples\chatglm\

4）构建TensorRT-LLM模型，