专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
51好读  ›  专栏  ›  企业存储技术

12G显存/Chat with RTX中文语言模型配置及使用体验

企业存储技术  · 公众号  ·  · 2024-04-20 08:30

正文

请到「今天看啥」查看全文


虽然模型的推理是利用TensorRT-LLM在本地进行,但是在使用中还是需要链接一下互联网(需要科学上网)。接下来我们就介绍下如何完全离线运行.

  1. 修改user_interface.py文件
    打开你的安装目录C:\Users\ yourname \AppData\Local\NVIDIA\ChatWithRTX [1] ,在C:\Users\ yourname \AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\ui里面有一个user_interface.py文件,打开它并找到254行左右的位置,在interface.launch函数里加上share=True,如下图所示:

    注 [1]: ^Chat with RTX缺省安装在当前用户所在文件夹,yourname代表用户名

2. 配置UAE-Large-V1
启动Chat With RTX时,需要联网的原因可能是它需要从HF上下载一个文件,我们打开:C:\Users\ yourname \AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\config\app_config.json,如下图, 我们可以看到:

这里就要求去HF网站下载“WhereIsAI/UAE-Large-V1"这个模型。我们可以提前直接从HF下载(地址: https://huggingface.co/WhereIsAI/UAE-Large-V1/tree/main ),然后将这个选项修改为本地路径就好。当然,对于无法访问HF的朋友,可以搜索百度云盘地址。

当然,如果你 已经 正常联网使用了一次,那么就可以将上述UAE-Large-V1地址改成本地缓存路径(我这里就使用了缓存的UAE-Large-V1模型):


三、中文大语言模型配置和Llama2补救

由于在Chat With RTX安装过程中没有成功安装Llama2模型,并且内置的两个语言模型对中文支持不是很好,因此需要增加中文模型,并将Llama2重新配置。

1. 安装chatglm3_6b_32k

要增加一个模型,需要TensorRT-LLM编译构建模型引擎。TensorRT-LLM是专门为大语言模型推理而设计的,工具能够加速AI模型的推理速度,让我们的模型运行起来更快,更节省内存。

幸运的是,Chat With RTX已经替我们事先安装好了一个TensorRT-LLM(版本号0.7.0)。

接下来我们详细说明如何安装大语言模型,首先我们得确认一下这个语言模型是必须是TensorRT-LLM支持的,查看NVIDIA/TensorRT-LLM官方网站,查询支持的大语言模型,图中红色方框标记的是我们将要增加的中文模型:

接下来,我们来添加ChatGLM:

0)下载chatglm3_6b_32k模型包;

1)从启动菜单栏,点击Miniconda3 Power Shell,进入PS命令行窗口;

2)激活RAG环境:这一步是激活Chat With RTX的环境,意味着我们接下来的操作和我们运行Chat With RTX处于同一情形,避免出现因为某些包的版本不匹配而造成的错误;

conda activate  C:\Users\yourname\AppData\Local\NVIDIA\ChatWithRTX\env_nvd_rag

3)进入TensorRT-LLM的chatglm目录:

cd C:\Users\yourname\AppData\Local\NVIDIA\ChatWithRTX\TensorRT-LLM\TensorRT-LLM-0.7.0\examples\chatglm\

4)构建TensorRT-LLM模型,







请到「今天看啥」查看全文


推荐文章
新闻广角  ·  最新!俄乌发生大规模无人机攻防战
20 小时前
新闻广角  ·  微信上线新功能!网友:非常实用
2 天前
妙法佛音  ·  【心籁之音】一水四见
8 年前