[作业] 书生·浦语大模型实战营-第三节
输入“/”快速插入
[作业] 书生·浦语
大模型
实战营-第三节
飞书用户6850
1月13日创建
笔记:
书生·浦语大模型实战营-第三节
基础作业
作业一
复现课程知识库助手搭建过程 (截图)
问题1:nltk_data 搜索路径
将 packages 展平并解压两个
zip
注意,我起初认为这个数据集就应该和其他数据集放在一起,但实际上
nltk_data
是
langchain
的依赖,必须放在指定的搜索路径下,或者配置
NLTK_DATA
环境变量
。
Bash
export NLTK_DATA="/root/data/nltk_data"
问题2:胡言乱语
/ 火星文
根据
TA
和群友提示,更改
RecursiveCharacterTextSplitter
的
chunk_size
和
chunk_overlap
的值,或者更换 Embedding 模型都可以解决问题。
这里我更改参数为以下值即可解决胡言乱语问题
Python
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=250, chunk_overlap=50)
split_docs = text_splitter.split_documents(docs)