1.4 KiB
1.4 KiB
QA Generation Pipeline
1. 使用方法
-
检查
requirements.txt
中的依赖是否满足。 -
调整代码中
system_prompt
,确保与repo最新版本一致,保证生成QA的多样性和稳定性。 -
在
config/config.py
配置所需的 API KEY,从main.py
启动即可。生成的 QA 对会以 jsonl 的格式存在data/generated
下。
1.1 API KEY 获取方法
目前仅包含了 qwen。
1.1.1 Qwen
前往模型服务灵积-API-KEY管理 (aliyun.com),点击”创建新的 API-KEY“,将获取的 API KEY 填至 config/config.py
中的 DASHSCOPE_API_KEY
即可。
2. 注意事项
2.1 系统提示 System Prompt
注意,目前的解析方案是基于模型会生成 markdown 包裹的 json 块的前提的,更改 system prompt 时需要保证这一点不变。
2.2 滑动窗口 Sliding Window
滑动窗口的 window_size
和 overlap_size
都可以在 util/data_loader.py
中的 get_txt_content
函数中更改。目前是按照句子分割的滑动窗口。
2.3 书本文件格式 Corpus Format
目前仅支持了 txt 格式,可以将清洗好的书籍文本放在 data
文件夹下,程序会递归检索该文件夹下的所有 txt 文件。
TODO
- 支持更多模型(Gemini、GPT、ChatGLM……)
- 支持多线程调用模型
- 支持更多文本格式(PDF……)
- 支持更多切分文本的方式