History

aJupyter 453018c3bf [Fix] update QA_gen		2024-03-08 16:37:36 +08:00
..
config	[Fix] update QA_gen	2024-03-08 16:37:36 +08:00
model	Upload QA generation pipeline	2024-03-07 17:56:07 +08:00
util	Upload QA generation pipeline	2024-03-07 17:56:07 +08:00
main.py	[Fix] update QA_gen	2024-03-08 16:37:36 +08:00
README.md	[Fix] update QA_gen	2024-03-08 16:37:36 +08:00
requirements.txt	QA Generation - Update requirements.txt	2024-03-07 23:58:05 +08:00
system_prompt_v1.md	Rename system_prompt.md to system_prompt_v1.md	2024-03-07 22:40:28 +08:00
system_prompt_v2.md	Create system_prompt_v2.md	2024-03-07 22:52:32 +08:00

QA Generation Pipeline

1. 使用方法

检查 requirements.txt 中的依赖是否满足。
调整代码中 system_prompt，确保与repo最新版本一致，保证生成QA的多样性和稳定性。
将txt文件放到与 model同级目录 data文件夹中.
在 config/config.py 配置所需的 API KEY，从 main.py 启动即可。生成的 QA 对会以 jsonl 的格式存在 data/generated 下。

目前仅包含了 qwen。

前往模型服务灵积-API-KEY管理 (aliyun.com)，点击”创建新的 API-KEY“，将获取的 API KEY 填至 config/config.py 中的 DASHSCOPE_API_KEY 即可。

注意，目前的解析方案是基于模型会生成 markdown 包裹的 json 块的前提的，更改 system prompt 时需要保证这一点不变。

滑动窗口的 window_size 和 overlap_size 都可以在 util/data_loader.py 中的 get_txt_content 函数中更改。目前是按照句子分割的滑动窗口。

目前仅支持了 txt 格式，可以将清洗好的书籍文本放在 data 文件夹下，程序会递归检索该文件夹下的所有 txt 文件。