OliveSensorAPI/scripts/qa_generation
2024-03-08 16:37:36 +08:00
..
config [Fix] update QA_gen 2024-03-08 16:37:36 +08:00
model Upload QA generation pipeline 2024-03-07 17:56:07 +08:00
util Upload QA generation pipeline 2024-03-07 17:56:07 +08:00
main.py [Fix] update QA_gen 2024-03-08 16:37:36 +08:00
README.md [Fix] update QA_gen 2024-03-08 16:37:36 +08:00
requirements.txt QA Generation - Update requirements.txt 2024-03-07 23:58:05 +08:00
system_prompt_v1.md Rename system_prompt.md to system_prompt_v1.md 2024-03-07 22:40:28 +08:00
system_prompt_v2.md Create system_prompt_v2.md 2024-03-07 22:52:32 +08:00

QA Generation Pipeline

1. 使用方法

  1. 检查 requirements.txt 中的依赖是否满足。
  2. 调整代码中 system_prompt确保与repo最新版本一致保证生成QA的多样性和稳定性。
  3. 将txt文件放到与 model同级目录 data文件夹中.
  4. config/config.py 配置所需的 API KEYmain.py 启动即可。生成的 QA 对会以 jsonl 的格式存在 data/generated 下。

1.1 API KEY 获取方法

目前仅包含了 qwen。

1.1.1 Qwen

前往模型服务灵积-API-KEY管理 (aliyun.com),点击”创建新的 API-KEY“将获取的 API KEY 填至 config/config.py 中的 DASHSCOPE_API_KEY 即可。

2. 注意事项

2.1 系统提示 System Prompt

注意,目前的解析方案是基于模型会生成 markdown 包裹的 json 块的前提的,更改 system prompt 时需要保证这一点不变。

2.2 滑动窗口 Sliding Window

滑动窗口的 window_sizeoverlap_size 都可以在 util/data_loader.py 中的 get_txt_content 函数中更改。目前是按照句子分割的滑动窗口。

2.3 书本文件格式 Corpus Format

目前仅支持了 txt 格式,可以将清洗好的书籍文本放在 data 文件夹下,程序会递归检索该文件夹下的所有 txt 文件。

TODO

  1. 支持更多模型Gemini、GPT、ChatGLM……
  2. 支持多线程调用模型
  3. 支持更多文本格式PDF……
  4. 支持更多切分文本的方式