From 453018c3bf641136e1c49f219c3a3fd11b39bc23 Mon Sep 17 00:00:00 2001 From: aJupyter Date: Fri, 8 Mar 2024 14:25:34 +0800 Subject: [PATCH] [Fix] update QA_gen --- scripts/qa_generation/README.md | 9 ++------- scripts/qa_generation/config/config.py | 2 +- scripts/qa_generation/main.py | 10 +++++++++- 3 files changed, 12 insertions(+), 9 deletions(-) diff --git a/scripts/qa_generation/README.md b/scripts/qa_generation/README.md index 679c217..d3646c9 100644 --- a/scripts/qa_generation/README.md +++ b/scripts/qa_generation/README.md @@ -3,10 +3,9 @@ ## 1. 使用方法 1. 检查 `requirements.txt` 中的依赖是否满足。 - 2. 调整代码中 `system_prompt`,确保与repo最新版本一致,保证生成QA的多样性和稳定性。 - -3. 在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。 +3. 将txt文件放到与 `model`同级目录 `data`文件夹中. +4. 在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。 ### 1.1 API KEY 获取方法 @@ -16,8 +15,6 @@ 前往[模型服务灵积-API-KEY管理 (aliyun.com)](https://dashscope.console.aliyun.com/apiKey),点击”创建新的 API-KEY“,将获取的 API KEY 填至 `config/config.py` 中的 `DASHSCOPE_API_KEY` 即可。 - - ## 2. 注意事项 ### 2.1 系统提示 System Prompt @@ -32,8 +29,6 @@ 目前仅支持了 txt 格式,可以将清洗好的书籍文本放在 `data` 文件夹下,程序会递归检索该文件夹下的所有 txt 文件。 - - ## TODO 1. 支持更多模型(Gemini、GPT、ChatGLM……) diff --git a/scripts/qa_generation/config/config.py b/scripts/qa_generation/config/config.py index c1b4c4a..bcd45cb 100644 --- a/scripts/qa_generation/config/config.py +++ b/scripts/qa_generation/config/config.py @@ -25,4 +25,4 @@ system_prompt_file_path = os.path.join(base_dir, 'system_prompt_v2.md') # sy 环境变量 """ # api-keys -DASHSCOPE_API_KEY = 'sk-xxxxxxxx' +DASHSCOPE_API_KEY = '' \ No newline at end of file diff --git a/scripts/qa_generation/main.py b/scripts/qa_generation/main.py index ff3556a..ab11a50 100644 --- a/scripts/qa_generation/main.py +++ b/scripts/qa_generation/main.py @@ -37,12 +37,17 @@ def generate_qa( for file_name in file_list: contents = get_txt_content(file_name) storage_list = [] - storage_jsonl_path = os.path.join(result_dir, f'{current_time}-{file_name}-{model_name}.jsonl') + + file_name = file_name.split('/')[-1] + storage_jsonl_path = os.path.join( + result_dir, f'{current_time}-{file_name}-{model_name}.jsonl') logger.info(f'The generated QA will be stored in {storage_jsonl_path}.') for content in tqdm(contents): response = model_caller(content) + # print(response) # 打印输出 captured_qa = capture_qa(response) + # print(captured_qa) # 打印QA对 if captured_qa is None: continue @@ -64,4 +69,7 @@ def generate_qa( if __name__ == '__main__': + + # 创建generated文件夹 + os.makedirs('./data/generated', exist_ok=True) generate_qa()