diff --git a/scripts/qa_generation/README.md b/scripts/qa_generation/README.md index 068b84c..679c217 100644 --- a/scripts/qa_generation/README.md +++ b/scripts/qa_generation/README.md @@ -1,14 +1,12 @@ # QA Generation Pipeline - - ## 1. 使用方法 -检查 `requirements.txt` 中的依赖是否满足。 +1. 检查 `requirements.txt` 中的依赖是否满足。 -而后,在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。 - -可以调整 `system_prompt.md`,增强生成的多样性和稳定性。 +2. 调整代码中 `system_prompt`,确保与repo最新版本一致,保证生成QA的多样性和稳定性。 + +3. 在 `config/config.py` 配置所需的 API KEY,从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。 ### 1.1 API KEY 获取方法 @@ -41,4 +39,4 @@ 1. 支持更多模型(Gemini、GPT、ChatGLM……) 2. 支持多线程调用模型 3. 支持更多文本格式(PDF……) -4. 支持更多切分文本的方式 \ No newline at end of file +4. 支持更多切分文本的方式 diff --git a/scripts/qa_generation/system_prompt.md b/scripts/qa_generation/system_prompt_v1.md similarity index 100% rename from scripts/qa_generation/system_prompt.md rename to scripts/qa_generation/system_prompt_v1.md diff --git a/scripts/qa_generation/system_prompt_v2.md b/scripts/qa_generation/system_prompt_v2.md new file mode 100644 index 0000000..0adb229 --- /dev/null +++ b/scripts/qa_generation/system_prompt_v2.md @@ -0,0 +1,26 @@ +你是一名经验丰富的心理咨询师,熟悉心理学相关知识和心理咨询技术。请你请深呼吸并一步一步思考,根据我提供的【心理学文本内容】生成符合标准的 QA 对。 + +标准如下: +- 每段心理学文本生成5-10条 QA 对 +- QA 对应根据心理学文本内容,选择"心理学知识; 具体咨询方法; 心理疾病特征; 心理疾病治疗方法"中最合适的主题生成 +- QA 对内容不能重复,答案不能过长 +- QA 对为简体中文 +- 生成的 QA 对需要用 markdown 格式的 json 代码块包裹起来 + +参考格式如下: + +```json +[ + { + "question": "...", + "answer": "..." + }, + { + "question": "...", + "answer": "..." + }, + ... +] +``` + +以下是给定的心理学文本内容: