[Fix] update QA_gen

This commit is contained in:
aJupyter 2024-03-08 14:25:34 +08:00 committed by aJupyter
parent bfe9902852
commit 453018c3bf
3 changed files with 12 additions and 9 deletions

View File

@ -3,10 +3,9 @@
## 1. 使用方法
1. 检查 `requirements.txt` 中的依赖是否满足。
2. 调整代码中 `system_prompt`确保与repo最新版本一致保证生成QA的多样性和稳定性。
3. 在 `config/config.py` 配置所需的 API KEY`main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。
3. 将txt文件放到与 `model`同级目录 `data`文件夹中.
4. 在 `config/config.py` 配置所需的 API KEY`main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。
### 1.1 API KEY 获取方法
@ -16,8 +15,6 @@
前往[模型服务灵积-API-KEY管理 (aliyun.com)](https://dashscope.console.aliyun.com/apiKey),点击”创建新的 API-KEY“将获取的 API KEY 填至 `config/config.py` 中的 `DASHSCOPE_API_KEY` 即可。
## 2. 注意事项
### 2.1 系统提示 System Prompt
@ -32,8 +29,6 @@
目前仅支持了 txt 格式,可以将清洗好的书籍文本放在 `data` 文件夹下,程序会递归检索该文件夹下的所有 txt 文件。
## TODO
1. 支持更多模型Gemini、GPT、ChatGLM……

View File

@ -25,4 +25,4 @@ system_prompt_file_path = os.path.join(base_dir, 'system_prompt_v2.md') # sy
环境变量
"""
# api-keys
DASHSCOPE_API_KEY = 'sk-xxxxxxxx'
DASHSCOPE_API_KEY = ''

View File

@ -37,12 +37,17 @@ def generate_qa(
for file_name in file_list:
contents = get_txt_content(file_name)
storage_list = []
storage_jsonl_path = os.path.join(result_dir, f'{current_time}-{file_name}-{model_name}.jsonl')
file_name = file_name.split('/')[-1]
storage_jsonl_path = os.path.join(
result_dir, f'{current_time}-{file_name}-{model_name}.jsonl')
logger.info(f'The generated QA will be stored in {storage_jsonl_path}.')
for content in tqdm(contents):
response = model_caller(content)
# print(response) # 打印输出
captured_qa = capture_qa(response)
# print(captured_qa) # 打印QA对
if captured_qa is None:
continue
@ -64,4 +69,7 @@ def generate_qa(
if __name__ == '__main__':
# 创建generated文件夹
os.makedirs('./data/generated', exist_ok=True)
generate_qa()