Upload QA generation pipeline

2024-03-07 17:56:07 +08:00 · 2024-03-07 17:56:07 +08:00 · 57a9db4c5b
commit 57a9db4c5b
parent 54ee4010be
15 changed files with 302 additions and 0 deletions
--- a/scripts/qa_generation/README.md
+++ b/scripts/qa_generation/README.md
@ -0,0 +1,43 @@
 # QA Generation Pipeline
 ## 1. 使用方法
 检查 `requirements.txt` 中的依赖是否满足。
 而后，在 `config/config.py` 配置所需的 API KEY，从 `main.py` 启动即可。生成的 QA 对会以 jsonl 的格式存在 `data/generated` 下。
 可以调整 `system_prompt.md`，增强生成的多样性和稳定性。
 ### 1.1 API KEY 获取方法
 目前仅包含了 qwen。
 #### 1.1.1 Qwen
 前往[模型服务灵积-API-KEY管理 (aliyun.com)](https://dashscope.console.aliyun.com/apiKey)，点击”创建新的 API-KEY“，将获取的 API KEY 填至 `config/config.py` 中的 `DASHSCOPE_API_KEY` 即可。
 ## 2. 注意事项
 ### 2.1 系统提示 System Prompt
 注意，目前的解析方案是基于模型会生成 markdown 包裹的 json 块的前提的，更改 system prompt 时需要保证这一点不变。
 ### 2.2 滑动窗口 Sliding Window
 滑动窗口的 `window_size` 和 `overlap_size` 都可以在 `util/data_loader.py` 中的 `get_txt_content` 函数中更改。目前是按照句子分割的滑动窗口。
 ### 2.3 书本文件格式 Corpus Format
 目前仅支持了 txt 格式，可以将清洗好的书籍文本放在 `data` 文件夹下，程序会递归检索该文件夹下的所有 txt 文件。
 ## TODO
 1. 支持更多模型（Gemini、GPT、ChatGLM……）
 2. 支持更多文本格式（PDF……）
 3. 支持更多切分文本的方式
--- a/scripts/qa_generation/config/init.py
+++ b/scripts/qa_generation/config/init.py
--- a/scripts/qa_generation/config/config.py
+++ b/scripts/qa_generation/config/config.py
@ -0,0 +1,28 @@
 import os
 """
 文件夹路径
 """
 cur_dir = os.path.dirname(os.path.abspath(__file__))                    # config
 base_dir = os.path.dirname(cur_dir)                                     # base
 # model
 model_dir = os.path.join(base_dir, 'model')                             # model
 # data
 data_dir = os.path.join(base_dir, 'data')                               # data
 result_dir = os.path.join(data_dir, 'generated')                        # result
 # log
 log_dir = os.path.join(base_dir, 'log')                                 # log
 log_file_path = os.path.join(log_dir, 'log.log')                        # file
 # system prompt
 system_prompt_file_path = os.path.join(base_dir, 'system_prompt.md')    # system prompt
 """
 环境变量
 """
 # api-keys
 DASHSCOPE_API_KEY = 'sk-xxxxxxxx'
--- a/scripts/qa_generation/main.py
+++ b/scripts/qa_generation/main.py
@ -0,0 +1,67 @@
 import os
 import json
 from tqdm import tqdm
 from datetime import datetime
 from config.config import result_dir
 from model.qwen import call_qwen_single_turn
 from util.logger import get_logger
 from util.data_loader import get_file_list, get_txt_content, capture_qa
 logger = get_logger()
 """
 生成 QA 对
 model_name: 可调用的模型名称，暂时只实现了 qwen
 interval: 存储间隔，即每隔多少条存一次文件，过密的间隔会增大 IO 开销
 """
 def generate_qa(
    model_name: str = 'qwen',
    interval: int = 1,
 ):
    current_time = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
    if model_name == 'qwen':
        model_caller = call_qwen_single_turn
    else:
        logger.warning('This model is currently not supported and will call the default model - qwen.')
        model_caller = call_qwen_single_turn
        model_name = 'qwen'
    logger.info(f'The called model is: {model_name}.')
    logger.info(f'The storage interval is: {interval}.')
    file_list = get_file_list()
    storage_counter = 0
    storage_list = []
    for file_name in file_list:
        contents = get_txt_content(file_name)
        storage_list = []
        storage_jsonl_path = os.path.join(result_dir, f'{current_time}-{file_name}-{model_name}.jsonl')
        logger.info(f'The generated QA will be stored in {storage_jsonl_path}.')
        for content in tqdm(contents):
            response = model_caller(content)
            captured_qa = capture_qa(response)
            if captured_qa is None:
                continue
            storage_list.extend(captured_qa)
            storage_counter += 1
            if storage_counter % interval == 0:
                storage_counter = 0
                with open(storage_jsonl_path, 'a', encoding='utf-8') as f:
                    for item in storage_list:
                        f.write(json.dumps(item, ensure_ascii=False) + '\n')
                    storage_list = []
        # 如果有剩余，存入
        if storage_list:
            with open(storage_jsonl_path, 'a', encoding='utf-8') as f:
                for item in storage_list:
                    f.write(json.dumps(item, ensure_ascii=False) + '\n')
                storage_list = []
 if __name__ == '__main__':
    generate_qa()
--- a/scripts/qa_generation/model/init.py
+++ b/scripts/qa_generation/model/init.py
--- a/scripts/qa_generation/model/gemini.py
+++ b/scripts/qa_generation/model/gemini.py
--- a/scripts/qa_generation/model/glm.py
+++ b/scripts/qa_generation/model/glm.py
--- a/scripts/qa_generation/model/gpt.py
+++ b/scripts/qa_generation/model/gpt.py
--- a/scripts/qa_generation/model/qwen.py
+++ b/scripts/qa_generation/model/qwen.py
@ -0,0 +1,41 @@
 import dashscope
 from http import HTTPStatus
 from dashscope import Generation
 from dashscope.api_entities.dashscope_response import Role
 from config.config import DASHSCOPE_API_KEY
 from util.logger import get_logger
 from util.prompt_loader import load_system_prompt
 dashscope.api_key = DASHSCOPE_API_KEY
 logger = get_logger()
 def call_qwen_single_turn(query: str) -> str:
    messages = [
        {
            'role': Role.SYSTEM,
            'content': load_system_prompt()
        },
        {
            'role': Role.USER,
            'content': query
        }
    ]
    response = Generation.call(
        model='qwen-max-1201',
        messages=messages,
        result_format='message',
        stream=False,
        incremental_output=False
    )
    if response.status_code == HTTPStatus.OK:
        return response.output.choices[0]['message']['content']
    else:
        logger.error('Request id: %s, Status code: %s, error code: %s, error message: %s' % (
            response.request_id, response.status_code,
            response.code, response.message
        ))
        return ""
--- a/scripts/qa_generation/requirements.txt
+++ b/scripts/qa_generation/requirements.txt
@ -0,0 +1,3 @@
 dashscope
 loguru
 tqdm
--- a/scripts/qa_generation/system_prompt.md
+++ b/scripts/qa_generation/system_prompt.md
@ -0,0 +1,24 @@
 你是一名 QA 对生成机器人，你会根据我提供的【心理学书本内容】自动生成合适的 QA 对，要求如下：
 - 对于我给的文本内容，你需要生成五条这样的 QA 对
 - QA 对内容不能重复，答案不能过长
 - 用简体中文回答
 - 生成的 QA 对需要用 markdown 格式的 json 代码块包裹起来
 以下是参考格式：
 ```json
 [
 	{
 		"question": "...",
 		"answer": "..."
 	},
 	{
 		"question": "...",
 		"answer": "..."
 	},
 	...
 ]
 ```
 以下是给定的文本内容：
--- a/scripts/qa_generation/util/init.py
+++ b/scripts/qa_generation/util/init.py
--- a/scripts/qa_generation/util/data_loader.py
+++ b/scripts/qa_generation/util/data_loader.py
@ -0,0 +1,75 @@
 import os
 import re
 import json
 from typing import List, Dict
 from config.config import data_dir
 from util.logger import get_logger
 logger = get_logger()
 """
 递归获取 data_dir 下的所有 .txt 文件列表
 """
 def get_file_list() -> List[str]:
    txt_files = []
    txt_exist_flag = False
    for root, dirs, files in os.walk(data_dir):
        for file in files:
            if file.endswith('.txt'):
                txt_exist_flag = True
                txt_files.append(os.path.join(root, file))
    if not txt_exist_flag:
        logger.warning(f'No txt text found in {data_dir}, please check!')
    return txt_files
 """
 获取 txt 文本的所有内容，按句子返回 List
 file_path: txt 文本路径
 window_size: 滑窗大小，单位为句子数
 overlap_size: 重叠大小，单位为句子数
 """
 def get_txt_content(
    file_path: str,
    window_size: int = 6,
    overlap_size: int = 2
 ) -> List[str]:
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read().strip()
    # 简单实现：按句号、感叹号、问号分割，并去除句内空白符
    sentences = re.split(r'(?<=[。！？])\s+', content)
    sentences = [s.replace(' ', '').replace('\t', '') for s in sentences]
    # 滑窗
    res = []
    sentences_amount = len(sentences)
    start_index, end_index = 0, sentences_amount - window_size
    ## check length
    if window_size < overlap_size:
        logger.error("window_size must be greater than or equal to overlap_size")
        return None
    if window_size >= sentences_amount:
        logger.warning("window_size exceeds the amount of sentences, and the complete text content will be returned")
        return ['\n'.join(sentences)]
    for i in range(start_index, end_index + 1, overlap_size):
        res.append('\n'.join(sentences[i : i + window_size]))
    return res
 """
 提取返回的 QA 对
 """
 def capture_qa(content: str) -> List[Dict]:
    # 只捕获第一个 json 块
    match = re.search(r'```json(.*?)```', content, re.DOTALL)
    if match:
        block = match.group(1)
        parsed_data = json.loads(block)
        return parsed_data
    else:
        logger.warning("No JSON block found.")
        return None
--- a/scripts/qa_generation/util/logger.py
+++ b/scripts/qa_generation/util/logger.py
@ -0,0 +1,14 @@
 from loguru import logger
 from config.config import log_file_path
 def get_logger():
    return logger
 logger.add(log_file_path, rotation="500 MB")
 logger.configure(
    handlers=[
        dict(sink=log_file_path, rotation="500 MB", format="{time} {level} {message}"),
    ]
 )
--- a/scripts/qa_generation/util/prompt_loader.py
+++ b/scripts/qa_generation/util/prompt_loader.py
@ -0,0 +1,7 @@
 from config.config import system_prompt_file_path
 def load_system_prompt() -> str:
    with open(system_prompt_file_path, 'r', encoding='utf-8') as f:
        system_prompt = f.read()
    return system_prompt