自定义数据集处理脚本

2024-11-11 17:32:36 +08:00 · 2024-11-11 17:32:36 +08:00 · 1125b67f50
commit 1125b67f50
parent 2065b2176c
18 changed files with 4737 additions and 2 deletions
--- a/generate_data/EC_process/Embedding_merge.py
+++ b/generate_data/EC_process/Embedding_merge.py
@ -0,0 +1,217 @@
 import base64
 import hashlib
 import hmac
 import json
 import random
 import time
 from datetime import datetime
 from urllib.parse import urlencode
 from wsgiref.handlers import format_date_time
 import numpy as np
 import requests
 from sklearn.metrics.pairwise import cosine_similarity
 import os
 class AssembleHeaderException(Exception):
    def __init__(this, msg):
        this.message = msg
 class Url:
    def __init__(this, host, path, schema):
        this.host = host
        this.path = path
        this.schema = schema
        pass
 # calculate sha256 and encode to base64
 def sha256base64(data):
    sha256 = hashlib.sha256()
    sha256.update(data)
    digest = base64.b64encode(sha256.digest()).decode(encoding='utf-8')
    return digest
 def parse_url(requset_url):
    stidx = requset_url.index("://")
    host = requset_url[stidx + 3:]
    schema = requset_url[:stidx + 3]
    edidx = host.index("/")
    if edidx <= 0:
        raise AssembleHeaderException("invalid request url:" + requset_url)
    path = host[edidx:]
    host = host[:edidx]
    u = Url(host, path, schema)
    return u
 # 生成鉴权url
 def assemble_ws_auth_url(requset_url, method="GET", api_key="", api_secret=""):
    u = parse_url(requset_url)
    host = u.host
    path = u.path
    now = datetime.now()
    date = format_date_time(time.mktime(now.timetuple()))
    signature_origin = "host: {}\ndate: {}\n{} {} HTTP/1.1".format(host, date, method, path)
    signature_sha = hmac.new(api_secret.encode('utf-8'), signature_origin.encode('utf-8'),
                             digestmod=hashlib.sha256).digest()
    signature_sha = base64.b64encode(signature_sha).decode(encoding='utf-8')
    authorization_origin = "api_key=\"%s\", algorithm=\"%s\", headers=\"%s\", signature=\"%s\"" % (
        api_key, "hmac-sha256", "host date request-line", signature_sha)
    authorization = base64.b64encode(authorization_origin.encode('utf-8')).decode(encoding='utf-8')
    values = {
        "host": host,
        "date": date,
        "authorization": authorization
    }
    return requset_url + "?" + urlencode(values)
 def get_Body(appid, text, style):
    org_content = json.dumps(text).encode('utf-8')
    body = {
        "header": {
            "app_id": appid,
            "uid": "39769795890",
            "status": 3
        },
        "parameter": {
            "emb": {
                "domain": style,
                "feature": {
                    "encoding": "utf8"
                }
            }
        },
        "payload": {
            "messages": {
                "text": base64.b64encode(json.dumps(text).encode('utf-8')).decode()
            }
        }
    }
    return body
 # 发起请求并返回结果
 def get_embp_embedding(text, appid, apikey, apisecret):
    host = 'https://emb-cn-huabei-1.xf-yun.com/'
    url = assemble_ws_auth_url(host, method='POST', api_key=apikey, api_secret=apisecret)
    content = get_Body(appid, text, "para")
    response = requests.post(url, json=content, headers={'content-type': "application/json"}).text
    return response
 # 解析结果并输出
 def parser_Message(message):
    data = json.loads(message)
    code = data['header']['code']
    if code != 0:
        print(f'请求错误: {code}, {data}')
        return None
    else:
        text_base = data["payload"]["feature"]["text"]
        text_data = base64.b64decode(text_base)
        dt = np.dtype(np.float32).newbyteorder("<")
        text = np.frombuffer(text_data, dtype=dt)
        return text
 # 加载问答对数据
 def load_qa_data(file_path):
    qa_pairs = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            qa_pairs.append(json.loads(line.strip()))
    return qa_pairs
 # 保存embedding到文件
 def save_embeddings(embeddings, file_path):
    with open(file_path, 'w', encoding='utf-8') as f:
        json.dump(embeddings, f, ensure_ascii=False)
 # 获取文本的embedding
 def get_embedding_for_text(text, appid, apikey, apisecret):
    desc = {"messages": [{"content": text, "role": "user"}]}
    res = get_embp_embedding(desc, appid=appid, apikey=apikey, apisecret=apisecret)
    return parser_Message(res)
 # 逐行加载已存在的embedding
 def load_embeddings(file_path):
    embeddings = {}
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                if line.strip():  # 忽略空行
                    embedding_data = json.loads(line.strip())
                    embeddings.update(embedding_data)
    except FileNotFoundError:
        print(f"文件 {file_path} 不存在，将创建新文件")
    return embeddings
 # 逐行保存embedding到文件
 def save_embedding_line_by_line(qa, embedding, file_path):
    if embedding is not None:
        embedding_as_list = embedding.tolist()  # 将numpy array转换为列表
        with open(file_path, 'a', encoding='utf-8') as f:
            json.dump({qa: embedding_as_list}, f, ensure_ascii=False)
            f.write("\n")  # 每行一个embedding
 # 获取单个问题的embedding，并处理请求错误
 def get_embedding_with_retry(question, appid, apikey, apisecret, max_retries=5):
    retries = 0
    while retries < max_retries:
        try:
            embedding = get_embedding_for_text(question, appid, apikey, apisecret)
            if embedding is not None:
                return embedding
        except Exception as e:
            print(f"请求错误: {e}")
        retries += 1
        print(f"重试第 {retries} 次...")
        time.sleep(5)  # 每次重试前等待 5 秒
    print(f"获取'{question}' 的embedding失败")
    return None
 # 获取所有问答对的embedding并逐行保存
 def get_and_save_embeddings(qa_pairs, appid, apikey, apisecret, file_path, qps_limit=2):
    all_embeddings = load_embeddings(file_path)  # 尝试加载已存在的embedding
    interval = 1 / qps_limit  # 根据QPS限制设置间隔时间
    for qa in qa_pairs:
        question = qa['input']
        if question in all_embeddings:
            print(f"'{question}' 的embedding已存在，跳过计算")
            continue
        print(f"计算'{question}' 的embedding...")
        embedding = get_embedding_with_retry(question, appid, apikey, apisecret)  # 带重试机制的请求
        if embedding is not None:
            save_embedding_line_by_line(question, embedding, file_path)  # 逐行保存
            all_embeddings[question] = embedding  # 更新已计算的embedding
        time.sleep(interval)  # 确保符合QPS限制
 if __name__ == '__main__':
    # 设置路径
    qa_file = "output/train_optimized_multiple.jsonl"  # 原问答对文件
    embedding_file = "output/qa_embeddings.json"  # embedding存储文件
    appid = "f0f73de5"
    api_secret = "YzkyYjQwMTU0MGZjMmUzMGE1Y2ZjYzBk"
    api_key = "5773f6f95563708de994d17b7ea5d414"
    # 加载数据
    qa_pairs = load_qa_data(qa_file)
    # 获取并保存embedding
    get_and_save_embeddings(qa_pairs, appid, api_key, api_secret, embedding_file)
    print(f"已保存所有问答对的embedding到 {embedding_file}")
--- a/generate_data/EC_process/Embedding_similarity.py
+++ b/generate_data/EC_process/Embedding_similarity.py
@ -0,0 +1,122 @@
 import json
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
 import jsonlines
 # 加载问答对嵌入
 qa_embeddings = {}
 with jsonlines.open('output/qa_embeddings.json', 'r') as reader:
    for obj in reader:
        qa_embeddings.update(obj)  # 将每行的json对象加入到qa_embeddings
 # 加载问答对
 qa_pairs = []
 with open('output/train_optimized_multiple.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        qa_pairs.append(json.loads(line))
 # 提取嵌入和问题
 questions = list(qa_embeddings.keys())
 embeddings = np.array(list(qa_embeddings.values()))
 # 关键词及其类别
 categories = {
    "栽培油橄榄的意义": ["栽培油橄榄", "经济价值", "引种"],
    "油橄榄属植物分类": ["油橄榄属", "植物分类", "植物种", "原产地"],
    "油橄榄生物学特性": ["根系类型", "土壤关系", "花芽分化", "花序", "授粉特性", "果实发育", "油脂形成"],
    "油橄榄的生态环境条件": ["气候条件", "温度", "光照", "水分", "土壤生态", "海拔高度", "坡度"],
    "油橄榄品种": ["佛奥", "莱星", "皮削利", "阿斯", "配多灵", "果大尔", "皮瓜尔", "科拉蒂", "克里", "爱桑", "贝拉", "实生种"],
    "油橄榄育苗技术": ["育苗场地", "种子繁殖", "实生苗", "嫁接繁殖", "砧木", "接穗", "扦插繁殖", "组织培养"],
    "油橄榄种植": ["园地选择", "种植密度", "栽植方式", "栽后管理"],
    "土壤、肥料、水管理": ["土壤管理", "矿质营养", "果园灌溉", "果实采收"],
    "整形修剪": ["整形修剪", "生物学原理", "结果习性", "树形", "幼树修剪", "复壮修剪"],
    "病虫害防治": ["孔雀斑病", "炭疽病", "黄萎病", "肿瘤病", "根腐病", "云斑天牛", "油橄榄片盾", "大粒横沟象"]
 }
 # 初始化类别关键词的嵌入字典
 category_embeddings = {category: [] for category in categories}
 # 假设我们有一个方法来计算关键词的嵌入，例如从qa_embeddings中获取
 def get_keyword_embedding(keyword):
    return qa_embeddings.get(keyword, None)
 # 为每个类别生成关键词的嵌入
 for category, keywords in categories.items():
    for keyword in keywords:
        keyword_embedding = get_keyword_embedding(keyword)
        if keyword_embedding is not None:
            category_embeddings[category].append(keyword_embedding)
 # 将类别关键词的嵌入转化为平均向量
 for category in category_embeddings:
    if category_embeddings[category]:
        category_embeddings[category] = np.mean(category_embeddings[category], axis=0)
    else:
        category_embeddings[category] = np.zeros(embeddings.shape[1])  # 默认空向量
 # 计算每个问题与类别之间的相似度
 category_similarities = {}
 for idx, question in enumerate(questions):
    question_embedding = embeddings[idx]
    category_similarities[question] = {}
    for category, category_embedding in category_embeddings.items():
        similarity = cosine_similarity([question_embedding], [category_embedding])[0][0]
        category_similarities[question][category] = similarity
 # 将每个问题分配到相似度最高的类别
 category_assignments = {category: [] for category in categories}
 for question in questions:
    best_category = max(category_similarities[question], key=category_similarities[question].get)
    category_assignments[best_category].append(question)
 # 整合并生成新的jsonl格式，确保每个问答对都被包括
 fine_tune_data = []
 for category, assigned_questions in category_assignments.items():
    for idx, question in enumerate(assigned_questions):
        history = []
        output = ""
        instruction = ""
        # 查找当前问题及其回答
        qa_pair = next((qa for qa in qa_pairs if qa['input'] == question), None)
        if qa_pair:
            instruction = qa_pair['input']  # 当前问题作为instruction
            output = qa_pair['output']  # 当前问题的回答作为output
            # 从同一类别的其他问题构建history，保证每个history与当前问题在同一类别
            history_similarities = []
            for related_question in assigned_questions:
                if related_question != question:
                    related_embedding = qa_embeddings[related_question]
                    similarity = cosine_similarity([qa_embeddings[question]], [related_embedding])[0][0]
                    history_similarities.append((related_question, similarity))
            # 按相似度排序，并选择前1~3个问题作为history
            history_similarities = sorted(history_similarities, key=lambda x: x[1], reverse=True)
            for related_question, _ in history_similarities[:3]:
                related_qa_pair = next((qa for qa in qa_pairs if qa['input'] == related_question), None)
                if related_qa_pair:
                    history.append([related_qa_pair['input'], related_qa_pair['output']])
        # 构建最终格式
        if instruction and output:
            fine_tune_entry = {
                "instruction": instruction,
                "input": "",  # input为空
                "output": output,  # 当前问题的回答
                "history": history,  # 最多包含3条相关问题
                "system": "你是一位油橄榄栽培专家，熟知油橄榄的品种分类、栽培技术、生态环境要求以及病虫害防治。"
            }
            fine_tune_data.append(fine_tune_entry)
 # 保存新的jsonl格式
 with open('output/fine_tune_data.jsonl', 'w', encoding='utf-8') as f:
    for entry in fine_tune_data:
        json.dump(entry, f, ensure_ascii=False)
        f.write('\n')
 print("对话数据整理完成")
--- a/generate_data/EC_process/LDArec.py
+++ b/generate_data/EC_process/LDArec.py
@ -0,0 +1,71 @@
 # -*- coding: utf-8 -*-
 # @Time : 2024/10/24 11:10
 # @Author : 黄子寒
 # @Email : 1064071566@qq.com
 # @File : LDArec.py
 # @Project : EmoLLM
 import json
 import jieba
 from gensim import corpora
 from gensim.models.ldamodel import LdaModel
 from collections import defaultdict
 # 加载问答对数据
 def load_qa_data(file_path):
    qa_pairs = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            qa_pairs.append(json.loads(line.strip()))
    return qa_pairs
 # 加载中文停用词
 def load_stopwords(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        return set([line.strip() for line in f])
 # 使用jieba对中文文本进行分词，并去除停用词
 def preprocess_text(text, stopwords):
    words = jieba.lcut(text)  # 使用jieba进行中文分词
    words = [word for word in words if word not in stopwords and len(word) > 1]  # 去除停用词和长度为1的词
    return words
 # 生成LDA主题模型
 def build_lda_model(qa_pairs, stopwords, num_topics=5):
    # 处理所有问题文本
    questions = [qa['input'] for qa in qa_pairs]
    processed_questions = [preprocess_text(question, stopwords) for question in questions]
    # 创建字典和词袋模型
    dictionary = corpora.Dictionary(processed_questions)
    corpus = [dictionary.doc2bow(text) for text in processed_questions]
    # 训练LDA模型
    lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=15)
    return lda_model, dictionary, corpus
 # 打印每个主题的关键词
 def print_topics(lda_model, num_words=10):
    for idx, topic in lda_model.print_topics(num_words=num_words):
        print(f"主题 {idx}: {topic}")
 if __name__ == '__main__':
    qa_file = "output/train_optimized_multiple.jsonl"  # 问答对文件
    stopwords_file = "chinese_stopwords.txt"  # 停用词文件
    # 加载问答对
    qa_pairs = load_qa_data(qa_file)
    # 加载停用词
    stopwords = load_stopwords(stopwords_file)
    # 构建LDA主题模型
    lda_model, dictionary, corpus = build_lda_model(qa_pairs, stopwords, num_topics=20)
    # 打印主题及其关键词
    print_topics(lda_model)
--- a/generate_data/EC_process/Sensor_QA.py
+++ b/generate_data/EC_process/Sensor_QA.py
@ -0,0 +1,70 @@
 # -*- coding: utf-8 -*-
 import json
 import random
 # 定义生成5000条数据集的函数
 def generate_dataset(num_samples=5000):
    dataset = []
    invoke_types = [1, 2, 3]
    area_codes = [chr(i) for i in range(ord('A'), ord('Z') + 1)]
    parameters = [
        {"name": "土壤湿度", "unit": "%", "min": 10, "max": 100},
        {"name": "土壤温度", "unit": "℃", "min": 5, "max": 40},
        {"name": "空气温度", "unit": "℃", "min": -10, "max": 45},
        {"name": "电导率", "unit": "mS/cm", "min": 0.1, "max": 5.0}
    ]
    for _ in range(num_samples):
        invoke_type = random.choice(invoke_types)
        area_code = random.choice(area_codes)
        parameter = random.choice(parameters)
        if isinstance(parameter["min"], int):
            value = round(random.uniform(parameter["min"], parameter["max"]), 1)
        else:
            value = round(random.uniform(parameter["min"], parameter["max"]), 1)
        # 增加多变的提问方式，使数据更自然化
        instruction_templates = [
            f"现在{area_code}种植区内{parameter['name']}如何？",
            f"请告诉我{area_code}区的{parameter['name']}情况。",
            f"{area_code}区当前的{parameter['name']}是多少？",
            f"我想知道{area_code}区的{parameter['name']}。",
            f"{area_code}区的{parameter['name']}现在是多少？",
            f"{area_code}种植区目前的{parameter['name']}是多少？",
            f"能提供{area_code}区的{parameter['name']}数据吗？",
            f"{area_code}种植区的{parameter['name']}是多少？",
            f"请查询{area_code}区的{parameter['name']}。",
            f"{area_code}区现在的{parameter['name']}数据是多少？",
            f"帮我看看{area_code}区{parameter['name']}的情况。",
            f"{area_code}区的{parameter['name']}值是多少？",
            f"帮我查一下{area_code}区的{parameter['name']}。",
            f"{area_code}区的{parameter['name']}现在什么情况？",
            f"请帮我查一下{area_code}种植区的{parameter['name']}是多少？",
            f"我需要知道{area_code}区的{parameter['name']}数据。",
            f"请问{area_code}区的{parameter['name']}如何？",
            f"帮我查询{area_code}区的{parameter['name']}情况。",
            f"现在{area_code}区的{parameter['name']}值是多少？"
        ]
        instruction = random.choice(instruction_templates)
        output = f"{area_code}区现在{parameter['name']}{value}{parameter['unit']}"
        data = {
            "instruction": instruction,
            "invokeType": str(invoke_type),
            "areaCode": area_code,
            "output": output
        }
        dataset.append(data)
    return dataset
 # 生成数据并保存为json文件
 if __name__ == '__main__':
    dataset = generate_dataset()
    output_file = 'output/synthetic_dataset.json'
    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(dataset, f, ensure_ascii=False, indent=4)
    print(f"已生成 {output_file} 文件，包含{len(dataset)}条数据。")
--- a/generate_data/EC_process/SparkApi.py
+++ b/generate_data/EC_process/SparkApi.py
@ -0,0 +1,136 @@
 import _thread as thread
 import base64
 import datetime
 import hashlib
 import hmac
 import json
 from urllib.parse import urlparse
 import ssl
 from datetime import datetime
 from time import mktime
 from urllib.parse import urlencode
 from wsgiref.handlers import format_date_time
 import websocket  # 使用websocket_client
 answer = ""
 class Ws_Param(object):
    # 初始化
    def __init__(self, APPID, APIKey, APISecret, Spark_url):
        self.APPID = APPID
        self.APIKey = APIKey
        self.APISecret = APISecret
        self.host = urlparse(Spark_url).netloc
        self.path = urlparse(Spark_url).path
        self.Spark_url = Spark_url
    # 生成url
    def create_url(self):
        # 生成RFC1123格式的时间戳
        now = datetime.now()
        date = format_date_time(mktime(now.timetuple()))
        # 拼接字符串
        signature_origin = "host: " + self.host + "\n"
        signature_origin += "date: " + date + "\n"
        signature_origin += "GET " + self.path + " HTTP/1.1"
        # 进行hmac-sha256进行加密
        signature_sha = hmac.new(self.APISecret.encode('utf-8'), signature_origin.encode('utf-8'),
                                 digestmod=hashlib.sha256).digest()
        signature_sha_base64 = base64.b64encode(signature_sha).decode(encoding='utf-8')
        authorization_origin = f'api_key="{self.APIKey}", algorithm="hmac-sha256", headers="host date request-line", signature="{signature_sha_base64}"'
        authorization = base64.b64encode(authorization_origin.encode('utf-8')).decode(encoding='utf-8')
        # 将请求的鉴权参数组合为字典
        v = {
            "authorization": authorization,
            "date": date,
            "host": self.host
        }
        # 拼接鉴权参数，生成url
        url = self.Spark_url + '?' + urlencode(v)
        # 此处打印出建立连接时候的url,参考本demo的时候可取消上方打印的注释，比对相同参数时生成的url与自己代码生成的url是否一致
        return url
 # 收到websocket错误的处理
 def on_error(ws, error):
    print("### error:", error)
 # 收到websocket关闭的处理
 def on_close(ws,one,two):
    print(" ")
 # 收到websocket连接建立的处理
 def on_open(ws):
    thread.start_new_thread(run, (ws,))
 def run(ws, *args):
    data = json.dumps(gen_params(appid=ws.appid, domain= ws.domain,question=ws.question))
    ws.send(data)
 # 收到websocket消息的处理
 def on_message(ws, message):
    # print(message)
    data = json.loads(message)
    code = data['header']['code']
    if code != 0:
        print(f'请求错误: {code}, {data}')
        ws.close()
    else:
        choices = data["payload"]["choices"]
        status = choices["status"]
        content = choices["text"][0]["content"]
        print(content,end ="")
        global answer
        answer += content
        # print(1)
        if status == 2:
            ws.close()
 def gen_params(appid, domain,question):
    """
    通过appid和用户的提问来生成请参数
    """
    data = {
        "header": {
            "app_id": appid,
            "uid": "1234"
        },
        "parameter": {
            "chat": {
                "domain": domain,
                "temperature": 0.5,
                "max_tokens": 2048
            }
        },
        "payload": {
            "message": {
                "text": question
            }
        }
    }
    return data
 def main(appid, api_key, api_secret, Spark_url,domain, question):
    # print("星火:")
    wsParam = Ws_Param(appid, api_key, api_secret, Spark_url)
    websocket.enableTrace(False)
    wsUrl = wsParam.create_url()
    ws = websocket.WebSocketApp(wsUrl, on_message=on_message, on_error=on_error, on_close=on_close, on_open=on_open)
    ws.appid = appid
    ws.question = question
    ws.domain = domain
    ws.run_forever(sslopt={"cert_reqs": ssl.CERT_NONE})
--- a/generate_data/EC_process/api_test.py
+++ b/generate_data/EC_process/api_test.py
@ -0,0 +1,24 @@
 import requests
 import json
 url = "https://chatapi.midjourney-vip.cn/v1/chat/completions"
 payload = json.dumps({
   "model": "gpt-3.5-turbo",
   "messages": [
      {
         "role": "user",
         "content": "测试"
      }
   ]
 })
 headers = {
   'Accept': 'application/json',
   'Authorization': 'sk-ATDf2Ax1YTGeeTaBD9Be2a7bE0064618Ae3378EaF0Df6f24',
   'User-Agent': 'Apifox/1.0.0 (https://apifox.com)',
   'Content-Type': 'application/json'
 }
 response = requests.request("POST", url, headers=headers, data=payload)
 print(response.text)
--- a/generate_data/EC_process/chinese_stopwords.txt
+++ b/generate_data/EC_process/chinese_stopwords.txt
--- a/generate_data/EC_process/custom_dict.txt
+++ b/generate_data/EC_process/custom_dict.txt
@ -0,0 +1,66 @@
 栽培油橄榄
 经济价值
 引种
 油橄榄属
 植物分类
 植物种
 原产地
 根系类型
 土壤关系
 花芽分化
 花序
 授粉特性
 果实发育
 油脂形成
 气候条件
 温度
 光照
 水分
 土壤生态
 海拔高度
 坡度
 佛奥
 莱星
 皮削利
 阿斯
 配多灵
 果大尔
 皮瓜尔
 科拉蒂
 克里
 爱桑
 贝拉
 实生种
 育苗场地
 种子繁殖
 实生苗
 嫁接繁殖
 砧木
 接穗
 扦插繁殖
 组织培养
 园地选择
 种植密度
 栽植方式
 栽后管理
 土壤管理
 矿质营养
 果园灌溉
 果实采收
 整形修剪
 生物学原理
 结果习性
 树形
 幼树修剪
 复壮修剪
 孔雀斑病
 炭疽病
 黄萎病
 肿瘤病
 根腐病
 云斑天牛
 油橄榄片盾
 大粒横沟象
 引进品种名录
 中英对照品种名称
 病虫害判定表
--- a/generate_data/EC_process/extend_QA.py
+++ b/generate_data/EC_process/extend_QA.py
@ -0,0 +1,116 @@
 # -*- coding: utf-8 -*-
 import json
 import os
 import re
 from tqdm import tqdm
 import SparkApi
 # 输入文件路径
 input_file = 'output/train_expanded.jsonl'
 # 输出文件路径
 output_file = 'output/train_expanded_2.jsonl'
 # 断点文件路径
 checkpoint_file = 'output/e2_progress_checkpoint.txt'
 # 调用API生成问答对
 def generate_qa_via_api(content):
    appid = "48d04aae"
    api_secret = "ZDE1ZGZmNTQ1YWYxZjcxYTI5Mjk0NGIz"
    api_key = "3ad87d03c4e3a4fb7d7b36a7dfa3be00"
    domain = "4.0Ultra"
    Spark_url = "wss://spark-api.xf-yun.com/v4.0/chat"
    prompt = (
        f"你是一位油橄榄栽培领域的专家，需要基于给定内容生成高质量的问答对。"
        f"生成的问答对用于油橄榄知识库微调，请确保问答的准确性和相关性。具体要求如下：\n"
        f"1. 根据给定内容生成**三个**相关的问题和回答。\n"
        f"2. 你可以简化问题、提取具体要素进行提问，或扩展内容生成额外的相关问题。\n"
        f"3. **问题必须简洁明了**，并涵盖内容中的关键信息。\n"
        f"4. 每个回答应该准确且**不超过50字**，同时**不少于20字**，以保证内容的简洁和有用性。\n"
        f"5. 仅围绕油橄榄栽培的相关内容生成问答对，忽略其他无关信息。\n\n"
        f"以下是给定内容：\n\n"
        f"内容：{content}\n\n"
        f"请按如下格式生成输出：\n"
        f"问题1：<生成第一个问题>\n"
        f"回答1：<生成第一个回答>\n"
        f"问题2：<生成第二个问题>\n"
        f"回答2：<生成第二个回答>\n"
        f"问题3：<生成第三个问题>\n"
        f"回答3：<生成第三个回答>\n\n"
        f"请确保每个问题和回答都保持与内容的紧密相关性，并保持专业性。"
    )
    question = [{"role": "user", "content": prompt}]
    SparkApi.answer = ""
    SparkApi.main(appid, api_key, api_secret, Spark_url, domain, question)
    return SparkApi.answer.strip()
 # 加载断点进度
 def load_checkpoint():
    if os.path.exists(checkpoint_file):
        with open(checkpoint_file, 'r') as f:
            return int(f.read().strip())  # 返回已处理的行索引
    return 0  # 没有断点则从0开始
 # 保存断点进度
 def save_checkpoint(index):
    with open(checkpoint_file, 'w') as f:
        f.write(str(index))
 # 解析返回的问答对，处理多个问答对的情况
 def parse_multiple_qa(answer_text):
    qa_pairs = []
    # 通过正则表达式找到所有的问答对
    pattern = re.compile(r"问题\d+：(.*?)回答\d+：(.*?)(问题|$)", re.S)
    matches = pattern.findall(answer_text)
    for match in matches:
        question = match[0].strip()
        answer = match[1].strip()
        qa_pairs.append({"input": question, "output": answer})
    return qa_pairs
 if __name__ == '__main__':
    # 加载原始数据集
    with open(input_file, 'r', encoding='utf-8') as f:
        text_data = [json.loads(line) for line in f]
    # 加载断点进度
    start_index = load_checkpoint()
    # 从断点开始继续生成问答对
    with open(output_file, 'a', encoding='utf-8') as f:
        for i in tqdm(range(start_index, len(text_data))):
            item = text_data[i]
            input_content = item['input']
            try:
                # 使用API生成新的问答对
                api_generated_qa = generate_qa_via_api(input_content)
                # 解析API生成的问答对并添加到数据集
                qa_pairs = parse_multiple_qa(api_generated_qa)
                expanded_data = [{"input": qa_pair['input'], "output": qa_pair['output']} for qa_pair in qa_pairs]
                # 保存生成的问答对
                for qa in expanded_data:
                    json.dump(qa, f, ensure_ascii=False)
                    f.write('\n')
                # 保存当前的进度索引
                save_checkpoint(i)
            except Exception as e:
                print(f"Error processing item {i}: {e}")
                # 跳过当前条目继续处理
                save_checkpoint(i)
                continue
    print(f"已生成 {output_file} 文件，包含扩展的问答对。")
--- a/generate_data/EC_process/gen_QA.py
+++ b/generate_data/EC_process/gen_QA.py
@ -0,0 +1,153 @@
 # -*- coding: utf-8 -*-
 # @Time : 2024/10/22
 # @Author : 黄子寒
 # @File : generate_qa_with_multiple_pairs.py
 # @Project : EmoLLM
 import os
 import re
 from tqdm import tqdm
 import SparkApi
 import json
 appid = "f0f73de5"
 api_secret = "YzkyYjQwMTU0MGZjMmUzMGE1Y2ZjYzBk"
 api_key = "5773f6f95563708de994d17b7ea5d414"
 # Spark服务地址及版本
 domain = "4.0Ultra"
 Spark_url = "wss://spark-api.xf-yun.com/v4.0/chat"
 # 准备存储清洗后的文本
 text_data = []
 # 断点文件，用于存储上次处理的段落索引
 checkpoint_file = "output/progress_checkpoint.txt"
 # 加载处理好的文本文件
 with open("../processPDF/cleaned_data.txt", "r", encoding="utf-8") as f:
    cleaned_text = f.read()
 # 自定义分割函数，按最大100字以内的句子段落
 def split_text_to_sentences(text, max_length=300):
    sentences = re.split('(?<=。)', text)
    grouped_sentences = []
    current_group = ""
    for sentence in sentences:
        if len(current_group) + len(sentence) <= max_length:
            current_group += sentence
        else:
            grouped_sentences.append(current_group.strip())
            current_group = sentence
    if current_group:
        grouped_sentences.append(current_group.strip())
    return grouped_sentences
 # 加载断点进度
 def load_checkpoint():
    if os.path.exists(checkpoint_file):
        with open(checkpoint_file, 'r') as f:
            return int(f.read().strip())  # 返回已处理的段落索引
    return 0  # 没有断点则从0开始
 # 保存断点进度
 def save_checkpoint(index):
    with open(checkpoint_file, 'w') as f:
        f.write(str(index))
 # 将文本按要求的长度进行分割
 paragraphs = split_text_to_sentences(cleaned_text, 300)
 # 构建 LLM 生成 input 和 output 的详细 prompt，允许模型生成多个问答对
 def create_prompt(content):
    prompt = (
        f"你是一位油橄榄栽培专家。"
        f"根据以下内容生成一个或多个问题和回答对,请保证语句通顺有逻辑，同时忽略所有内容中和图示相关的内容：\n\n"
        f"内容：{content}\n\n"
        f"请以如下格式生成输出：\n"
        f"问题1：<在这里生成第一个问题>\n"
        f"回答1：<在这里生成第一个回答>\n"
        f"问题2：<在这里生成第二个问题（如有）>\n"
        f"回答2：<在这里生成第二个回答（如有）>\n"
        f"..."
    )
    return prompt
 # 解析返回的问答对，处理多个问答对的情况
 def parse_multiple_qa(answer_text):
    qa_pairs = []
    # 通过正则表达式找到所有的问答对
    pattern = re.compile(r"问题\d+：(.*?)回答\d+：(.*?)(问题|$)", re.S)
    matches = pattern.findall(answer_text)
    for match in matches:
        question = match[0].strip()
        answer = match[1].strip()
        qa_pairs.append({"input": question, "output": answer})
    return qa_pairs
 # 迭代限制，防止API额度过大
 def checklen(text):
    while len(text) > 8000:  # 限制在8000字符以内
        del text[0]
    return text
 if __name__ == '__main__':
    text_data.clear()
    file_name = 'output/train_optimized_multiple.jsonl'
    conversations = []
    # 加载上次的进度
    start_index = load_checkpoint()
    # 从断点开始继续生成问答对
    # 从断点开始继续生成问答对
    for i in tqdm(range(start_index, len(paragraphs))):  # 处理所有剩余的段落
        content = paragraphs[i].strip()  # 去除段落前后的空格
        print("====================\ncontent:", content, "\n==================\n")
        if len(content) == 0:
            continue
        # 构建 LLM 的 prompt
        prompt = create_prompt(content)
        question = checklen([{"role": "user", "content": prompt}])
        # 调用 LLM 生成问答对
        SparkApi.answer = ""  # 清空之前的回答
        SparkApi.main(appid, api_key, api_secret, Spark_url, domain, question)  # 调用API获取回答
        # 将生成的文本分割为问题和回答
        answer_text = SparkApi.answer.strip()
        # 解析多个问答对
        qa_pairs = parse_multiple_qa(answer_text)
        for qa_pair in qa_pairs:
            conversation = {
                "input": qa_pair['input'],
                "output": qa_pair['output']
            }
            # 将对话数据添加到文件中
            with open(file_name, 'a', encoding='utf-8') as file:
                json.dump(conversation, file, ensure_ascii=False)
                file.write("\n")
        # 每处理完一个段落，保存当前的进度索引
        save_checkpoint(i)
    print(f"已生成 {file_name} 文件，包含问答对。")
--- a/generate_data/EC_process/jsonl2json.py
+++ b/generate_data/EC_process/jsonl2json.py
@ -0,0 +1,32 @@
 # -*- coding: utf-8 -*-
 # @Time : 2024/10/24 20:47
 # @Author : 黄子寒
 # @Email : 1064071566@qq.com
 # @File : jsonl2json.py
 # @Project : EmoLLM
 import json
 input_file = 'output/fine_tune_data.jsonl'
 output_file = 'output/fine_tune_data.json'
 data_list = []
 with open(input_file, 'r', encoding='utf-8') as f:
    for line in f:
        entry = json.loads(line.strip())
        new_entry = {
            "instruction": entry.get("instruction", ""),
            "input": entry.get("input", ""),
            "output": entry.get("output", ""),
            "system": entry.get("system", ""),
            "history": entry.get("history", [])
        }
        data_list.append(new_entry)
 with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(data_list, f, ensure_ascii=False, indent=4)
 print(f" {output_file}")
--- a/generate_data/EC_process/output/train_expanded_part2.jsonl
+++ b/generate_data/EC_process/output/train_expanded_part2.jsonl
--- a/generate_data/EC_process/processPDF/OCR.py
+++ b/generate_data/EC_process/processPDF/OCR.py
@ -0,0 +1,50 @@
 # -*- coding: utf-8 -*-
 # @Time : 2024/10/18 22:09
 # @Author : 黄子寒
 # @Email : 1064071566@qq.com
 # @File : OCR.py
 # @Project : EmoLLM
 import cv2
 from paddleocr import PaddleOCR
 import os
 import glob
 # 初始化OCR模型
 ocr = PaddleOCR(use_angle_cls=True, lang='ch')
 image_dir = "output"
 output_txt_dir = "output_txt"
 if not os.path.exists(output_txt_dir):
    os.makedirs(output_txt_dir)
 image_list = glob.glob(os.path.join(image_dir, "*.png"))
 # 批量识别处理
 for img_path in image_list:
    # 读取图像
    img = cv2.imread(img_path)
    # 使用OCR模型进行识别
    result = ocr.ocr(img)
    # 获取图像文件名（不带扩展名）
    img_name = os.path.splitext(os.path.basename(img_path))[0]
    # 将OCR结果整理为文本
    txt_file_path = os.path.join(output_txt_dir, f"{img_name}.txt")
    # 打开文件以写入OCR结果
    with open(txt_file_path, 'w', encoding='utf-8') as f:
        for line in result:
            for word_info in line:
                # 提取识别到的文本和其置信度
                word, confidence = word_info[1][0], word_info[1][1]
                f.write(f"{word}\n")
                print(f"Word: {word}, Confidence: {confidence}")
    print(f"{txt_file_path}")
--- a/generate_data/EC_process/processPDF/PDF2Pic.py
+++ b/generate_data/EC_process/processPDF/PDF2Pic.py
@ -0,0 +1,39 @@
 # -*- coding: utf-8 -*-
 # @Time : 2024/10/21 22:09
 # @Author : 黄子寒
 # @Email : 1064071566@qq.com
 # @File : PDF2Pic.py
 # @Project : EmoLLM
 import fitz  # PyMuPDF
 from PIL import Image
 import os
 # PDF 文件路径和输出图像保存目录
 pdf_file_path = "input.pdf"
 output_image_dir = "output"
 # 创建输出目录
 if not os.path.exists(output_image_dir):
    os.makedirs(output_image_dir)
 # 打开 PDF 文件
 pdf_document = fitz.open(pdf_file_path)
 # 遍历每一页并保存为图像
 for page_number in range(len(pdf_document)):
    # 获取当前页对象
    page = pdf_document.load_page(page_number)
    # 将页面转换为图像
    zoom = 4
    mat = fitz.Matrix(zoom, zoom)
    pix = page.get_pixmap(matrix=mat)
    image_path = os.path.join(output_image_dir, f"{page_number + 1}.png")
    pix.save(image_path)
    print(f"Saved {image_path}")
 pdf_document.close()
--- a/generate_data/EC_process/processPDF/mergeTXT.py
+++ b/generate_data/EC_process/processPDF/mergeTXT.py
@ -0,0 +1,25 @@
 import os
 import re
 import natsort
 folder_path = "output_txt"
 combined_text = ""
 # 使用自然排序来读取文件
 for filename in natsort.natsorted(os.listdir(folder_path)):
    if filename.endswith(".txt"):
        file_path = os.path.join(folder_path, filename)
        with open(file_path, 'r', encoding='utf-8') as file:
            combined_text += file.read()
 combined_text = combined_text.replace('\n', '')
 # 处理连续三个或更多相同的标点符号
 combined_text = re.sub(r'([。，！？：；. ·])\1{2,}', r'\1', combined_text)
 # 将清洗后的文本保存到一个新的文件中
 with open("cleaned_data.txt", 'w', encoding='utf-8') as file:
    file.write(combined_text)
 print("数据处理完成")
--- a/generate_data/EC_process/process_missing_QA.py
+++ b/generate_data/EC_process/process_missing_QA.py
@ -0,0 +1,84 @@
 # -*- coding: utf-8 -*-
 import json
 import os
 from tqdm import tqdm
 import SparkApi
 # 输入文件路径
 input_file = 'output/train_expanded.jsonl'
 # 断点文件路径
 checkpoint_file = 'output/expand_checkpoint.txt'
 # 临时文件路径
 temp_file = 'output/tmp_train_expanded.jsonl'
 # 调用API生成回答
 def generate_answer_via_api(question):
    appid = "48d04aae"
    api_secret = "ZDE1ZGZmNTQ1YWYxZjcxYTI5Mjk0NGIz"
    api_key = "3ad87d03c4e3a4fb7d7b36a7dfa3be00"
    domain = "4.0Ultra"
    Spark_url = "wss://spark-api.xf-yun.com/v4.0/chat"
    prompt = (
        f"你是一位油橄榄栽培领域的专家，需要基于给定内容生成高质量的问答对。"
        f"生成的问答对用于油橄榄知识库微调，请确保问答的准确性和相关性。具体要求如下：\n"
        f"每个回答应该准确且不超过50字，同时不少于20字，以保证内容的简洁和有用性。\n"
        f"问题：{question}\n\n"
        f"请生成一个详细回答。"
    )
    question_data = [{"role": "user", "content": prompt}]
    SparkApi.answer = ""
    SparkApi.main(appid, api_key, api_secret, Spark_url, domain, question_data)
    return SparkApi.answer.strip()
 # 加载断点进度
 def load_checkpoint():
    if os.path.exists(checkpoint_file):
        with open(checkpoint_file, 'r') as f:
            return int(f.read().strip())  # 返回已处理的行索引
    return 0  # 没有断点则从0开始
 # 保存断点进度
 def save_checkpoint(index):
    with open(checkpoint_file, 'w') as f:
        f.write(str(index))
 if __name__ == '__main__':
    # 加载断点进度
    start_index = load_checkpoint()
    with open(input_file, 'r', encoding='utf-8') as f, open(temp_file, 'w', encoding='utf-8') as temp_f:
        for i, line in enumerate(tqdm(f)):
            item = json.loads(line)
            # 从断点开始处理
            if i >= start_index:
                input_content = item['input']
                output_content = item['output']
                # # 检查是否是未提供回答的问答对
                # if "未给" in output_content:
                #     # 使用API生成新的回答
                #     new_answer = generate_answer_via_api(input_content)
                #     item['output'] = new_answer
                if len(output_content)<11:
                    # 使用API生成新的回答
                    new_answer = generate_answer_via_api(input_content)
                    item['output'] = new_answer
                # 保存当前的进度索引
                save_checkpoint(i)
            # 写入更新内容到临时文件
            json.dump(item, temp_f, ensure_ascii=False)
            temp_f.write('\n')
    # 替换原始文件
    os.replace(temp_file, input_file)
    print(f"已更新 {input_file} 文件，包含重新生成的回答。")
--- a/generate_data/EC_process/topic_model.py
+++ b/generate_data/EC_process/topic_model.py
@ -0,0 +1,58 @@
 # -*- coding: utf-8 -*-
 # @Time : 2024/10/23 23:16
 # @Author : 黄子寒
 # @Email : 1064071566@qq.com
 # @File : topic_model.py
 # @Project : EmoLLM
 import json
 import gensim
 from gensim import corpora
 from nltk.tokenize import word_tokenize
 from nltk.corpus import stopwords
 from collections import defaultdict
 # 加载问答对数据
 def load_qa_data(file_path):
    qa_pairs = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            qa_pairs.append(json.loads(line.strip()))
    return qa_pairs
 # 文本预处理
 def preprocess_text(text):
    stop_words = set(stopwords.words('english'))
    tokens = word_tokenize(text.lower())
    tokens = [word for word in tokens if word.isalnum() and word not in stop_words]
    return tokens
 # 生成LDA主题模型
 def build_lda_model(qa_pairs, num_topics=5):
    # 处理所有问题文本
    questions = [qa['input'] for qa in qa_pairs]
    processed_questions = [preprocess_text(question) for question in questions]
    # 创建字典和词袋模型
    dictionary = corpora.Dictionary(processed_questions)
    corpus = [dictionary.doc2bow(text) for text in processed_questions]
    # 训练LDA模型
    lda_model = gensim.models.ldamodel.LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=15)
    return lda_model, dictionary, corpus
 # 打印每个主题的关键词
 def print_topics(lda_model, num_words=10):
    for idx, topic in lda_model.print_topics(num_words=num_words):
        print(f"主题 {idx}: {topic}")
 if __name__ == '__main__':
    qa_file = "output/train_optimized_multiple.jsonl"  # 问答对文件
    # 加载问答对
    qa_pairs = load_qa_data(qa_file)
    # 构建LDA主题模型
    lda_model, dictionary, corpus = build_lda_model(qa_pairs, num_topics=5)
    # 打印主题及其关键词
    print_topics(lda_model)
--- a/requirements.txt
+++ b/requirements.txt
@ -5,8 +5,34 @@ streamlit==1.24.0
 sentencepiece==0.1.99
 accelerate==0.24.1
 transformers_stream_generator==0.0.4
-openxlab
+openxlab~=0.0.11
 tiktoken
 einops
 oss2
-requests
+requests~=2.32.3
 pyjwt~=2.8.0
 loguru~=0.6.0
 yaml~=0.2.5
 pyyaml~=6.0.1
 tqdm~=4.66.2
 langchain~=0.0.352
 torch~=2.5.0
 metagpt~=0.8.1
 erniebot~=0.5.9
 python-dotenv~=1.0.0
 zhipuai~=2.0.1
 uvicorn~=0.32.0
 fastapi~=0.115.2
 opencv-python~=4.10.0.84
 paddleocr~=2.9.0
 dashscope~=1.14.1
 numpy~=1.24.3
 jieba~=0.42.1
 nltk~=3.9.1
 setuptools~=65.6.3
 websocket~=0.2.1
 websocket-client~=1.6.2
 gensim~=4.3.3
 pillow~=9.5.0
 natsort~=8.4.0