OliveSensorAPI/scripts/qa_generation/README.md
Anooyman 000491f1be
Merge Main code (#2)
* Add files via upload

* 新增ENmd文档

* Update README.md

* Update README_EN.md

* Update LICENSE

* [docs] update lmdeploy file

* add ocr.md

* Update tutorial.md

* Update tutorial_EN.md

* Update General_evaluation_EN.md

* Update General_evaluation_EN.md

* Update README.md

Add InternLM2_7B_chat_full's professional evaluation results

* Update Professional_evaluation.md

* Update Professional_evaluation.md

* Update Professional_evaluation.md

* Update Professional_evaluation.md

* Update Professional_evaluation_EN.md

* Update README.md

* Update README.md

* Update README_EN.md

* Update README_EN.md

* Update README_EN.md

* [DOC] update readme

* Update LICENSE

* Update LICENSE

* update personal info and small format optimizations

* update personal info and translations for contents in a table

* Update RAG README

* Update demo link in README.md

* Update xlab app link

* Update xlab link

* add xlab model

* Update web_demo-aiwei.py

* add bitex

---------

Co-authored-by: xzw <62385492+aJupyter@users.noreply.github.com>
Co-authored-by: এ許我辞忧࿐♡ <127636623+Smiling-Weeping-zhr@users.noreply.github.com>
Co-authored-by: Vicky <vicky_3021@163.com>
Co-authored-by: MING_X <119648793+MING-ZCH@users.noreply.github.com>
Co-authored-by: Nobody-ML <1755309985@qq.com>
Co-authored-by: 8baby8 <3345710651@qq.com>
Co-authored-by: chaoke <101492509+8baby8@users.noreply.github.com>
Co-authored-by: aJupyter <ajupyter@163.com>
Co-authored-by: HongCheng <kwchenghong@gmail.com>
Co-authored-by: santiagoTOP <“1537211712top@gmail.com”>
2024-03-15 19:51:04 +08:00

3.7 KiB
Raw Blame History

RAG数据库构建流程

构建目的

利用心理学专业的书籍构建QA知识对为RAG提供心理咨询知识库使我们的EmoLLM的回答更加专业可靠。为了实现这个目标我们利用几十本心理学书籍来构建这个RAG知识库。主要的构建流程如下

构建流程

步骤一PDF to TXT

  • 目的

    • 将收集到的PDF版本的心理学书籍转化为TXT文本文件方便后续的信息提取。
  • 所需工具

    pip install paddlepaddle
    pip install opencv-python
    pip install paddleocr
    
  • 注意

    • 如果无法使用pip install paddleocr安装paddleocr可以考虑采用whl文件安装下载地址
    • 脚本启动方式采用命令行启动python pdf2txt.py [PDF存放的文件名]

步骤二筛选PDF

  • 筛选目的

    • 利用LLM去除非专业心理学书籍
  • 筛选标准,包含心理咨询相关内容,如:

    • 心理咨询流派 - 具体咨询方法
    • 心理疾病 - 疾病特征
    • 心理疾病 - 治疗方法
  • 筛选方式:

    • 根据标题初筛

    • 若无法判断属于心理咨询相关书籍利用kimi/GLM-4查询是否包含心理咨询相关知识建议一次仅查询一本书

    • 参考prompt:
      你是一位经验丰富的心理学教授,熟悉心理学知识和心理咨询。我需要你协助我完成"识别书籍是否包含心理咨询知识"任务请深呼吸并一步步思考给出你的答案。如果你的答案让我满意我将给你10w小费
      具体任务如下:
      判断该书籍中是否包含以下心理咨询相关知识:
      '''
      心理咨询流派 - 具体咨询方法 
      心理疾病 - 疾病特征
      心理疾病 - 治疗方法
      '''
      请深呼吸并一步步查看该书籍,认真完成任务。
      

步骤三提取QA对

  • 根据书籍内容利用LLM高效构造QA知识对

  • 提取流程

    • 准备处理好的txt文本数据
    • 按要求配置脚本文件
    • 根据自己的需求或者提取的结果合理修改window_size和overlap_size
  • 使用方法

    • 检查 requirements.txt 中的依赖是否满足。
    • 调整代码中 system_prompt确保与repo最新版本一致保证生成QA的多样性和稳定性。
    • 将txt文件放到与 model同级目录 data文件夹中.
    • config/config.py 配置所需的 API KEYmain.py 启动即可。生成的 QA 对会以 jsonl 的格式存在 data/generated 下。
  • API KEY 获取方法

  • 注意事项

    • 系统提示 System Prompt
      • 注意,目前的解析方案是基于模型会生成 markdown 包裹的 json 块的前提的,更改 system prompt 时需要保证这一点不变。
    • 滑动窗口 Sliding Window
      • 滑动窗口的 window_sizeoverlap_size 都可以在 util/data_loader.py 中的 get_txt_content 函数中更改。目前是按照句子分割的滑动窗口。
  • 书本文件格式 Corpus Format

    • 目前仅支持了 txt 格式,可以将清洗好的书籍文本放在 data 文件夹下,程序会递归检索该文件夹下的所有 txt 文件。

步骤四清洗QA对

  • 清洗目的