commit
84581eb9e0
55
evaluate/General evaluation.md
Normal file
55
evaluate/General evaluation.md
Normal file
@ -0,0 +1,55 @@
|
||||
# EmoLLM通用指标评估
|
||||
|
||||
## 简介
|
||||
|
||||
本文档提供了关于如何使用 `eval.py` 和 `metric.py` 两个脚本的指导。这些脚本用于评估 EmoLLM-心理健康大模型的生成结果。
|
||||
|
||||
|
||||
## 安装
|
||||
|
||||
- Python 3.x
|
||||
- PyTorch
|
||||
- Transformers
|
||||
- Datasets
|
||||
- NLTK
|
||||
- Rouge
|
||||
- Jieba
|
||||
|
||||
可以使用以下命令安装:
|
||||
|
||||
```bash
|
||||
pip install torch transformers datasets nltk rouge jieba
|
||||
```
|
||||
|
||||
## 用法
|
||||
|
||||
### convert.py
|
||||
将原始多轮对话数据转换为测评用的单轮数据。
|
||||
|
||||
### eval.py
|
||||
|
||||
`eval.py` 脚本用于生成医生的回复并进行评估,主要分为以下几部分:
|
||||
|
||||
1. 加载模型和分词器。
|
||||
2. 设置测试参数,如测试数据数量和批处理大小。
|
||||
3. 准备数据。
|
||||
4. 生成响应并评估。
|
||||
|
||||
### metric.py
|
||||
|
||||
`metric.py` 脚本包含计算评估指标的函数,可设置按字符级别或按词级别进行评估,目前包含 BLEU 和 ROUGE 分数。
|
||||
|
||||
|
||||
|
||||
## 测试结果
|
||||
|
||||
基于全量微调后的Qwen1_5-0_5B-Chat模型对data.json中的数据进行测试,结果如下:
|
||||
| Metric | Value |
|
||||
|---------|----------------------|
|
||||
| ROUGE-1 | 27.23% |
|
||||
| ROUGE-2 | 8.55% |
|
||||
| ROUGE-L | 17.05% |
|
||||
| BLEU-1 | 26.65% |
|
||||
| BLEU-2 | 13.11% |
|
||||
| BLEU-3 | 7.19% |
|
||||
| BLEU-4 | 4.05% |
|
28
evaluate/Professional evaluation.md
Normal file
28
evaluate/Professional evaluation.md
Normal file
@ -0,0 +1,28 @@
|
||||
# EmoLLM专业指标评估
|
||||
|
||||
## 简介
|
||||
|
||||
本文档介绍一种专业评测方法,并提供 EmoLLM 在专业指标的得分。
|
||||
|
||||
## 评测方法
|
||||
|
||||
本评测方法采用论文《CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling》提出的评测指标与方法。
|
||||
* 指标:Comprehensiveness, Professionalism, Authenticity, Safety
|
||||
* 方法:Turn-Based Dialogue Evaluation
|
||||
* 数据集:CPsyCounE
|
||||
|
||||
## 评测结果
|
||||
|
||||
评测模型: [EmoLLM](https://openxlab.org.cn/models/detail/jujimeizuo/EmoLLM_Model)(InternLM2-7B-chat + qlora), 得分:
|
||||
| Metric | Value |
|
||||
|-------------------|------------|
|
||||
| Comprehensiveness | 1.32 |
|
||||
| Professionalism | 2.20 |
|
||||
| Authenticity | 2.10 |
|
||||
| Safety | 1.00 |
|
||||
|
||||
## 比较
|
||||
* [EmoLLM](https://openxlab.org.cn/models/detail/jujimeizuo/EmoLLM_Model) 在 InternLM2-7B-Chat 基础上提升较大;相比 Role-playing ChatGPT 在心理咨询任务上能力相近
|
||||
|
||||
* 对比结果图片来源于论文《CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling》
|
||||
![image](https://github.com/MING-ZCH/EmoLLM/assets/119648793/abc9f626-11bc-4ec8-84a4-427c4600a720)
|
@ -1,50 +1,9 @@
|
||||
# EmoLLM评测
|
||||
|
||||
# EmoLLM通用指标评估
|
||||
## 通用指标评测
|
||||
|
||||
## 简介
|
||||
* 具体指标、方法见 General evaluation.md
|
||||
|
||||
此 README 文件提供了关于如何使用 `eval.py` 和 `metric.py` 两个脚本的指导。这些脚本用于评估 EmoLLM-心理健康大模型的生成结果。
|
||||
|
||||
|
||||
## 安装
|
||||
|
||||
- Python 3.x
|
||||
- PyTorch
|
||||
- Transformers
|
||||
- Datasets
|
||||
- NLTK
|
||||
- Rouge
|
||||
- Jieba
|
||||
|
||||
可以使用以下命令安装:
|
||||
|
||||
```bash
|
||||
pip install torch transformers datasets nltk rouge jieba
|
||||
```
|
||||
|
||||
## 用法
|
||||
|
||||
### convert.py
|
||||
将原始多轮对话数据转换为测评用的单轮数据。
|
||||
|
||||
### eval.py
|
||||
|
||||
`eval.py` 脚本用于生成医生的回复并进行评估,主要分为以下几部分:
|
||||
|
||||
1. 加载模型和分词器。
|
||||
2. 设置测试参数,如测试数据数量和批处理大小。
|
||||
3. 准备数据。
|
||||
4. 生成响应并评估。
|
||||
|
||||
### metric.py
|
||||
|
||||
`metric.py` 脚本包含计算评估指标的函数,可设置按字符级别或按词级别进行评估,目前包含 BLEU 和 ROUGE 分数。
|
||||
|
||||
|
||||
|
||||
## 测试结果
|
||||
|
||||
基于全量微调后的Qwen1_5-0_5B-Chat模型对data.json中的数据进行测试,结果如下:
|
||||
| Metric | Value |
|
||||
|---------|----------------------|
|
||||
| ROUGE-1 | 27.23% |
|
||||
@ -54,3 +13,14 @@ pip install torch transformers datasets nltk rouge jieba
|
||||
| BLEU-2 | 13.11% |
|
||||
| BLEU-3 | 7.19% |
|
||||
| BLEU-4 | 4.05% |
|
||||
|
||||
## 专业指标评测
|
||||
|
||||
* 具体指标、方法见 Professional evaluation.md
|
||||
|
||||
| Metric | Value |
|
||||
|-------------------|------------|
|
||||
| Comprehensiveness | 1.32 |
|
||||
| Professionalism | 2.20 |
|
||||
| Authenticity | 2.10 |
|
||||
| Safety | 1.00 |
|
||||
|
Loading…
Reference in New Issue
Block a user