diff --git a/evaluate/General evaluation.md b/evaluate/General evaluation.md new file mode 100644 index 0000000..fee6bca --- /dev/null +++ b/evaluate/General evaluation.md @@ -0,0 +1,55 @@ +# EmoLLM通用指标评估 + +## 简介 + +本文档提供了关于如何使用 `eval.py` 和 `metric.py` 两个脚本的指导。这些脚本用于评估 EmoLLM-心理健康大模型的生成结果。 + + +## 安装 + +- Python 3.x +- PyTorch +- Transformers +- Datasets +- NLTK +- Rouge +- Jieba + +可以使用以下命令安装: + +```bash +pip install torch transformers datasets nltk rouge jieba +``` + +## 用法 + +### convert.py +将原始多轮对话数据转换为测评用的单轮数据。 + +### eval.py + +`eval.py` 脚本用于生成医生的回复并进行评估,主要分为以下几部分: + +1. 加载模型和分词器。 +2. 设置测试参数,如测试数据数量和批处理大小。 +3. 准备数据。 +4. 生成响应并评估。 + +### metric.py + +`metric.py` 脚本包含计算评估指标的函数,可设置按字符级别或按词级别进行评估,目前包含 BLEU 和 ROUGE 分数。 + + + +## 测试结果 + +基于全量微调后的Qwen1_5-0_5B-Chat模型对data.json中的数据进行测试,结果如下: +| Metric | Value | +|---------|----------------------| +| ROUGE-1 | 27.23% | +| ROUGE-2 | 8.55% | +| ROUGE-L | 17.05% | +| BLEU-1 | 26.65% | +| BLEU-2 | 13.11% | +| BLEU-3 | 7.19% | +| BLEU-4 | 4.05% | diff --git a/evaluate/Professional evaluation.md b/evaluate/Professional evaluation.md new file mode 100644 index 0000000..0f2bd09 --- /dev/null +++ b/evaluate/Professional evaluation.md @@ -0,0 +1,28 @@ +# EmoLLM专业指标评估 + +## 简介 + +本文档介绍一种专业评测方法,并提供 EmoLLM 在专业指标的得分。 + +## 评测方法 + +本评测方法采用论文《CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling》提出的评测指标与方法。 +* 指标:Comprehensiveness, Professionalism, Authenticity, Safety +* 方法:Turn-Based Dialogue Evaluation +* 数据集:CPsyCounE + +## 评测结果 + +评测模型: [EmoLLM](https://openxlab.org.cn/models/detail/jujimeizuo/EmoLLM_Model)(InternLM2-7B-chat + qlora), 得分: +| Metric | Value | +|-------------------|------------| +| Comprehensiveness | 1.32 | +| Professionalism | 2.20 | +| Authenticity | 2.10 | +| Safety | 1.00 | + +## 比较 +* [EmoLLM](https://openxlab.org.cn/models/detail/jujimeizuo/EmoLLM_Model) 在 InternLM2-7B-Chat 基础上提升较大;相比 Role-playing ChatGPT 在心理咨询任务上能力相近 + +* 对比结果图片来源于论文《CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling》 +![image](https://github.com/MING-ZCH/EmoLLM/assets/119648793/abc9f626-11bc-4ec8-84a4-427c4600a720) diff --git a/evaluate/README.md b/evaluate/README.md index c15464e..9f8bc46 100644 --- a/evaluate/README.md +++ b/evaluate/README.md @@ -1,50 +1,9 @@ +# EmoLLM评测 -# EmoLLM通用指标评估 +## 通用指标评测 -## 简介 +* 具体指标、方法见 General evaluation.md -此 README 文件提供了关于如何使用 `eval.py` 和 `metric.py` 两个脚本的指导。这些脚本用于评估 EmoLLM-心理健康大模型的生成结果。 - - -## 安装 - -- Python 3.x -- PyTorch -- Transformers -- Datasets -- NLTK -- Rouge -- Jieba - -可以使用以下命令安装: - -```bash -pip install torch transformers datasets nltk rouge jieba -``` - -## 用法 - -### convert.py -将原始多轮对话数据转换为测评用的单轮数据。 - -### eval.py - -`eval.py` 脚本用于生成医生的回复并进行评估,主要分为以下几部分: - -1. 加载模型和分词器。 -2. 设置测试参数,如测试数据数量和批处理大小。 -3. 准备数据。 -4. 生成响应并评估。 - -### metric.py - -`metric.py` 脚本包含计算评估指标的函数,可设置按字符级别或按词级别进行评估,目前包含 BLEU 和 ROUGE 分数。 - - - -## 测试结果 - -基于全量微调后的Qwen1_5-0_5B-Chat模型对data.json中的数据进行测试,结果如下: | Metric | Value | |---------|----------------------| | ROUGE-1 | 27.23% | @@ -54,3 +13,14 @@ pip install torch transformers datasets nltk rouge jieba | BLEU-2 | 13.11% | | BLEU-3 | 7.19% | | BLEU-4 | 4.05% | + +## 专业指标评测 + +* 具体指标、方法见 Professional evaluation.md + +| Metric | Value | +|-------------------|------------| +| Comprehensiveness | 1.32 | +| Professionalism | 2.20 | +| Authenticity | 2.10 | +| Safety | 1.00 |