Update README.md

This commit is contained in:
MING_X 2024-04-21 17:32:11 +08:00 committed by GitHub
parent eced39fc81
commit 5ff2f955b8
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

View File

@ -68,4 +68,4 @@ Simhash相似性哈希是一种用于检测大量数据中相似或重复
### deduplicate.py用法 ### deduplicate.py用法
`deduplicate.py` 用于将datasets下以模型命名的文件夹下(例如:'datasets/qwen').json数据进行去重输出去重后的数据到 `datasets/qwen/dedup` 文件夹下。 `deduplicate.py` 用于将datasets中以模型命名的(例如:'datasets/qwen').json数据进行去重输出去重后的数据到 `datasets/qwen/dedup` 文件夹下。代码见 `datasets/processed` 文件夹。