Update README.md
This commit is contained in:
parent
eced39fc81
commit
5ff2f955b8
@ -68,4 +68,4 @@ Simhash(相似性哈希)是一种用于检测大量数据中相似或重复
|
|||||||
|
|
||||||
### deduplicate.py用法
|
### deduplicate.py用法
|
||||||
|
|
||||||
`deduplicate.py` 用于将datasets下以模型命名的文件夹下(例如:'datasets/qwen').json数据进行去重,输出去重后的数据到 `datasets/qwen/dedup` 文件夹下。
|
`deduplicate.py` 用于将datasets中以模型命名的(例如:'datasets/qwen').json数据进行去重,输出去重后的数据到 `datasets/qwen/dedup` 文件夹下。代码见 `datasets/processed` 文件夹。
|
||||||
|
Loading…
Reference in New Issue
Block a user