年翻更新

🌟Fay-助理版

1、 优化文字沟通接口的流式输出逻辑

-- fay的文字沟通接口,按标点符号切割并通过http stream返回,这样做语音合成时,能够完整处理每个断句的语音情绪。

2、 去掉内置ngrok.cc内网穿透代码

-- ngrok内网穿透可以让普通pc当作服务器使用,让移动端或者智能设备随时与fay通讯。如需继续使用可以外部启动ngrok或者其他穿透客户端,效果是一样的。

3、优化ASR处理速度

-- VAD(语音活动检测)时间由700ms减小到200ms,可以降低fay识别到我们已经说完一句话的时间,从而让fay更快作出响应

4、优化TTS速度

-- azure不使用ssml明显加速,使用azure tts平均时间可以减小700ms以上

-- 修复本地播放完声音再发送音频给数字人的bug,可以让面板播放音频更快让数字人作出响应(虽然不太可能本地播放和数字人播放同时使用)

-- 语音合成之前替换掉“*”,这是大语言模型经常作出的返回,非常影响语音合成的用户体验

5、优化Q&A文件的应用逻辑

-- 文件格式由excel更换成csv,可以更好兼容linux环境

-- 配置上Q&A文件之后会自动缓存大语言模型回复,相同对话的回复时间可以降到1ms以下

-- csv的第3列可以配置执行脚本,可以实现RPA操作或对智能硬件的控制

6、完善是否做语音合成的逻辑

-- 只有在需要发送远程音频或者发送给数字人或者面板播放时才合成音频,避免资源的浪费

7、修正多用户同时与fay聊天时qa日志有可能混乱的问题

8、 修复fay_core.py上的变量(usernmae)错识导致的远程音频传输出错

9、修复pygame init时无扬声器导致出错

10、去掉面板出现了"完成!"、“远程音频设备连接上”、“远程音频输入输出设备已经断开”、“服务已关闭!”等不必要的日志信息

🌟Fay-UE5:

- 5.4工程,与fay的对接方式更新为流式对接

--会从fay小段文字接收然后做tts处理,这样可以更快速作出响应。
This commit is contained in:
guo zebin 2024-10-09 17:52:15 +08:00
parent 5349d500c7
commit 9e44d08127

107
README.md
View File

@ -7,108 +7,73 @@
如果你需要是一个线上线下的销售员,请移步[`带货完整版`](https://github.com/TheRamU/Fay/tree/fay-sales-edition)
如果你需要的是一个人机交互的数字人助理(当然,你也可以命令它开关设备),请移步 [`助理完整版`](https://github.com/TheRamU/Fay/tree/fay-assistant-edition)
如果你需要的是一个人机交互的数字人助理(当然,你也可以命令它开关设备)或者需要把数字人集成到你的产品上,请移步 [`助理完整版`](https://github.com/TheRamU/Fay/tree/fay-assistant-edition)
如果你需要是一个可以自主决策、主动联系主人的agent请移步[`agent版`](https://github.com/TheRamU/Fay/tree/fay-agent-edition)
框架文档https://qqk9ntwbcit.feishu.cn/wiki/space/7321626901586411523
如果你需要是一个线上线下的销售员,请移步[`带货完整版`](https://github.com/TheRamU/Fay/tree/fay-sales-edition)
使用文档https://qqk9ntwbcit.feishu.cn/wiki/space/7321626901586411523
“用数字人去改变成熟传统软件的交互逻辑”
Fay数字人2024.09.25更新:
Fay数字人2024.10.09更新:
🌟Fay-助理版:
🌟Fay-助理版
- 重写日志系统适配多用户逻辑下的panel、数字人端、控制台和文件补充年月日信息。
- 提高代码可读性整理代码目录区分llm、tts、asr。
- 修复ui显示的远程音频连接状态不更新问题。
- fay对旧版ue兼容性修复。
- 更新metahuman-stream的对接方式https://qqk9ntwbcit.feishu.cn/wiki/Ik1kwO9X5iilnGkFwRhcnmtvn3e
- 修复web模式读取控制台输入出错bug
- 灵聚nlp接口升级支持多用户对接
- gpt nlp接口prompt部分接入数字人个人信息并取消个人信息直接命中匹配
- coze nlp升级到v3接口
Fay数字人2024.09.19更新:
1、 优化文字沟通接口的流式输出逻辑
🌟Fay-助理版:
-- fay的文字沟通接口按标点符号切割并通过http stream返回这样做语音合成时能够完整处理每个断句的语音情绪。
- 代码重构:标准化了交互代码、提高了可阅读性、删除了多余代码
- 数字人接口多路并发接入支持、按用户路由支持、提高了反应速度、使用http音频地址、优化连接状态的判断逻辑
- 远程音频接口:多路并发接入支持、按用户路由支持、单向传输支持、提高了速度、优化连接状态的判断逻辑
- 文字沟通接口:多路并发接入支持、按用户路由支持
- ui接口多路并发接入支持、按用户路由支持
- 速度提升azure tts省去音频转换时间由轮询交互机制更换成直接交互机制提高了音频读取速度去掉所有不必要的sleep阻塞方法都使用单独线程或协程。
- 明确声音输出逻辑:远程音频接口是否回送依据接口参数要求;数字人接口是否推送依据接口是否被连接;本机是否播放依据本机播放声音开关是否打开。
- 3.12兼容性修复websocket工具类把协程转换成任务pyqt5更换版本。
- asr多路并发支持
- nlp多路并发支持
- tts多路并发本来就支持
- 修复python远程音频demo变态声音问题
- 修复命中qa的判断逻辑
- 增加控制台退出进程命令exit
- 优化拾音逻辑:只有在展板播放并且没有使用唤醒功能时才会停止拾音
2、 去掉内置ngrok.cc内网穿透代码
Fay数字人2024.09.11更新:
-- ngrok内网穿透可以让普通pc当作服务器使用让移动端或者智能设备随时与fay通讯。如需继续使用可以外部启动ngrok或者其他穿透客户端效果是一样的。
🌟Fay-助理版:
3、优化ASR处理速度
1、删除多余文件datas、ppn
-- VAD语音活动检测时间由700ms减小到200ms可以降低fay识别到我们已经说完一句话的时间从而让fay更快作出响应
2、修改readme图片路径
4、优化TTS速度
3、补充注释
-- azure不使用ssml明显加速使用azure tts平均时间可以减小700ms以上
4、删除多余代码
-- 修复本地播放完声音再发送音频给数字人的bug可以让面板播放音频更快让数字人作出响应虽然不太可能本地播放和数字人播放同时使用
5、docker文件整理
-- 语音合成之前替换掉“*”,这是大语言模型经常作出的返回,非常影响语音合成的用户体验
6、http验证文件修改
5、优化Q&A文件的应用逻辑
7、优化音频处理时间。
-- 文件格式由excel更换成csv可以更好兼容linux环境
Fay数字人2024.09.04更新:
-- 配置上Q&A文件之后会自动缓存大语言模型回复相同对话的回复时间可以降到1ms以下
🌟Fay-助理版&带货版&agent版
-- csv的第3列可以配置执行脚本可以实现RPA操作或对智能硬件的控制
1、websocket服务端连接优化
6、完善是否做语音合成的逻辑
2、接入gptsovits v3接口。
-- 只有在需要发送远程音频或者发送给数字人或者面板播放时才合成音频,避免资源的浪费
🌟Fay-UE5.4
7、修正多用户同时与fay聊天时qa日志有可能混乱的问题
1、解决插件AZSpeech在5.4SoundWave无法播放问题;
8、 修复fay_core.py上的变量usernmae错识导致的远程音频传输出错
2、支持连接网页端。
9、修复pygame init时无扬声器导致出错
10、去掉面板出现了"完成!"、“远程音频设备连接上”、“远程音频输入输出设备已经断开”、“服务已关闭!”等不必要的日志信息
🌟Fay-UE5
- 5.4工程与fay的对接方式更新为流式对接
--会从fay小段文字接收然后做tts处理这样可以更快速作出响应。
更多https://qqk9ntwbcit.feishu.cn/wiki/UlbZwfAXgiKSquk52AkcibhHngg
更多更新日志https://qqk9ntwbcit.feishu.cn/wiki/UlbZwfAXgiKSquk52AkcibhHngg
联系我们,请关注微信公众号 Fay数字人