Releases: patui/Nosub
Nosub1.0beta9.1
Nosub1.0beta9
[Beta]Nosub v1.0Beta9 Release Notes
主要更新的内容:优化波形图时间轴的性能和部分用户体验;
New Features
- 波形图时间轴操作更加流畅;
- 波形图字幕编辑,支持回车切割字幕的功能;(操作习惯同字幕编辑器)
- 字幕加载会有非常明显的速度提升;
- 增加全局快捷键F5(Media Play),控制视频播放/暂停;(New!!!)
Bug Fixes
- 修正时间轴查找算法,耗时从20毫秒降低到0毫秒;(重大优化,数据量越大优势越明显)
- 修复加载2小时以上字幕,等待超过1分钟的BUG;(Bug同上,严重)
- 修复时间轴上下文菜单导致的内存泄漏的问题;
- 修正AutoSplitSegment算法,可以根据上下文判断标点符号“.”的语境;
Behavior Changes
- 生成字幕的功能,会同时在原视频目录下拷贝一份SRT字幕(用户体验优化)
- 清理上个版本重构后的垃圾代码;(清理垃圾代码)
- cofingcore.json拼写错误,修正为configcore.json;(特别注意);
- 底部Tab,去掉2pX内间距;(界面优化)
- 默认填充字幕条从25条改为20条,并优化长度;(界面优化)
- 去掉菜单-编辑-打开配置文件菜单。(避免混淆,可以自行去程序目录设置)
Removed
Known issues
- 程序暂时没有适配高DPI,比如4K显示器;(等待后续版本更新)
如果遇到BUG,可以提交
issues
国内加速下载通道(密码:nosub)
蓝奏云-下载地址
Nosub1.0beta8
[Beta]Nosub v1.0Beta8 Release Notes
主要更新的内容:重构字幕编辑编辑器,支持最长100小时时长的视频(再加没有意义),显著提高字幕编辑器的加载速度和降低内存占用,卡顿等;
更新到Beta8新版的注意事项:
- 由于更改了配置文件,需要先备份之前版本的config.ini文件,重新在cofingcore.json设置语音引擎的配置,语音引擎和翻译引擎的配置,请参考cofingcore.json文件的格式;
- cofingcore.json只涉及到语音文件转写和字幕翻译引擎的设置,一句话语音保留在config.ini里面,无需更改;
- 由于重写了字幕编辑器,如果有用户习惯的问题,请慢慢适应或是暂时同时保留新版和以前的旧版本;
New Features
- 重构字幕编辑器;
- 增加字幕翻译功能,暂时只添加百度翻译引擎;(为防止请求超过百度限制API限制,保证翻译成功率,强制每次请求后休眠15S)
- 文件转写支持识别语言设置,和多账号;(识别语言和账号可扩展)
- 配置文件增加JSON方式;
- 播放器显示多行;(不再限制只能显示单行,临时解决方案)
Bug Fixes
- 修复语音识别队列,上一个识别任务失败后,后面的队列没有继续执行;(必现,严重)
- 修复打开非(视频/字幕)文件,视频播放器类在析构释放资源的时候会闪退(必现);
- 屏蔽拖动打开文件夹;(BUG同上)
- 修复讯飞语音识别因账号过期导致任务失败,没有提示的BUG;
- 修复SRT多行字幕的解析的BUG;(严重,没有认真看SRT的规则)
- 修复程序状态栏提示文本过长窗口过大的问题;
- 修复腾讯文件转写结果下一句的时间戳的开始时间在上一句字幕的前面的bug;(如果阿里,讯飞,百度遇到类似的问题,也一同修复了)
- 修复阿里云英文语音识别空格去掉的问题;
- 修复语音文件转字幕英文标点导致无法分割的问题;
- 修正语音转文件的AutoSplitSegment自动断句算法;(重要)
- 修正一句话语音识别的无法识别的问题;
- 修正视频/字幕文件名首尾包含空格,导致识别文件路径错误的问题;
AutoSplitSegment算法,
就是针对语音文件转字幕返回的结果做二次智能分割的算法;
Behavior Changes
- 默认不开启自动语音切割,长视频太耗时;(重大改动,速度优化)
- 语音转写任务管理列表增加右键菜单,方便复制信息;(用户体验优化)
- 语言识别,压制,翻译等任务列表只能单选;
Removed
Known issues
- 字幕编辑器依然不支持双语字幕的编辑与显示(暂时没有好的交互设计,UI/效率和功能的平衡,暂时以效率优先);
如果遇到BUG,可以提交
issues
国内加速下载通道(密码:nosub)推荐下载底部的github版本;
蓝奏云-下载地址
说明一下,一般Github版本会更加稳定,也会滞后几天,
Github的版本改动如下:
1.修复AutoSplitSegment算法无法区分小数点与英文句点的问题;
2.导出字幕,做了改动,会自动在原视频目录保存一份srt文件;(网友建议,个人觉得合理)
Nosub1.0beta7
[Beta]Nosub v1.0Beta7 Release Notes
主要更新的内容:新增语音文件转写功能(讯飞,阿里,腾讯,百度),即直接由讯飞/阿里/腾讯/百度等语音引擎生成字幕时间轴和字幕的功能;
New Features
- 新增讯飞语音文件转写功能。
- 新增阿里语音文件转写功能。
- 新增腾讯语音文件转写功能。
- 新增百度语音文件转写功能。
- 增加语气词过滤的功能;(只是过滤基本的“嗯”,“啊”,暂时不开放自定义过滤词)
- 导出MP3文件追加lite版本,文件大小远小于原来导出的MP3文件大小;
Bug Fixes
- 修正PCM转WAV格式,写文件丢失数据的问题;(严重,会导致Google语音识别不准确)
- 修正导出MP3部分视频音频时长不一致的问题;
- 修正【修改编辑-删除两端标点符号】的算法;
Behavior Changes
- 导出MP3文件增加本地缓存;(速度优化)
- 修改手动语音切分算法,字幕片段间隙从300ms修改为50ms;(实测说话语速比较快时,这样切分比较好)
- 语音识别增加确认对话框。(用户体验优化)
- 追加SRT/TEXT字幕文件,也支持拖动的操作;
- 视频播放器的时间显示,总是显示小时;
- 如果没有设置语音引擎(分片识别),"开始语音识别"按钮不可用;
- 保存的文本文档格式默认从utf-8变更为utf-8 with bom,主要防止其它软件读取变成乱码;(比如PR)
Removed
Known issues
语音引擎配置以及说明:(价格仅供参考,更新时间:2020年10月1日)
讯飞语音引擎:官网入口
- 每个开发者账号可领取5小时免费时长;
- 免费领取的5小时,有效期为1个月;
- 预付费模式:价格【3.5~8.8】元/小时;(各种时长包计算价格不同,具体价格可以参考官网)
- 5小时免费时间内不需要实名认证,购买语音付费包,需要实名认证;
- 计费模式和设置:最简单;
- 支持语言,中文,英文(可能后续会支持更多语言,具体以官网为准)
- 转写效果:非常好。
其中配置说明:
讯飞语音引擎:
[AsrIFlyEngine]
APPID=********
SecretKey=********
注:因为Beta8版本改为JSON配置,此方法已经失效,请下载最新版本,
如果实在个人无法解决问题,可以加Nosub官方的QQ群:870178887;
阿里云语音引擎:官网入口
- 新用户前3个月,每天2小时免费时长;
- 3个月之后转入后付费模式;
- 预付费模式:价格【0.9~1.2】元/小时;(各种时长包计算价格不同)
- 后付费模式:2.5元/小时;(具体价格可以参考官网)
- 需要开通音频对象存储服务(阿里云存储40GB/6元/年,可以不用阿里云,其它云存储也可以)
- 需要实名认证;
- 计费模式和设置:及其复杂,如果使用阿里云存储,还需要考虑存储和流量费用;
- 个人测试对粤语的支持比其它引擎要好;
- 支持语言,中文,英文,粤语,日语,韩语。。。等,(基本主流语言都支持,具体可以参考官网)
- 转写效果:效果一般,相对于讯飞;
其中配置说明:
阿里云语音识别引擎:
[AsrAliYunEngine]
AccessKeyId==********
AccessKeySecret==********
Appkey==********
阿里云对象存储OSS:
[ALiYunOSS]
AccessKeyId=********
AccessKeySecret=********
Endpoint=https://oss-cn-hangzhou.aliyuncs.com
BucketName=nosub-master-bucket
(特别注意:Endpoint可以不用改,BucketName必须改为自己的名称,
而且BucketName要和Endpoint一一对应,
因为阿里云的逻辑是Endpoint已经绑死了地理域名;
命名规则可以参考官网,不然会提示bucket已经存在,
阿里的逻辑是bucket的名称是全局唯一,
就是说我用nosub-master-bucket,
其他人就不能用了;)
个人建议:不要自己去设置仓库,程序会自动创建仓库,
普通用户只需要把BucketName名称换一下就可以了)
注:因为Beta8版本改为JSON配置,此方法已经失效,请下载最新版本,
如果实在个人无法解决问题,可以加Nosub官方的QQ群:870178887;
百度语音引擎:官网入口
- 每个开发者账号可领取10小时免费时长;
- 超过之后,转入后付费模式;
- 预付费模式:价格【0.6~1.2】元/小时;(各种时长包计算价格不同)
- 后付费模式:2元/小时;(具体价格可以参考官网)
- 需要开通音频对象存储(即需要有上传音频的存储空间)
- 计费模式和设置:同阿里云,需要考虑音频对象的存储和流量费用;
- 支持语言,中文,英文(可能后续会支持更多语言,具体以官网为准)
- 转写效果:效果一般,并非针对字幕场景(百度转写结果没有对字幕场景优化(没有返回分词信息),
并不是百度语音本身转写有问题,如果不做字幕,效果也是非常出色的)
其中配置说明:
百度语音引擎:
[AsrBaiduAIEngine]
APPID=********
APPKEY=********
APPSECRET=********
注:因为Beta8版本改为JSON配置,此方法已经失效,请下载最新版本,
如果实在个人无法解决问题,可以加Nosub官方的QQ群:870178887;
腾讯云语音引擎:官网入口
- 用户每月有10小时免费时长;
- 超过之后,转入后付费模式;
- 预付费模式:价格【0.7~1.5】元/小时;(各种时长包计算价格不同)
- 后付费模式:价格【0.95~1.75】元/小时;
- 需要实名认证;
- 接口本地上传文件限制小于5MB,如果超过5MB,需要自己开通对象存储服务;(个人认为比较良心)
- 计费模式和设置:相对简单;(音频5MB内,可以只需要支付语音识别的费用)
- 支持语言,中文,英语,粤语,日语,上海话等;(可能后续会支持更多语言,具体以官网为准)
- 个人测试对粤语的支持也非常出色;
- 转写效果:不比讯飞差,好于阿里云;(大大出乎开发者意外)
注:Nosub程序会自动判断音频文件是否大于5MB?
- 如果小于5MB,直接使用接口上传音频文件(免费),
- 如果大于5MB,检测是否设置了阿里云对象存储,如果有,使用阿里云的对象存储音频文件,如果没有提示任务失败;
- 特别说明:文件大小5MB并不是原始视频和音频的大小,是Nosub提取出符合对方识别要求的音频文件的大小,Nosub对音频大小已经优化;
其中配置说明:
腾讯云语音引擎:
[AsrTencentCloudEngine]
SecretId==********
SecretKey==********
注:因为Beta8版本改为JSON配置,此方法已经失效,请下载最新版本,
如果实在个人无法解决问题,可以加Nosub官方的QQ群:870178887;
关于语音引擎以及自动上字幕的QA问答:
1.语音引擎的预付费模式和后付费的区别?
预付费模式,就是预先购买语音时长包,
后付费模式,是先使用,然后付费,
预付费模式价格相对于便宜一点,
如果长期用户,推荐用预付费模式,如果只是偶尔用一下,可以考虑后付费
因为有后付费模式,所以大多数语音服务,要求你必须实名认证才能使用;
2.为什么阿里和百度等语音引擎,还需要单独开通对象存储服务,
而讯飞和腾讯云不需要?
语音识别的原理是,提取音频文件给服务器识别,
音频需要上传,存储,服务器需要存储成本,
阿里等,需要使用者自己承担这个费用,所以说腾讯比较良心,
而讯飞,把存储成本计算在了语音识别的费用里面了,
所以讯飞语音识别的价格高是有原因的,不仅仅是识别效果好;
3.为什么买了阿里的存储服务,还要担心流量费用?
存储费用只是存储文件的费用,流量是宽带的费用,
包括上传和下载流量,以及CDN等,
不同的套餐有一定的免费额度,超过免费流量需要收费,
具体可以参考官网;
4.为什么同样使用阿里云/腾讯/讯飞等语音引擎,Nosub的返回结果要好于其它软件?
音频文件识别转文字,本身不是专门为字幕而设计的,
还有的场景是会议记录的转写等场景,
所以这是一个通用的返回结果,
但是语音引擎提供了分词功能,
就是返回结果可以给出每一个字/词的时间,
但是需要开发者针对场景,自己对结果做二次计算,
Nosub针对字幕场景,对语音引擎的返回结果做了优化;
5.Nosub为什么暂时只支持阿里云对象存储OSS?
主要为了避免不同的语音引擎使用不同的对象存储服务,浪费,
比如阿里云和百度云的语音识别接口都要求自己提供对象存储服务,
不需要两个都单独开通,只需要开通一个,
比如阿里云,其它所有语音引擎都可以共同使用阿里云
6.这么多语音引擎,Nosub开发者推荐申请哪个?
普通用户,我个人推荐讯飞,然后是腾讯云,
讯飞设置最简单,识别效果也最好,而且收费比较单纯,
比如:不用考虑对象存储费用等,
腾讯云,因为识别效果比较好,而且价格极其公道,
设置稍微比讯飞复杂一点点,
阿里的收费以及配置都太复杂了,
百度语音暂时没有对字幕场景优化。
7.如果不想开通语音引擎,有其它的方法吗?
a.可以使用今日头条旗下的巨量创意Web平台;
b.网易见外工作台;
c.剪映,快影,必剪等APP;
d.我自己开发的另外一个软件SpeechJsonParser;
8.Nosub的开发者推荐的自动上字幕的方式?
根据个人的经验,推荐如下:
【免费】:剪映APP>快影APP>巨量创意Web>网易见外工作台;
【付费软件以及服务】:讯飞官方出品的【听见字幕】;
【付费的语音引擎】:腾讯云>讯飞语音>阿里云>百度
【极客用户】SpeechJsonParser插件
(百度语音引擎暂时没有针对字幕服务优化,期待百度后期的优化;)
9.SpeechJsonParser是什么软件?
一个专门用来导出剪映APP等生成的字幕为SRT文件的工具,
也是目前为止,所有自动上字幕方式中,
其中包括免费/付费,最好的上字幕方式,
是由Nosub的开发者,开发的一个群内专用的插件,
目前仅开放给Nosub QQ群的用户下载使用,
面向极客用户,此插件暂时不对外公开发布。
10.如果 要识别粤语,用哪个引擎好?
个人测试,阿里云语音,腾讯云引擎对粤语支持比较好。
SpeechJsonParser目前已经支持的平台:
a)剪映APP,b)快影APP,c)绘影APP
d)巨量创意Web平台;
Nosub官方QQ群:870178887
10大语音平台评测数据 密码:nosub
我个人评测了接近了10个自动生成字幕的平台,结论:
现在的中文语音识别技术已经足够出色;
阿里/讯飞/腾讯文件转写和讯飞官方的听见字幕基本没有区别,
和其它语音识别生成字幕的差别也几乎微乎其微;
如果遇到BUG,可以提交
issues
国内加速下载通道(密码:nosub)
蓝奏云-下载地址
Github下载链接,晚些时候补上。。。
Nosub1.0beta6
[Beta]Nosub v1.0Beta6 Release Notes
主要更新的内容:新增视频压制,输出有字幕的视频;
New Features
- 增加视频压制的功能,生成有字幕的视频
- 新增查看多媒体信息(MediaInfo);
- 支持导出音频文件。(MP3)
- 初步支持导出ASS字幕格式;
- 工具->支持导出电脑所有字体信息;(方便手动修改ASS字体)
- 导出字幕,新增支持导出纯文本;
- 支持并行任务,方便之后速度优化。(比如在导出字幕的时候,无论添加多少导出任务(ASS,SRT,TXT),都是秒导出)
Bug Fixes
- 修正上个版本有几率无法导出字幕的问题;(严重)
- 修正播放MKV因计算播放时长为负数,无法播放的问题;(推荐用MP4格式)(严重)
Behavior Changes
- PCM的提取和VAD检查支持本地缓存;(速度优化)
- 实时字幕快照,增加5秒的延迟时间,防止频繁的写入数据库;
- APP的工作线程和字幕快照线程彼此独立;
Removed
移除内置Google语音识别,用户依然可以在config.ini自行添加进来;去掉简体中文版,标题的QQ群信息;(保持软件简洁)
Known issues
- 底部波形图时间轴无法自由调整高度(暂时不会处理)
- 视频播放器拖动的时候,有几率底部出现白条。
自行添加回Google语音引擎的配置
[GoogleSpeechEngine]
app_key=AIzaSyBOti4mM-6x9WDnZIjIeyEU21OpBXqWBgw
language=zh
如果遇到BUG,可以提交
issues
国内加速下载通道(密码:nosub)
蓝奏云-下载地址
Nosub1.0beta5
Nosub1.0beta5更新啦。
此版本只是一个过渡版本,为了保证版本的迭代进度,临时发布了此版本,后面会逐渐深入优化速度和用户体验,敬请期待;
Add
- 增加字幕快照和实时字幕缓存功能(New)(确保即便闪退,也可以找回字幕)
Bugs Fix
- 修复解析SRT字幕,有空白行时,字幕解析错误,会导致部分时间轴不对;(严重)
- 修复字幕编辑框异步加载时,闪退的问题。(New,严重)
Adjust
- 优化视频加载流程,视频打开和语音切割分离,视频打开速度几乎秒开(速度优化)
- 任务栏可以点击啦,生成字幕后直接点击路径可以打开文件路径;(体验优化)
- 任务栏增加了文件名标识,同样可以点击打开;(体验优化)
友情提示:
- 从beta6开始,将去掉内置的Google语音识别,
- 用户依然可以通过手动配置,即只是不再程序内置,
- 希望用户谅解;
如果遇到BUG,可以提交
issues
国内加速下载通道(密码:c0ac)
蓝奏云-下载地址
Nosub1.0beta4
Nosub1.0beta4更新啦。
Add
- 播放器播放时,实时定位编辑器字幕块;
- 直接在时间轴上编辑字幕块;
- 界面直接添加语言引擎的语言设置(默认中文普通话,粤语,台语,粤语,韩语,日语);(优化用户体验)
Bugs Fix
- 解决导入非UTF-8格式文本乱码的问题,理论上现在已经支持所有中文编码,程序会自动识别;
- 港澳地区无法加载多国语言文件的BUG;(测试不认真)
- 修正底部时间轴垂直居中对齐的问题;
Adjust
- 播放器字幕的字体大小增1;(后期会加入设置)
- 有道语音识别新增韩语识别,并不再限制常用的识别语音;
去掉编辑-菜单定位到当前行功能。(因为已经有实时定位)
如果遇到BUG,可以提交issues
Nosub1.0beta3
Nosub1.0beta3 支持多国语言
Add:
正式支持多国语言
- 简体中文
- 英语
- 繁体中文(港澳)
- 繁体中文(台湾)
(启动自动识别,暂不支持自动调整)
++(不得不说QT支持多国语言很方便啊,如需要其它语言支持,可以请提交issues)++
Adjust:
- 暂时把显示的字幕长度限制在50个字;(仅在播放器显示有限制)
(减少内存占用)
- 删除字幕末尾标点符号调整为修改字幕两端的标点符号,也就是前后的标点符号都会被删除;
Nosub1.0beta2
Nosub1.0beta1
Nosub的1.0内测版本终于发布啦;
因为是内测版本,可能有闪退问题或是完全不可用的情况,
希望小白鼠们理解,如果遇到问题,或是有功能建议,
可以及时向开发者反馈;
- 支持打开音视频文件;
- 暂时只支持导入导出SRT字幕;
- 支持追加SRT字幕;
- 内置Google语音识别,同时支持自行添加有道,百度语音识别引擎;
如果遇到完全不能用的情况,请及时联系开发者哦