Nosub1.0beta7
[Beta]Nosub v1.0Beta7 Release Notes
主要更新的内容:新增语音文件转写功能(讯飞,阿里,腾讯,百度),即直接由讯飞/阿里/腾讯/百度等语音引擎生成字幕时间轴和字幕的功能;
New Features
- 新增讯飞语音文件转写功能。
- 新增阿里语音文件转写功能。
- 新增腾讯语音文件转写功能。
- 新增百度语音文件转写功能。
- 增加语气词过滤的功能;(只是过滤基本的“嗯”,“啊”,暂时不开放自定义过滤词)
- 导出MP3文件追加lite版本,文件大小远小于原来导出的MP3文件大小;
Bug Fixes
- 修正PCM转WAV格式,写文件丢失数据的问题;(严重,会导致Google语音识别不准确)
- 修正导出MP3部分视频音频时长不一致的问题;
- 修正【修改编辑-删除两端标点符号】的算法;
Behavior Changes
- 导出MP3文件增加本地缓存;(速度优化)
- 修改手动语音切分算法,字幕片段间隙从300ms修改为50ms;(实测说话语速比较快时,这样切分比较好)
- 语音识别增加确认对话框。(用户体验优化)
- 追加SRT/TEXT字幕文件,也支持拖动的操作;
- 视频播放器的时间显示,总是显示小时;
- 如果没有设置语音引擎(分片识别),"开始语音识别"按钮不可用;
- 保存的文本文档格式默认从utf-8变更为utf-8 with bom,主要防止其它软件读取变成乱码;(比如PR)
Removed
Known issues
语音引擎配置以及说明:(价格仅供参考,更新时间:2020年10月1日)
讯飞语音引擎:官网入口
- 每个开发者账号可领取5小时免费时长;
- 免费领取的5小时,有效期为1个月;
- 预付费模式:价格【3.5~8.8】元/小时;(各种时长包计算价格不同,具体价格可以参考官网)
- 5小时免费时间内不需要实名认证,购买语音付费包,需要实名认证;
- 计费模式和设置:最简单;
- 支持语言,中文,英文(可能后续会支持更多语言,具体以官网为准)
- 转写效果:非常好。
其中配置说明:
讯飞语音引擎:
[AsrIFlyEngine]
APPID=********
SecretKey=********
注:因为Beta8版本改为JSON配置,此方法已经失效,请下载最新版本,
如果实在个人无法解决问题,可以加Nosub官方的QQ群:870178887;
阿里云语音引擎:官网入口
- 新用户前3个月,每天2小时免费时长;
- 3个月之后转入后付费模式;
- 预付费模式:价格【0.9~1.2】元/小时;(各种时长包计算价格不同)
- 后付费模式:2.5元/小时;(具体价格可以参考官网)
- 需要开通音频对象存储服务(阿里云存储40GB/6元/年,可以不用阿里云,其它云存储也可以)
- 需要实名认证;
- 计费模式和设置:及其复杂,如果使用阿里云存储,还需要考虑存储和流量费用;
- 个人测试对粤语的支持比其它引擎要好;
- 支持语言,中文,英文,粤语,日语,韩语。。。等,(基本主流语言都支持,具体可以参考官网)
- 转写效果:效果一般,相对于讯飞;
其中配置说明:
阿里云语音识别引擎:
[AsrAliYunEngine]
AccessKeyId==********
AccessKeySecret==********
Appkey==********
阿里云对象存储OSS:
[ALiYunOSS]
AccessKeyId=********
AccessKeySecret=********
Endpoint=https://oss-cn-hangzhou.aliyuncs.com
BucketName=nosub-master-bucket
(特别注意:Endpoint可以不用改,BucketName必须改为自己的名称,
而且BucketName要和Endpoint一一对应,
因为阿里云的逻辑是Endpoint已经绑死了地理域名;
命名规则可以参考官网,不然会提示bucket已经存在,
阿里的逻辑是bucket的名称是全局唯一,
就是说我用nosub-master-bucket,
其他人就不能用了;)
个人建议:不要自己去设置仓库,程序会自动创建仓库,
普通用户只需要把BucketName名称换一下就可以了)
注:因为Beta8版本改为JSON配置,此方法已经失效,请下载最新版本,
如果实在个人无法解决问题,可以加Nosub官方的QQ群:870178887;
百度语音引擎:官网入口
- 每个开发者账号可领取10小时免费时长;
- 超过之后,转入后付费模式;
- 预付费模式:价格【0.6~1.2】元/小时;(各种时长包计算价格不同)
- 后付费模式:2元/小时;(具体价格可以参考官网)
- 需要开通音频对象存储(即需要有上传音频的存储空间)
- 计费模式和设置:同阿里云,需要考虑音频对象的存储和流量费用;
- 支持语言,中文,英文(可能后续会支持更多语言,具体以官网为准)
- 转写效果:效果一般,并非针对字幕场景(百度转写结果没有对字幕场景优化(没有返回分词信息),
并不是百度语音本身转写有问题,如果不做字幕,效果也是非常出色的)
其中配置说明:
百度语音引擎:
[AsrBaiduAIEngine]
APPID=********
APPKEY=********
APPSECRET=********
注:因为Beta8版本改为JSON配置,此方法已经失效,请下载最新版本,
如果实在个人无法解决问题,可以加Nosub官方的QQ群:870178887;
腾讯云语音引擎:官网入口
- 用户每月有10小时免费时长;
- 超过之后,转入后付费模式;
- 预付费模式:价格【0.7~1.5】元/小时;(各种时长包计算价格不同)
- 后付费模式:价格【0.95~1.75】元/小时;
- 需要实名认证;
- 接口本地上传文件限制小于5MB,如果超过5MB,需要自己开通对象存储服务;(个人认为比较良心)
- 计费模式和设置:相对简单;(音频5MB内,可以只需要支付语音识别的费用)
- 支持语言,中文,英语,粤语,日语,上海话等;(可能后续会支持更多语言,具体以官网为准)
- 个人测试对粤语的支持也非常出色;
- 转写效果:不比讯飞差,好于阿里云;(大大出乎开发者意外)
注:Nosub程序会自动判断音频文件是否大于5MB?
- 如果小于5MB,直接使用接口上传音频文件(免费),
- 如果大于5MB,检测是否设置了阿里云对象存储,如果有,使用阿里云的对象存储音频文件,如果没有提示任务失败;
- 特别说明:文件大小5MB并不是原始视频和音频的大小,是Nosub提取出符合对方识别要求的音频文件的大小,Nosub对音频大小已经优化;
其中配置说明:
腾讯云语音引擎:
[AsrTencentCloudEngine]
SecretId==********
SecretKey==********
注:因为Beta8版本改为JSON配置,此方法已经失效,请下载最新版本,
如果实在个人无法解决问题,可以加Nosub官方的QQ群:870178887;
关于语音引擎以及自动上字幕的QA问答:
1.语音引擎的预付费模式和后付费的区别?
预付费模式,就是预先购买语音时长包,
后付费模式,是先使用,然后付费,
预付费模式价格相对于便宜一点,
如果长期用户,推荐用预付费模式,如果只是偶尔用一下,可以考虑后付费
因为有后付费模式,所以大多数语音服务,要求你必须实名认证才能使用;
2.为什么阿里和百度等语音引擎,还需要单独开通对象存储服务,
而讯飞和腾讯云不需要?
语音识别的原理是,提取音频文件给服务器识别,
音频需要上传,存储,服务器需要存储成本,
阿里等,需要使用者自己承担这个费用,所以说腾讯比较良心,
而讯飞,把存储成本计算在了语音识别的费用里面了,
所以讯飞语音识别的价格高是有原因的,不仅仅是识别效果好;
3.为什么买了阿里的存储服务,还要担心流量费用?
存储费用只是存储文件的费用,流量是宽带的费用,
包括上传和下载流量,以及CDN等,
不同的套餐有一定的免费额度,超过免费流量需要收费,
具体可以参考官网;
4.为什么同样使用阿里云/腾讯/讯飞等语音引擎,Nosub的返回结果要好于其它软件?
音频文件识别转文字,本身不是专门为字幕而设计的,
还有的场景是会议记录的转写等场景,
所以这是一个通用的返回结果,
但是语音引擎提供了分词功能,
就是返回结果可以给出每一个字/词的时间,
但是需要开发者针对场景,自己对结果做二次计算,
Nosub针对字幕场景,对语音引擎的返回结果做了优化;
5.Nosub为什么暂时只支持阿里云对象存储OSS?
主要为了避免不同的语音引擎使用不同的对象存储服务,浪费,
比如阿里云和百度云的语音识别接口都要求自己提供对象存储服务,
不需要两个都单独开通,只需要开通一个,
比如阿里云,其它所有语音引擎都可以共同使用阿里云
6.这么多语音引擎,Nosub开发者推荐申请哪个?
普通用户,我个人推荐讯飞,然后是腾讯云,
讯飞设置最简单,识别效果也最好,而且收费比较单纯,
比如:不用考虑对象存储费用等,
腾讯云,因为识别效果比较好,而且价格极其公道,
设置稍微比讯飞复杂一点点,
阿里的收费以及配置都太复杂了,
百度语音暂时没有对字幕场景优化。
7.如果不想开通语音引擎,有其它的方法吗?
a.可以使用今日头条旗下的巨量创意Web平台;
b.网易见外工作台;
c.剪映,快影,必剪等APP;
d.我自己开发的另外一个软件SpeechJsonParser;
8.Nosub的开发者推荐的自动上字幕的方式?
根据个人的经验,推荐如下:
【免费】:剪映APP>快影APP>巨量创意Web>网易见外工作台;
【付费软件以及服务】:讯飞官方出品的【听见字幕】;
【付费的语音引擎】:腾讯云>讯飞语音>阿里云>百度
【极客用户】SpeechJsonParser插件
(百度语音引擎暂时没有针对字幕服务优化,期待百度后期的优化;)
9.SpeechJsonParser是什么软件?
一个专门用来导出剪映APP等生成的字幕为SRT文件的工具,
也是目前为止,所有自动上字幕方式中,
其中包括免费/付费,最好的上字幕方式,
是由Nosub的开发者,开发的一个群内专用的插件,
目前仅开放给Nosub QQ群的用户下载使用,
面向极客用户,此插件暂时不对外公开发布。
10.如果 要识别粤语,用哪个引擎好?
个人测试,阿里云语音,腾讯云引擎对粤语支持比较好。
SpeechJsonParser目前已经支持的平台:
a)剪映APP,b)快影APP,c)绘影APP
d)巨量创意Web平台;
Nosub官方QQ群:870178887
10大语音平台评测数据 密码:nosub
我个人评测了接近了10个自动生成字幕的平台,结论:
现在的中文语音识别技术已经足够出色;
阿里/讯飞/腾讯文件转写和讯飞官方的听见字幕基本没有区别,
和其它语音识别生成字幕的差别也几乎微乎其微;
如果遇到BUG,可以提交
issues
国内加速下载通道(密码:nosub)
蓝奏云-下载地址
Github下载链接,晚些时候补上。。。