AI超强语音转文本SenseVoice，本地化部署教程！

模型介绍

SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测

多语言识别： 采用超过40万小时数据训练，支持超过50种语言，识别效果上优于Whisper模型。
富文本识别：
- 具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。
- 支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
高效推理： SenseVoice-Small模型采用非自回归端到端框架，推理延迟极低，10s音频推理仅耗时70ms，15倍优于Whisper-Large。
微调定制： 具备便捷的微调脚本与策略，方便用户根据业务场景修复长尾样本问题。

SenseVoice在线预览链接

SenseVoice 在线预览：https://www.modelscope.cn/studios/iic/SenseVoice

本地化部署

这里使用autodl 机器学习平台，官网地址：https://www.autodl.com/market/list

直接到算力市场，选择按量计费，地区随便选择一个，这里使用4090显卡。

如图选择PyTorch 版本，最后点击创建。

创建好以后就来到了控制台，点击AutoPanel 面板，设置默认为清华源。

点击选择清华源，因为清华源下载依赖包比较快。

接着回到控制台，点击进入JupyterLab。

进入到autodl-tmp 目录下，然后打开终端。

然后克隆项目，输入如下命令：

git clone https://github.com/FunAudioLLM/SenseVoice.git

如果提示网络超时等，输入如下命令，完了重新拉取代码就好。

source /etc/network_turbo

继续打开一个笔记本，下载模型。

键入如下代码后运行：

!pip install modelscope

继续键入如下代码下载模型：

from modelscope.hub.snapshot_download import snapshot_download

model_dir = snapshot_download("iic/SenseVoiceSmall", cache_dir='ai_models')
print(model_dir)
model_dir = snapshot_download("iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", cache_dir='ai_models')
print(model_dir)

出现进度条说明模型开始下载了。

然后回到终端，进入SenseVoice目录。

cd SenseVoice/

创建虚拟环境

# 创建一个名为venv 的虚拟环境。
python -m venv venv

接着激活虚拟环境。

 source ./venv/bin/activate

安装依赖

 pip install -r requirements.txt

安装好依赖以后，我们更新pip

pip install --upgrade pip

VsCode 远程连接

回到控制台，复制ssh配置。

打开Vsocode，远程连接。

粘贴登录信息

选择第一个默认配置。

选择第一个链接。

复制密码

粘贴密码

接着打开文件夹，选择/root/autodl-tmp/

选择信任

点击打开终端

接着激活虚拟环境。

 source ./venv/bin/activate

接着回到笔记本模型哪里，复制下载的模型路径。

回到VsCode ，编辑SenseVoice/webui.py,设置模型的路径为如下：

最后，见证奇迹的时候到了，运行我们的Python代码。

 python webui.py

选择在浏览器打开。

接着，就可以快乐的玩耍了。

当我们上传音频时遇到了错误如下错误：

针对安装ffmpeg时遇到的问题,按以下步骤操作:

首先更新软件包列表:

sudo apt update

如果更新后仍无法安装,可能需要添加universe仓库:

sudo add-apt-repository universe
sudo apt update

然后再次尝试安装ffmpeg:

sudo apt install ffmpeg -y

如果还是不行,可能是ffmpeg所在的仓库没有启用。那么可以尝试:

启用multiverse仓库:

sudo add-apt-repository multiverse
sudo apt update

安装ffmpeg:

sudo apt install ffmpeg

本文由博客一文多发平台 OpenWrite 发布！

AI超强语音转文本SenseVoice，本地化部署教程！

模型介绍

SenseVoice在线预览链接

本地化部署

VsCode 远程连接

创建一个SpringBoot项目，实现简单的CRUD功能和分页查询

全网最适合入门的面向对象编程教程：45 Python 实现常见数据结构-链表、树、哈希表、图和堆

发表评论点击这里取消回复。

猜你喜欢

剑指 Offer 06. 从尾到头打印链表

WebKit三件套(1)：WebKit之WebCore篇

py教学之字符串处理·····

为什么sleeping的会话会造成阻塞

C++ Qt开发：TableWidget表格组件

Xpath获取指定元素相邻的不被标签括起来的文本

一个99年菜鸟研究生的疫情三年

8 最全的零基础Flask教程

解耦利器 – Java中的SPI机制

Gin 路由注册与请求参数获取

热门浏览

编译打包自己的云手机(redroid)镜像

【Playwright+Python】系列教程（一）环境搭建及脚本录制

Nuxt3 的生命周期和钩子函数（二）

kong网关部署

欧拉系统初体验与编译安装FFmpeg的过程记录

热评文章

阿里也出手了！Spring CloudAlibaba AI问世了

【爬虫软件】批量爬取YouTube关键词搜索结果，官方API实现！

AI辅助编程1开发人员的新世界

网络诊断工具iPerf的使用

PHP 程序员转 Go 语言的经历分享

热门标签

AI超强语音转文本SenseVoice，本地化部署教程！

模型介绍

SenseVoice在线预览链接

本地化部署

VsCode 远程连接

创建一个SpringBoot项目，实现简单的CRUD功能和分页查询

全网最适合入门的面向对象编程教程：45 Python 实现常见数据结构-链表、树、哈希表、图和堆

猜你喜欢

AI证件照，抠图、换背景、任意尺寸…有了这个神器,证件照通通自己搞定（本地化部署教程）

Go语言中的交互式CLI开发：survey库简介

浅触go中的单元测试

[golang]查询ssl证书剩余有效天数并邮件提醒

go.uber.org/ratelimit 源码分析

“就是打一打”清华程思元打出百度之星20年史上罕见两连冠

发表评论 点击这里取消回复。

猜你喜欢

剑指 Offer 06. 从尾到头打印链表

热门浏览

编译打包自己的云手机(redroid)镜像

【Playwright+Python】系列教程（一）环境搭建及脚本录制

Nuxt3 的生命周期和钩子函数（二）

kong网关部署

欧拉系统初体验与编译安装FFmpeg的过程记录

热评文章

阿里也出手了！Spring CloudAlibaba AI问世了

【爬虫软件】批量爬取YouTube关键词搜索结果，官方API实现！

AI辅助编程1开发人员的新世界

网络诊断工具iPerf的使用

PHP 程序员转 Go 语言的经历分享

热门标签

关注我们的公众号

发表评论点击这里取消回复。