一键将音频转文本,快而准确

导入音频,云端加速识别,支持多语言与长音频。转录完成后可复制文本、导出与分享,效率翻倍。

  • 支持本地音频导入,自动提取音轨
  • 阿里云 DashScope / Fun‑ASR 云端识别,稳定快速
  • 可选 DeepSeek 文本润色,更通顺可读
  • 支持多语言,结果可复制、搜索与导出
应用首屏示意

核心功能

音频导入

支持从“文件”选择音频(m4a、mp3、wav 等),自动提取音轨进行识别。

云端加速识别

接入阿里云 DashScope / Fun‑ASR 服务,长音频稳定识别;也可根据需要替换/扩展其他引擎。

多语言与时间戳

自动识别多语言语音内容,支持长时段转录,并保留时间信息以便对照与定位。

复制与导出

一键复制转录文本,支持分享、导出,便于在文档、社媒或二次编辑中使用。

可选文本润色

对初稿进行 DeepSeek LLM 润色,提高可读性,保留语义与关键信息。

隐私与安全

仅在用户主动转录时将音频提供给云端;可使用私有 OSS 配置并通过签名 URL 访问。

如何使用

1. 导入

在应用中选择本地音频文件。

2. 转录

点击开始,云端完成识别;长音频也可稳定处理。

3. 导出

复制文本或分享导出;如需,可启用文本润色以提升可读性。

应用截图

应用界面截图 1 应用界面截图 2 应用界面截图 3

下载与获取

iOS

iOS 17+ 推荐。App Store 即将上线。

源码与文档

SwiftUI + Async/Await 架构,服务层解耦,便于替换 ASR 引擎与 OSS 配置。

  • 环境变量:DASHSCOPE_API_KEY、DEEPSEEK_API_KEY、OSS_*
  • 支持阿里云 OSS 私有或公有访问

提示:Fun‑ASR 录音文件识别需要公网或 OSS 可访问的 URL;本地文件需先上传后再发起转录。

常见问题

支持哪些音频格式?

常见音频:m4a、mp3、wav 等;自动提取音轨后再转录。

是否支持长音频与多语言?

支持。云端识别能够稳定处理较长音频,并自动识别多语言内容。

数据如何保护?会自动上传吗?

仅在您主动发起转录时,音频才会通过配置的云端服务进行识别。若使用 OSS 私有存储,将以签名 URL 方式限时访问。

文本润色是否强制?

不是。DeepSeek 润色是可选项,您可在未配置密钥时直接使用原始转录结果。