开口说话,
文字自动输入

按下热键,说话,松开。300+ 字/分钟,5 倍打字速度,自动输入任意窗口保护你的腱鞘和身心,更快进入心流与工作状态

语音输入进行中
按下热键,开口说话
Ctrl + Shift + V
实时转写
ASR 流式识别
AI 优化可选
润色 · 翻译 · 格式化
输出到窗口
粘贴 · 模拟键入

利用豆包、阿里云等免费 ASR 额度,日常使用基本零成本

核心功能

为重度文字工作者
精心打造

面向每天需要向 AI 输出大量文字的超级个体、独立开发者和内容创作者

速度

5 倍打字速度,最高可达 10 倍

语音输入 300+ 字/分钟,减少思考延迟时可达 10 倍以上,需要良好的麦克风环境支持

SpeakIn 语音输入300+ 字/分
快速打字80 字/分
普通打字50 字/分
体验

系统级悬浮窗,全程不切窗口

实时转写内容显示在屏幕底部透明悬浮层,文字完成后自动输入焦点窗口

操作

全局热键,两种录音模式

切换模式和按住模式各有适用场景,支持自定义热键

默认热键
Ctrl+Shift+V

适合长段口述,说完整的想法后手动停止

1按下热键 → 开始录音
2说话中…(悬浮窗实时显示)
3再按热键 → 停止并输入
智能

VAD 静音过滤,省 API 用量

本地语音活动检测过滤环境噪音,只发送有效语音

语音(发送 ASR)静音(VAD 过滤)

环境噪音不发送云端,节省 API 用量,连续静音 6 秒自动停止

隐私

不收集任何用户数据

录音仅本地处理后发送至你选择的 ASR 服务商,密钥存于系统密钥链

录音数据仅本地处理,不存储
用户数据不收集,不上传
API 密钥系统密钥链加密存储
输出

三种输出方式,兼容一切场景

模拟键入、粘贴输入或仅显示,自动复制到剪贴板

像真人打字一样逐字输入,对所有输入框都有效,包括不支持粘贴的场景

演示视频

眼见为实

三个真实场景录屏,展示 SpeakIn 从语音输入到 AI 优化输出的完整流程。

中文技术输入

中文口语描述需求,AI 结构化后直接输入到 Claude / Cursor

中文口语AI 结构化开发场景
其他演示
工作流

从说话到输入,
四步完成

全局热键呼出,语音实时转写,AI 可选优化,文字自动输入——全程不切窗口。

01
说话

按下全局热键,对着麦克风说出你的想法

02
识别

ASR 引擎实时流式转写,延迟极低

03
优化

可选经过 AI 润色、翻译或格式化

04
输入

文字自动输入到当前焦点窗口

口语输入

嗯帮我写一个用户注册的接口吧,要有参数校验和错误处理

AI 优化输出
Prompt 结构化

请实现一个用户注册 API 接口,要求:1) 接收 username、email、password 参数;2) 参数校验(邮箱格式、密码强度);3) 统一错误响应格式。

Git Commit

feat(auth): add user registration endpoint with validation

AI 优化

22 种提示词模板,
覆盖所有场景

ASR 识别完成后,可选送入 AI 做二次处理。口述需求直接变成结构化 Prompt、Git Commit、技术文档——用任意 OpenAI 兼容 API。

润色AI 对话翻译开发者内容创作沟通
文本润色
润色
保守优化:只做减法,去除语音噪声,不添加原文中不存在的内容、观点或推断,还原说话人本来想写的文字
口语转日常
润色
把口语化的语音转写变成自然流畅的日常书面表达,读起来像正常人在微信、飞书、文档里随手写的文字,保留说话人的个人语气和用词习惯
Prompt 结构化
AI 对话
把口述的松散想法整理成结构清晰、意图明确的 AI Prompt,可直接粘贴到 Claude、ChatGPT、Cursor 等工具。重组表达结构,不编造原文中没有的背景或细节
需求描述
AI 对话
把口述的模糊想法整理成清晰的需求描述,可直接发给 AI 编程工具或写入项目文档。整理的是已说出来的需求,不替用户做需求分析
英文翻译(日常)
翻译
把中文口述重新用英语表达出来,像一个英语母语者自然写出的文字,而非逐字翻译。语气、情绪、用词习惯都会对应还原,去除 ASR 口语噪声
英文翻译(技术)
翻译
将中文技术内容翻译为精准、规范的专业英文,适合 GitHub issue、技术文档、API 注释、商务邮件等正式场合,零信息损失,零信息添加
Git Commit Message
开发者
把口述的代码改动整理成符合 Conventional Commits 规范的 commit message,包含 type、scope、简短描述和必要的 body 说明
代码注释
开发者
把口述的函数逻辑、设计思路或实现说明转换为规范的代码注释,可直接粘贴到代码文件。注释解释用户口述的内容,不添加用户没有提到的实现细节
社交媒体帖子
内容创作
把口述的想法转换成有钩子、有节奏、适合在小红书/即刻/微博/Twitter 信息流中被刷到的短内容。保留说话人的核心观点,优化表达方式和呈现节奏,不替说话人发表新观点
长文博客
内容创作
把口述的思路整理成逻辑通顺、表达清晰的长文段落,适合公众号、个人博客、知乎专栏。保留说话人所有观点、论据、案例,重新组织而非重新创作
工作邮件
沟通
把口述的来龙去脉整理成语气得体、逻辑清晰的工作邮件正文,可直接粘贴到邮件编辑器。只输出正文内容,不加称呼、落款、签名等模板元素
即时消息
沟通
把口述的一段话精简成适合飞书、微信、钉钉的短消息,去掉铺垫和赘词,保留所有关键信息和诉求,让对方用最短时间抓住重点
为什么 SpeakIn

数字说明一切

0+
字/分钟
是普通打字速度的 4-5 倍
0
内置提示词模板
润色、翻译、开发、创作场景全覆盖
0
日常使用成本
利用豆包、阿里云免费 ASR 额度
0
ASR 供应商可选
豆包 / 百炼 Paraformer / 千问 Qwen3
每天向 Claude / Cursor 输出 3000 字
60 分钟
打字输入
10 分钟
语音输入(SpeakIn)
每天省下的时间
省 50 分钟/天
一年减少约 300 小时的打字时间,同时保护腱鞘和颈椎
健康与效率的科学依据
64%
重复性劳损(RSI)风险

OSHA 数据显示,长期高频键盘使用者中约 64% 出现手腕、手指相关的重复性劳损症状。语音输入将击键次数降至接近零,从根源上减轻手部负担

来源:U.S. OSHA Ergonomic Guidelines for Computer Workstations

3x
口述 vs 打字的思维流畅度

斯坦福大学 HCI 实验室研究证实语音输入速度约为键盘打字的 3 倍,在桌面端同样适用。口述时大脑无需分配注意力给拼写和按键,更容易维持连贯的思维链和心流状态

来源:Ruan et al., “Speech Is 3x Faster than Typing for English and Mandarin Text Entry on Mobile Devices”, Stanford HCI, 2018

60%
颈椎前屈负荷降低

头部前倾 15° 时颈椎承受约 12kg 负荷,45° 时增至 22kg 以上。语音输入允许用户保持自然头部姿势,减少约 60% 的低头打字时间,长期降低颈椎退行性病变风险

来源:Hansraj, K.K., “Assessment of Stresses in the Cervical Spine Caused by Posture and Position of the Head”, Surgical Technology International, 2014

为什么语音输入有助于进入心流? — 心理学家 Mihaly Csikszentmihalyi 的心流理论指出,心流状态需要“行动与意识的合一”。打字时大脑需要同时处理内容组织、拼写校对和手指协调,多任务切换打断了思维连贯性。语音输入消除了物理输入的认知负担,让你的注意力完全集中在“说什么”而非“怎么输入”——这正是心流产生的条件

Windows 10 / 11

开始用声音
驱动你的工作流

SpeakIn 免费下载,使用你自己的 ASR API Key,日常用量基本零成本

免费下载,无需账号
自带 API Key,数据完全自主
不收集任何用户数据