02
实时视觉语音 AI
南浔
Nanxun把手机摄像头、自动聆听和短语音回复组合成一个移动端现场 AI 伙伴。
StatusPublished
CreatedMay 2026
Medium移动端 AI 体验
Tech stackReact, Vite, Fastify, OpenAI, AWS App Runner, Netlify
LaunchVPN needed
01
设计上,南浔不是聊天框套摄像头,而是把摄像头本身变成产品表面。画面全屏铺开,回答面板只在有内容时出现,底部控制区保持轻量,让用户始终感觉自己在和一个看得见现场的人说话。
02
核心功能围绕自动聆听展开:前端持续管理摄像头、音量检测、录音、静音停止、转写、同步帧上传、AI 回答和 TTS 播放。用户不需要每轮重新按住说话,声音解锁和语音选择也被做成可持续复用的移动端流程。
03
独特性在于它把一个看似简单的“边看边聊”体验拆成了完整的生产链路:React/Vite 负责移动 PWA,Fastify API 处理 session、frame、transcribe、answer、observe 和 speech,后端部署在 AWS App Runner,前端部署到 Netlify,并保持 OpenAI key 只在服务端。
Highlights
What it explores
- 摄像头即界面
- 自动聆听与语音回复
- 前后端分离的视觉 AI 链路