实时视觉语音 AI

南浔

Nanxun

把手机摄像头、自动聆听和短语音回复组合成一个移动端现场 AI 伙伴。

StatusPublished

CreatedMay 2026

Medium移动端 AI 体验

Tech stackReact, Vite, Fastify, OpenAI, AWS App Runner, Netlify

LaunchVPN needed

设计上，南浔不是聊天框套摄像头，而是把摄像头本身变成产品表面。画面全屏铺开，回答面板只在有内容时出现，底部控制区保持轻量，让用户始终感觉自己在和一个看得见现场的人说话。

核心功能围绕自动聆听展开：前端持续管理摄像头、音量检测、录音、静音停止、转写、同步帧上传、AI 回答和 TTS 播放。用户不需要每轮重新按住说话，声音解锁和语音选择也被做成可持续复用的移动端流程。

独特性在于它把一个看似简单的“边看边聊”体验拆成了完整的生产链路：React/Vite 负责移动 PWA，Fastify API 处理 session、frame、transcribe、answer、observe 和 speech，后端部署在 AWS App Runner，前端部署到 Netlify，并保持 OpenAI key 只在服务端。

Highlights

What it explores

摄像头即界面
自动聆听与语音回复
前后端分离的视觉 AI 链路