Arron English Partner

总览

在线设备

-

今日对话

-

今日 Token

-

平均延迟

-

今日费用

-

设备状态

加载中...

数据统计

趋势图 (24小时)

费用统计（今日）

ASR

¥0

-

TTS

¥0

-

LLM 输入

¥0

-

LLM 输出

¥0

-

合计

¥0

-

TTS 缓存

缓存文件: - 占用空间: -

成员统计

加载中...

配置管理

成员级配置（语音/对话/唤醒/词汇 — 不同成员可独立覆盖）

成员:

静音判定(ms)silence_duration_ms

静音检测阈值，越大越不容易误判说完

最大录音(ms)max_recording_ms

单次输入最长录音

会话超时(秒)session_timeout

无交互自动结束会话

为空时继承全局默认值，可为不同成员设置独立硬件参数。

选择 Agentagent_id

为成员指定 Agent，覆盖全局设置

选择角色role_id

为成员指定陪聊角色，通过 Agent MD 中的 ${role} 引用

孩子画像child_profile

描述孩子的年龄、性格、兴趣等，通过 ${profile} 引用到 Prompt

难度等级difficulty_level

ASR 模型asr_model

覆盖 ASR 模型

LLM 模型llm_model

覆盖 LLM 模型

TTS 模型tts_model

覆盖 TTS 模型（含引擎/声音/语速配置）

报告 Promptreport_prompt

唤醒词wake_words

` 分隔

唤醒回复wake_responses

` 分隔（LLM 开场失败时的兜底回复）

开场指令opener_prompt

唤醒后 LLM 主动发起话题的提示词

退出词exit_words

` 分隔

退出回复exit_responses

` 分隔

Prompt 中通过 ${vocab} 引用词汇列表，未配置占位符则不生效。

暂无词汇，添加后将自动引导对话使用

全局配置（所有成员的默认基础配置）

作用设备:

静音判定(ms)silence_duration_ms

客户端静音检测阈值，默认 540ms

最大录音(ms)max_recording_ms

单次输入最长录音，默认 10000ms

会话超时(秒)session_timeout

选择 Agentagent_id

在 ChatAgent 页面配置 Agent 的完整 Prompt 和技能链

选择角色role_id

全局默认陪聊角色，通过 Agent MD 中的 ${role} 引用

难度等级difficulty_level

ASR 模型asr_model

全局 ASR 模型

LLM 模型llm_model

全局 LLM 模型

TTS 模型tts_model

全局 TTS 模型（含引擎/声音/语速配置）

报告 Promptreport_prompt

这些是所有成员的默认配置，成员可在上方单独覆盖。

唤醒词wake_words

` 分隔，如：豆皮`豆皮豆皮

唤醒回复wake_responses

` 分隔（LLM 开场失败时的兜底回复）

开场指令opener_prompt

唤醒后 LLM 主动发起话题的提示词

退出词exit_words

` 分隔

退出回复exit_responses

` 分隔，随机选一个播放

免唤醒自动应答auto_respond

开启后无需唤醒词，AI自动判断是否接话

这些是所有成员的默认唤醒/退出设置，成员可在上方单独覆盖。

启用声纹voiceprint_enabled

开启后仅允许已录入声纹的用户触发对话

识别阈值voiceprint_threshold

余弦相似度阈值 (0-1)，越高越严格，建议 0.65-0.80

区分度阈值voiceprint_margin

最佳匹配分与其他成员最高分的最小差值，防止非注册人员误通过，建议 0.05-0.15

声纹录入和管理请前往「成员管理」页面操作。

声纹在线测试

对话日志

按会话分组 | 点击查看详情

加载中...

← 返回列表

成员管理

成员选择

学习概览

0

Session 数

0

总对话轮

-

平均流畅度

-

当前难度

成员配置

显示名称:

自适应难度: (开启后根据 fluency_score 自动调整级别)

难度级别:

记忆笔记

对话结束后自动更新，也可手动编辑。用于冷启动时让 AI 知道上次聊了什么。

声纹管理

多条声纹可提升识别率（不同环境/语言录入）。至少保留一条。

静默录音测试

Session 报告

暂无报告

设备管理

设备列表

加载中...

固件管理

ChatAgent

全部 Agent

🛡 噪音过滤 SKILL

正则表达式规则，匹配的 ASR 文本将在 LLM 前被过滤（每行一条）

🤖 Agent MD CORE

${role} ${profile} ${vocab} ${level} ${state} ${rules}

📈 状态初始化 SKILL

首轮对话注入的初始状态（替换 ${state}），YAML 格式

📄 输出配置 SKILL

最大 Token 数

200

输出结构预览

<reply>回复内容（送 TTS）</reply> <summary>一句话概括当前对话脉络和孩子兴趣点</summary>

⚙ 对话配置 SKILL

对话轮数

发送给 LLM 的历史轮数

过滤中文回复

开启后过滤回复中的中文字符

基础规则（${rules}）

通过 ${rules} 占位符引用到 Agent MD 中

模型池

添加模型

类型

提供商

名称

模型 ID

API Key

计价（默认免费，填 0 即可）

ASR 语音识别

+

添加模型

LLM 大语言模型

+

添加模型

TTS 语音合成

+

添加模型

角色Agent

全部角色

声音清洗

处理模块

RNNoise 降噪

实时降噪，压制环境噪声和背景人声

说话人分离

Conv-TasNet 分离 + 声纹匹配目标说话人

相似度: 0.3

测试中心

全链路测试

上传音频 (WAV 16kHz)

目标设备

对话上下文 (可选 JSON)

用户管理

ID	用户名	角色	创建时间	最近登录	操作

更新记录

v1.0

2025年6月

模型池管理

模型池 — 集中管理 ASR/LLM/TTS 模型，卡片网格展示，替代散落的环境变量配置
多 Provider 支持 — LLM 支持阿里云/硅基流动/DeepSeek，TTS 支持阿里云 CosyVoice/微软 Azure
测试连接 — 添加模型时必须测试连通性，通过后才能保存
模型级计价 — 每个模型独立配置单价，费用统计按实际使用模型计算
API Key 隔离 — 每个模型可配置独立 Key，ASR/TTS 不再依赖全局 dashscope.api_key
成员级模型切换 — 配置页通过下拉选择 ASR/LLM/TTS 模型，不同成员可用不同模型
预置 10 个模型 — 开箱即用：ASR×2, LLM×6(含免费模型), TTS×2

v0.9

2025年6月

角色与内容生态

20 个预置角色 — 探险家、科学家、海盗船长、魔法师、MC老玩家等，可自由搭配 Agent
14 个预置 Agent — 故事共创、冒险游戏、知识探索、日常闲聊、情景模拟、MC生存冒险等
Minecraft 专属内容 — MC老玩家/建筑师/红石大神角色 + MC生存冒险/百科聊天 Agent
卡片式 UI — 角色和 Agent 改为彩色顶边卡片网格，emoji 图标 + 悬停动效

v0.8

2025年5月

代码质量 & 架构优化

消除循环导入 — 新建 shared_state.py 统一管理跨模块状态
对话逻辑去重 — 提取 _process_dialog_turn()，减少 120 行重复代码
内存泄漏修复 — conversation_store TTL 清理 + TTS 缓存 LRU 淘汰 + 会话定时清理
优雅关机 — 退出时关闭所有会话，触发 memory_md 保存
SQLite WAL 模式 — 提升并发读写性能

v0.7

2025年5月

声纹识别增强

静默录入 — 设备端无干扰录音，自适应去静音
Margin 排除机制 — 利用其他成员声纹作为负样本，大幅降低误判
在线测试 — 成员页一键测试声纹识别效果，滑窗分数表格
持续重验 — 对话中检测说话人切换，连续失败才截断
采集优化 — 跨录音段持续累积，有效音频进度条显示

v0.6

2025年4-5月

Agent 智能体 & 语音优化

ChatAgent 系统 — 动态 Prompt 模板 + 状态摘要 + 噪音过滤技能链
Azure TTS — 新增微软语音引擎，支持语速配置，连接复用
TTS 磁盘缓存 — 相同文本不重复合成，降低成本
免唤醒模式 — auto_respond 开启后说话即回，无需唤醒词
音量控制 — 语音关键词或控制台滑块调节音箱音量
角色管理 — 自定义角色人设，通过 ${role} 注入 Agent prompt

v0.5

2025年3-4月

成员体系 & 学习报告

成员管理 — 声纹自动识别成员，个性化配置
学习报告 — Session 结束自动生成 LLM 报告，可重新生成
成员级配置 — 孩子画像、难度等级、ASR 模型独立设置
对话记忆 — memory_md 冷启动，跨 Session 记住孩子偏好
数据统计 — 分成员统计、费用面板（ASR/TTS/LLM 分项）

v0.4

2025年2-3月

控制台 & 对话增强

Web 控制台 — 左侧导航 + 配置管理 + 对话日志 + 设备管理
对话日志 — 查看/删除/导出/音频播放/重跑对比
重点词汇 — 全局 + 按设备配置，${vocab} 模板变量注入
LLM 主动开场 — 唤醒后 AI 主动发起话题，替代固定问候
远程 Shell — 控制台远程执行设备命令

v0.3

2025年1-2月

声纹识别

本地声纹识别 — 基于 CAM++ ONNX 模型，过滤非目标用户
多说话人 — 同一设备支持注册多个声纹
在线采集 — 控制台一键录入声纹，播放确认语音

v0.2

2025年1月

小爱音箱集成

WebSocket 服务端 — 小爱音箱实时音频流接入
Rust 客户端 — 高性能嵌入式客户端，录音/播放/唤醒词检测
连续对话 — 说完即听，自然对话体验
流式 ASR — 实时语音识别，低延迟响应

v0.1

2024年12月

项目启动

基础对话 — LLM 多提供商支持（硅基流动/阿里云/DeepSeek/Ollama）
CosyVoice TTS — 阿里云语音合成
难度分级 — KET/PET/FCE 自适应等级