这里是 Jiaqi 的博客,记录技术、笔记与想法。
边想边说:深入浅出 Thinker-Talker 架构
语音大模型怎么做到像人一样「边想边说」?拆解 Qwen-Omni 系列的 Thinker-Talker 架构:大脑与嘴的分工、两条信息通道的巧思、把开口延迟压到 234 ms 的流式设计,以及 MiniCPM-o 殊途同归的印证。
Hello, World
博客开张:Hugo + PaperMod + Git,以及和 agent 协作写作的工作流。
这里是 Jiaqi 的博客,记录技术、笔记与想法。
语音大模型怎么做到像人一样「边想边说」?拆解 Qwen-Omni 系列的 Thinker-Talker 架构:大脑与嘴的分工、两条信息通道的巧思、把开口延迟压到 234 ms 的流式设计,以及 MiniCPM-o 殊途同归的印证。
博客开张:Hugo + PaperMod + Git,以及和 agent 协作写作的工作流。