# 视频脚本：我让本地AI改了我的公司合同（全程没联网）

> 时长 10-12 分钟｜B 站首发｜基准大纲：`大纲-品牌方版.md`

---

## v2 相比 v1 的核心改动（基于 2026-04-24 品牌方会议反馈）

1. **NPU/126 TOPS 退到背景**——会议明确不主推；主线换成「**显存 + 内存带宽 + 桌面级 CPU**」
2. **「全程不联网」软化**——保留 Hook，但全片基调改为「**该本地的活本地、该上云的活上云**」
3. **§3 篇幅压缩**——120B 跑起来作为「能力证明」一笔带过，**不再花大段讲三参数论述**
4. **§4 篇幅扩展**——Claude Code + Qwen3.6 + 多 skill 协同是真正主菜，**新增多模型并行论述**
5. **演示工具统一用 Ollama**——120B 直接 `ollama run gpt-oss:120b`，不用 LM Studio
6. **加入官方跑分口径**：120B → 50 tokens/s、35B → 45 tokens/s（来自会议）
7. **关键词重排**：256 GB/s 内存带宽、Zen5 16 核对标 9950X 升为主推
8. **录制前预案**：Ollama / GPU offload / 154W 高功率模式 / 任务管理器演示窗（详见 `录制Best-Practice.md`）

> 口播部分不是逐字稿，录制时按花生自己的语序自由发挥。画面细节以实际拍摄为准。

---

## 第一段 Hook（0:00-0:30）

**目标**：3 秒抓留存，给最炸的视觉，给 10 分钟价值承诺。

**画面要点**：
- 一个文档编辑界面正在被 AI 修改——右侧批注气泡实时冒出，正文里删除线+新字浮现，右上角 Wi-Fi OFF，角标「本地运行」
- 切到花叔半身（笔记本合着，Badge 不露）
- 4 画面快闪：合同特写 / 三格报告 / 120B 吐字 / Word 批注铺满

**示例口播**：
> 「你看到的是 AI 在一份文档里一条一条给我改合同，全程没联网。」
> 「本地跑的大模型我一直觉得是玩具。能写写打油诗问问天气，真干活就掉链子。这个判断上周刚被打脸。」
> 「接下来 10 分钟你会看到三件事，全部在一台断网的笔记本里跑起来：合同审查、财务分析、公文批注。」
> 「这不是跑分也不是装机，是 2026 这个节点上，本地 AI 到底哪些活可以放心交出去了。」

---

## 第二段 痛点建立（0:30-2:00）

**目标**：让观众先认痛点，一个字不提产品。人味最足的一段。

**画面要点**：
- 合同脱敏的分屏操作，计时器慢慢走
- 丢云端 AI 再贴回 Word 还原的过程
- 三类敏感文件快闪（财务表 / 客户订单 / 内部方案），每张都有红色禁止符号

**示例口播**：
> 「一份合同进来，我不能直接丢给 ChatGPT。得先手动脱敏：客户名换成『某公司』，金额换成『XX 万』，日期模糊。光这步 15 分钟。」
> 「脱敏版丢给云端 AI，AI 返回建议，我再贴回来把『某公司』改回真名。来回对一遍，又 20 分钟。一份合同改完 40 分钟，AI 真正干活那部分可能 5 秒。」
> 「合同还算好的。财务表每行都是关键信息、客户订单每条都带 ID、内部方案全是还没公布的节奏。这些活有个共同点：AI 最能帮上忙，但它们偏偏最不能上 AI。」
> 「每次看同行晒 AI 工作流，我都想问一句：你们的合同都不保密吗？」

**弹幕钩子**：你工作里哪份文件最怕上网？评论区告诉我

---

## 第三段 第一峰：gpt-oss-120B 本地跑起来（2:00-3:30）

**目标**：产品首次亮相 + 跑动 120B 作为「能力证明」。**这一段不长，证明完就走，不展开三参数论述（留到 §6 一句话回扣）。**

**⭐ AMD 露出**：
- **2:10 玄派玄机 16 开箱亮相 + C 面右下角 Badge 特写（停留 2 秒）**

**演示要点**：
- 终端 `ollama run gpt-oss:120b` 一行命令启动
- 模型吐字时画面左下角小窗显示任务管理器：**专用 GPU 显存 64G + 共享 GPU 显存吃满到约 80G**
- 边吐字边演示同时开 Excel/Word/浏览器不卡
- 按掉 Wi-Fi，模型继续吐字

**示例口播**：
> 「前段时间看到 AMD 在办一个大赛，叫锐龙 AI 智能体创新应用大赛，主题是 AI Agent 怎么改造真实工作流。我第一眼就觉得，这不就是我一直想解但没动手的事吗。正好趁这个机会把两个小工具手搓出来了。」
> 「先介绍硬件——这台是玄派玄机 16，AMD 锐龙 AI Max+ 395，96G 显存。这期视频所有演示都在它身上跑完。」
> 「先做一件事证明这台机器能干活——让它本地跑 OpenAI 开源的 gpt-oss 120B 大模型。一行命令的事。」
> （敲 `ollama run gpt-oss:120b`）「跑起来了。每秒 50 个 token，差不多就是读字幕的速度。1200 亿参数的模型在一台笔记本里吐字这件事，过去消费级硬件做不到。」
> 「边等它吐字我边把 Excel、Word、浏览器全开一遍——机器一点没卡。」
> （按掉 Wi-Fi）「断网。模型该吐字吐字，该推理推理。」
> 「这一段我不展开讲跑得多快、为什么能跑，那都是结果。重点是这件事**能跑**，第一次能跑。」

**过渡**：「能跑 120B 是上限。但我每天干活真正用的不是这种大号——下面这个才是。」

---

## 第四段 主菜：Claude Code + Qwen3.6 把整个工作流搬到本地（3:30-7:00）

**目标**：这一段是全片信息密度最高、信服力最强的部分。展示真实生产力工作流如何整套搬到本地。对应 brief §19 AI 办公场景。

**⭐ AMD 露出**：
- **3:40 笔记本侧面接口 + Badge 一带（不打断节奏，一闪而过）**
- **5:00 任务管理器演示窗：专用显存 + 共享显存合计吃到 80G+，三模型同时常驻**

**演示要点**：
1. **3:30-4:00**：模型介绍 + 把 Claude Code 接到本地 Qwen3.6
2. **4:00-5:00**：第一次调 skill——`huashu-data-pro` 分析财务数据，三专家并行
3. **5:00-5:30**：**多模型并行**画面（任务管理器小窗，三个模型同时常驻显存）
4. **5:30-6:30**：三格报告同时弹出（HTML 网页 / Excel / PPT）
5. **6:30-7:00**：必要性论证 + 过渡到 §5

**示例口播**：

> （3:30-4:00 模型 + 接入）
> 「主角是阿里刚开源的 Qwen3.6-35B-A3B。简单理解就是『小马拉大车』——总参数 35B，但每次推理只用其中一小部分，所以小硬件能跑出大模型的效果。这台机器上每秒 45 个 token，比刚才那个 120B 还要快一点。」
> 「Ollama 前段时间加了 Anthropic 兼容 API。一行 `ollama launch claude`，Claude Code 自动接到本地模型。看右上角，模型名不是 Claude 是 qwen3.6:35b-a3b。从这一秒起 Claude Code 干的活都在这台机器里，一分钱 token 费都不产生。」

> （4:00-5:00 第一次调 skill）
> 「这是一份模拟的公司半年财务数据：薪资、订单、成本，三张表。这类数据我最不敢上云——每行都是关键信息，脱敏等于没数据。」
> 「我给 Claude Code 一句人话——『用 huashu-data-pro 分析 finance.xlsx，三份报告都要』。」
> （敲入 prompt）「它自己去调 skill，并行启动三个专家视角：一个看趋势、一个拆结构、一个找异常。」
> 「看终端这几行进度。这不是一个模型在干活，是三个 subagent 同时跑。」

> （5:00-5:30 多模型并行 - 这一段是新增的杀手级论述，慢慢说）
> 「这里我得多说一个细节——也是这台机器跟普通笔记本最不一样的地方。」
> 「智能体干活不是一个模型从头干到尾的。前面分析数据用大模型，中间提取结构用中模型，最后写总结用小模型。三个模型过去得轮流加载——加载一次几十秒，整套流程根本跑不顺。」
> 「这台机器显存够大，三个模型一开始就全部装进去。看这个画面（指任务管理器），35B 主模型、13B 嵌入模型、8B 摘要模型，三个同时常驻。到哪一步用哪个直接调，零等待。」
> 「这是 24G 显存的笔记本物理上做不到的事。」

> （5:30-6:30 三格报告）
> 「8 分钟过去——出来了。」
> 「三种格式一次交齐：网页版自己看细节、Excel 版给财务复核、PPT 版直接拉去开会。」
> 「这一步我过去自己做要花半天。Claude Code 加本地模型加我手搓的这个 skill，8 分钟。」

> （6:30-7:00 必要性论证）
> 「省的时间不是重点。重点是这件事在 32G 内存的笔记本上做不到，在 16G 独显的轻薄本上也做不到——只能在 96G 显存的机器上做。」
> 「这是统一内存第一次让本地 AI 真的成为生产力工具，而不是玩票。」

**弹幕钩子**：你电脑里有没有文件，是你坚决不会上传到任何网盘的？

---

## 第五段 第二峰峰值：公文批注（7:00-9:30，全片高潮）

**目标**：全片视觉最炸的 2 分 30 秒。

**演示要点**：
- Claude Code 里输入「用 huashu-doc-reviewer 帮我审一下这份合同」
- 终端刷 decisions injected 进度
- **Word 打开的瞬间**：右侧侧边栏一次性铺满 40 条批注气泡，正文里红色删除线+红色新字穿插
- 慢镜头特写：点开一条批注，弹出框显示 `[CRITICAL] ...`，作者名「花叔 AI 审稿」

**示例口播**：
> 「第二件事，公文批注。公文跟写文章不一样，更多时候不是从零写，是改。合同要批注、报告要改稿、方案要留意见。审稿人的核心工作是留下痕迹：哪里改了、为什么改。」
> 「过去用云端 AI 改稿：复制贴过去、AI 返回新文档、再贴回来。每来回一次 Word 格式炸一次，标题样式没了、段落间距乱了、表格全废。更难受的是，律师和老板要的不是改后的新文档，是知道哪里动了为什么动。」
> 「所以我做了 huashu-doc-reviewer。核心能力只有一件事：让 AI 不返回新文档，直接在原来的 docx 里加批注、加修订。Word 里『审阅模式』看见的那个效果，skill 跑完就是那个。模型还是本地 35B-A3B，全程在这台笔记本里。」
> （Word 打开瞬间）「看这个过程。Claude Code 调起 skill，本地模型读完整份文档、定位问题、直接把批注和修订写进原文件。Word 打开所有痕迹一次到位。这一条说『这段表述可能有歧义』。这一处建议把『根据』改成『依据』，红色删除线加红色新字。整份合同它在我眼前审了一遍。」
> 「这里我想说一件比 skill 本身更重要的事。这个 skill 能处理的活不止合同——报告改稿、方案评审、简历优化都能用同一套流程。但更底层的是：审合同这种活更适合本地做。我不是说云端不行——快速翻译、开放话题对话云端反而更快——但合同里的客户名、未公开的方案底稿、谈判中的报价表，这些东西原则上不该出我自己的硬盘。这台机器的 96G 显存让我第一次有了这个选择权。」

**弹幕钩子**：合同评审这种活你现在敢用云端 AI 吗？我是真不敢

---

## 第六段 双峰合璧：AI PC 的完整价值（9:30-10:30）

**目标**：把两峰合起来，给一句能让观众带走的判断工具。**这一段把 §3 没展开的「为什么这台机器能干」补完，做硬件三件套总结。**

**⭐ AMD 露出**：
- **10:15 笔记本多角度 + C 面 Badge 特写（停留 2 秒）**

**示例口播**：
> 「看完两件事你应该能感觉出来。本地 AI 从来不是要取代云端，是分工。云端的强项是开放对话、快速翻译、视频生成这种又重又快的活，跑得比本地快得多。本地的强项是数据敏感、长上下文、智能体多模型协同——尤其是那些你不能让数据离开自己硬盘的活。该上云的活上云，该本地的活本地。过去这两边是二选一，现在有了第三条路。」
> 「跑得动 gpt-oss 这种 120B 本地大模型，证明的是这台机器的上限；跑得顺 35B-A3B 干日常活，证明的是下限。**上限决定你敢不敢相信它，下限决定你会不会真用它**。」
> 「AMD 锐龙 AI Max+ 395 是我见过第一颗消费级芯片里两头都站住的。一句话——96G 显存装下 120B 大模型、内存读写速度翻倍、Zen5 架构 16 核 CPU 直接对标桌面级 9950X。这三件事终于在一台 2 万块的笔记本里凑齐。」
> 「过去想跑 120B 这个级别，要么去买 NVIDIA 工作站卡 1 万美金一张，要么 Mac Studio 顶配。这台笔记本能合上能带走，价格只有那些方案的几分之一。对一个一人公司、一个独立干活的超级个体来说，这就是真正有用的那种旗舰本。」
> 「这两个 skill 我顺手投了 AMD 锐龙 AI 智能体创新应用大赛，也同步开源了。链接在视频简介里，有兴趣的朋友自取。」

---

## 第七段 收尾（10:30-11:00）

**目标**：互动 + 下期预告分开。不说「三连」。

**⭐ AMD 露出**：
- **11:00 定格在 Badge 特写收尾**

**示例口播**：
> 「最后留个问题。你工作里有哪些活一直因为数据敏感不敢交给 AI？评论区告诉我。点赞最多的那个场景，下一期专门做一集。超级个体这条路上，我们大家是一起摸着过的。两个 skill 的大赛作品页也会同步更新，有想法的朋友可以一起投。」
> 「下一期打算做一件更狠的事：带着这台机器出差一整周，完全不碰云端 AI，看看本地 AI 能不能真的替代我的日常工作流。订阅不错过。我是花叔，下期见。」

---

## 关键词植入覆盖

**主推关键词**：

| 关键词 | 要求 | 覆盖段落 |
|---|---|---|
| AMD 锐龙 AI / 锐龙 AI Max+ 395 | ≥ 4 次 | §3 §4 §6（×3） |
| 96GB 可分配显存 / 超大显存 | ≥ 4 次 | §3、§4、§5、§6 |
| 256 GB/s 内存带宽 / 四通道带宽 | ≥ 2 次 | §6（口播 1 次 + 屏幕浮现 1 次） |
| Zen5 16 核 32 线程 / 桌面级 9950X 同级 | ≥ 2 次 | §6 |
| 120B 本地大模型 | ≥ 3 次 | §3、§4、§6 |
| 超级个体 / 一人公司 | ≥ 2 次 | §6、§7 |
| 本地私有化部署 / 多模型并行 | ≥ 4 次 | §1 §4（×2）§5 §6 |
| AMD 锐龙 AI 智能体创新应用大赛 | ≥ 3 次 | §3、§6、§7 |

**次要关键词（不主推但保留少量出现）**：

| 关键词 | 处理方式 |
|---|---|
| 50 TOPS NPU | 仅作硬件介绍一笔带过，不在口播主线 |
| 126 TOPS 整机 AI 算力 | 不在口播中强调，可在屏幕参数浮现时一闪而过 |

---

## AMD Badge / 芯片露出清单（brief 必拍：C 面 Badge ≥ 5 次）

| 时间 | 段落 | 镜头 |
|---|---|---|
| 2:10-2:30 | §3 产品首次亮相 | 笔记本开箱 + C 面 Badge 特写停 2 秒 |
| 3:40 | §4 接入本地模型时 | 笔记本侧面接口 + Badge 一带 |
| 5:00 | §4 多模型并行画面 | 笔记本侧面 Badge 一带 |
| 7:30 | §5 skill 启动 | 笔记本俯拍 Badge 一带 |
| 10:15 | §6 产品定位收束 | 多角度 + Badge 特写停 2 秒 |
| 11:00 | §7 收尾 | 定格 Badge 特写 |

合计 6 次露出，符合 brief ≥ 5 次要求。

---

## 录制前技术准备

**模型**（Ollama 即可，不用 LM Studio）：
```bash
ollama pull gpt-oss:120b             # §3 用，约 65 GB 下载
ollama pull qwen3.6:35b-a3b          # §4/§5 用，约 20 GB 下载
```

**核心命令**：
```bash
ollama run gpt-oss:120b              # §3 直接终端跑
ollama launch claude                 # §4 把 Claude Code 接到本地（需 Ollama v0.14.0+）
```

**关键设置**（**详见 `录制Best-Practice.md` §1**）：
- 接电源 + Windows 电源计划「最佳性能」
- AMD Software 专用 GPU 显存设 **64 GB**（128G 配置最优解）
- 154W 高功率模式
- 任务管理器 GPU 视图浮窗最前

**Skill 环境**：
- 确认 `huashu-data-pro` 和 `huashu-doc-reviewer` 在 `.claude/skills/` 下
- `huashu-data-pro/scripts/` 跑过 `npm install` + `npx playwright install chromium`
- 环境变量 `LOCAL_LLM_BASE_URL` 设到 Ollama（`http://127.0.0.1:11434`）

**Hook 段视觉**（§1 开场批注气泡流式浮现）：用 HTML 模拟 B-roll，不是真实 skill 流式输出（skill 实际为一次性注入）。真实 skill 的 Word 成品在 §5 展示。

---

## 下一步

1. 花叔通读本版，标记念不顺的句子
2. 按 `录制Best-Practice.md` §1 跑通技术预案
3. 独立 agent 走三遍审校 + 口语化审校
4. 录制前 30 分钟按 `03-演示Prompt速查.md` 逐条预跑
5. 本版基于 4/24 会议反馈做了实质性调整，建议同步给品牌方再确认一次