双剑合璧：智能体时代的 Stata 实证

2026-02-20 约 3638 字预计阅读 8 分钟次阅读

/img/Stata_auto.zh-cn-1771517731523.webp

当 ai 打败柯洁时，人们依旧认为 ai 离自己的事业很遥远，正如柯洁看到 ai 打败李世石时的年少轻狂。直到 2026 年，实证学习者们才开始围绕 ai 建立一种"自动化"的恐惧。

最近 David Yanagizawa-Drott 教授启动了智能体实证分析项目（APEP 项目）；陶哲轩建立了智能体对 Erdős 数学问题集贡献的项目（AI contributions to Erdős problems）。计算机领域热词也层出不穷——agent、skill、vibecoding、mcp、ABM model……¹

就具体研究而言，再比如两个具体例子²：

《A dataset on the spatiotemporal distributions of street and neighborhood crime in China》：使用 LLM 提取裁判文书刑事案件的变量。
《Decoding China’s Industrial Policies》: 使用 LLM 对海量政策进行编码解析。

不严谨的概括:让 ai 成为一个（具备某些特点的）操控主体（agent），能操控自己电脑上的软件（mcp 能力），也就完成了一种自动化编程流程（vibecoding）。结合 ai 的 api 和 VSCode 插件。这里我们可以建立一个粗糙的环境简单体验一二。

让 ai 操控软件

最简单的集成版本—— cusor、claudecode³。

但是我们也可以通过 VSCode 实现 all in one。

需要以下软件：

VSCode：代码编写环境
Git：版本控制，文件传输管理
Node.js：可以写后端、操作文件、控制硬件。
cc Switch：调用集成 ai 的 api。

针对国内环境，推荐参考以下视频：

当实现以后，就可以在 VSCode 中调用 ai 的 api 直接操作编辑页面。

若是第一次使用 VSCode, 操作记得先建立一个新文件夹，然后打开 VSCode, 点击文件，打开新建的对应文件夹，剩下的就是在其中操作了。

进一步加入 stata 插件

当你完成上一步操作后，你完全可以调用 ai 服务帮你开展其他设置操作😀。

/img/Stata_auto.zh-cn-1771516675297.webp — 插件名称

我个人推荐在 VSCode 中下载这几个 stata 插件。

Stata language：识别 stata 语法
Stata Outline：让代码能识别大纲，标题格式为 **#。有几个 # 就是几级标题，最多六级标题。
Stata MCP：核心，让 VSCode 具备控制 stata 的能力。

需要的额外设置也很简单，只需要在 stata MCP 的设置页面输入自己安装 stata 的文件夹目录：

例如我的就是 D:\stata。我使用的是 stata MP 版本⁴。

/img/Stata_auto.zh-cn-1771516985076.webp — 自己安装 stata 的文件夹目录

Stata MCP 插件会让页面出现以下按键，其实就对应着 stata 的运行。

/img/Stata_auto.zh-cn-1771517247069.webp — 按键

运行如图：

提示词：修改完善代码，基于sysuse auto进行一个实证分析。加入代码大纲层次，** # 为标题格式。 # 有几个代表几级标题，最多六级标题。

/img/Stata_auto.zh-cn-1771517125007.webp — 运行界面

David Yanagizawa-Drott 教授的项目，就是在这个基础上，进一步让 ai 拥有调用公共大数据 api、tex 文件编辑、r 语言分析的能力。

可惜的是，Stata MCP 是完全在 VSCode 中操控 stata。如果想将 VSCode 直接作为 do 文件的执行阅读器，且连接桌面上的 stata 执行，似乎目前没有非常优雅的联动方案。

集成在其他编辑器上

同样，当你完成第一部——配置好 claude 调用 deepseek 的 api 后，你也可以在其他编辑器上实现同样的操作。例如 obsidian。

BRAT 是 Obsidian 用于安装测试版插件的工具。

安装 BRAT：
- 在 Obsidian 设置中，前往 Community plugins（第三方插件） -> Browse（浏览）。
- 搜索并安装 BRAT (Beta Reviewers Auto-update Tester)。
- 安装后点击 Enable（启用）。
添加 Claudian 仓库：
- 打开 BRAT 插件设置。
- 点击 Add Beta plugin。
- 在弹出窗口中输入 GitHub 地址：YishenTu/claudian。
- 点击 Add Plugin。

我个人喜欢让其翻译本博客中文文档，适配英文版本。

安装 skills

安装与说明

Skills 其实就是 ai 的指导说明书，指导其在具体场合具体怎么处理。在其中添加脚本或流程就能约束模型在特定场景下的输出结果。

关于 skill ，特别推荐阅读这位博主的文章进一步了解：

《上下文是稀缺资源｜RAG、Memory、Skills 的设计哲学刍议》

此时依次输入以下命令，就可以下载 claude 官方准备的 skills 包。

安装 skills 市场：

1

/plugin marketplace add anthropics/skills

安装官方编写的一些 skills 包

1

https://github.com/anthropics/skills

/img/Stata_auto.zh-cn-1771595992572.webp — 如图

例如我直接将一个经济学 skills 的 github 发给 claude 让它自己下载：

1

https://github.com/meleantonio/awesome-econ-ai-stuff

/img/Stata_auto.zh-cn-1771596445258.webp — 经济学skills

例如，这是我在下载 obsidian 的 skills 后，让它绘制了一篇博客文章的思维导图：

/img/Stata_auto.zh-cn-1771596774086.webp — 如图

与 skill 形成配合的往往还有 hook。如果说 skill 是 ai 的指导书，让 ai 能快速地选择参考资料；hook 就是参考指南。简单的理解为——特定场景下强制执行的脚本。例如一旦阅读文献，执行一个给定的词云分析脚本。Hook 可以和 skill 匹配使用，形成指令判断-选择流程-执行脚本的过程。

Skill 资源

可以在以下网站寻找 skills 资源

Skills. Sh (个人推荐，也推荐参考这里面的命令统一安装 skills )
skillsmp.com
awesome-agent-skills

首先推荐个寻找 skills 的命令，安装之后明显调用 skills 更顺畅准确率。

1

npx skills add https://github.com/vercel-labs/skills --skill find-skills

/img/Stata_auto.zh-cn-1771684866236.webp — 下载这个skill后识别确实更加顺畅了

CLI 代理工具

CLI 代理工具是优化 AI 与命令行交互效率的助手。这类工具通过压缩和优化命令输出，显著减少 AI 处理时的 token 消耗。

这里推荐一个优秀的 CLI 代理工具：

RTK (Rust Token Killer) - 这是一个 Rust 编写的 CLI 代理，可以将常见开发命令的 LLM 令牌消耗减少 60-90%。它通过智能过滤和压缩命令输出，让 AI 在处理命令行结果时更加高效。

主要特性：

单一 Rust 二进制，零依赖
支持广泛的开发命令：Git、Cargo、npm/pnpm、Docker、kubectl 等
智能输出压缩：保留关键信息，过滤冗余内容
无缝集成：只需在命令前加上 rtk 前缀即可使用

使用示例：

1
2
3
4
5
6
7
8


# 传统方式 - 输出冗长
git status

# 使用 RTK - 输出简洁
rtk git status

# 命令链也适用
rtk git add . && rtk git commit -m "更新" && rtk git push

RTK 特别适合在 AI 辅助开发环境中使用，能显著降低上下文长度，让 AI 更专注于核心任务。

更深的自动化术语？

如果想要更深入地了解当今结合 ai 的自动化流程，或许可以进一步检索 vibecoding 相关术语。

对标同样的 claude code ，openai 的是 codex，google 的则是 gemini cili⁶。如今正在早期竞争阶段，各家注册福利都不少。

不过也别怕，工业革命之前还得是能源革命。现在 ai 烧钱烧资源性价比太低了，泛用注定是个大问题。但是，让人恐怖的不是 ai 的绝对值，而是进步的迭代速度，至少能让我们对变化的时代保持一种清醒。从另外一个角度讲，赛车早已超越了人类的极限，我们却依旧为百米赛跑感到刺激、恐惧、兴奋。若真如刘慈欣《诗云》那样⁷，某种文明能排列出所有的文字组合，我们对诗歌的感受才是更重要的事情。

/img/Stata_auto.zh-cn-1771518187683.webp — 漫改电影《百米》：跑得快不一定能解决所有事，但只要在100米内跑得比任何人都快，那就能解决任何事情。

深度学习，机器学习，大模型的概念区分也很微妙。说到底，智能到底是什么，这本身就是一个深刻的问题。 ↩︎
其实我觉得这类 LLM 分析，主打的就是个“力大飞砖” ↩︎
openai 对应的产品为 codex。 ↩︎
个人永远推荐 MP 版本，能根据计算机的核灵活增加计算效率。 ↩︎
token 烧的也快，我一个下午就烧完了送的第一个资源包。 ↩︎
甚至可以考虑让 codex 具有 mcp claude code 的能力联合拷打代码。 ↩︎
我的感慨可以参考《无心之歌》：AI 时代古诗创作小册子。 ↩︎

目录