实证经济学：审稿经验

2024-09-10 约 2713 字预计阅读 6 分钟次阅读

声明：为保证匿名审稿的原则，本文举例的具体情况都为个人虚构，和写过的实际审稿情况并不同。如有雷同，纯属巧合。

虽然审稿是匿名的，但很多时候审稿者和稿件研究领域相同，容易推荐加入自己的论文，这时一看就知道是谁了。不过毕竟是经验 buff，无可厚非。

最近作为训练参与了一点点审稿工作，看到网上没有多少经验分享？故在此记录。

最近刘西川老师分享了很好的例子：

一份外审意见（张川川、付明卫）及修改说明（靳卫东等）

首先最大的感受是经济学实证论文越来越卷了。以前这类期刊以纯计量实证分析为主，现在都是简约式和结构式推断的双重运用，稳健性检验也会加入另外一套计量模型。学界革新速度是越来越快了。

审稿确实挺锻炼人的，提出意见也是反思自己构建文章框架的过程。每次在审稿之前老师都会提点几句，句子虽然短，但总是能直击要害。个人在仔细看老师的话前和话后，审稿意见的提出呈现天壤之别。接下来我将总结个人学到的一些泛用视角。

越好的审稿意见越要彰显针对这篇论文的独特建议，例如这个理论的脉络、常用的数据处理、变量选择和切入点、经济意义造成的内生性问题¹…… 大部分意见最好针对文章创新性、计量设计、模型处理，错别字、排版问题一笔带过²即可。

个人非常推荐阅读陆铭老师关于审稿的看法：

陆铭：说审稿

最好的审稿不是天马行空地挑毛病，而是发现论文具有可行性的，作者尚未察觉到的闪光点——那些可以再进一步分析的地方。

个人流程

个人首先会简单检索下文章研究主题的中英期刊，重点看下相关综述文章，让自己对主题现状有个大致了解。然后整体看下文章的计量设计，接下来细读一遍文章，深入看文章部分引用的参考文献（尤其是文献综述、理论引用、工具变量的参考文献）。

开头与正文

审稿意见一般构成为：开头总结+大问题（研究设计、创新性、理论贡献……）+小问题（错别字、图表描述、图表清晰度……）

个人喜欢以下开头格式：

本文基于 xx 视角研究了 xx 问题（xx 和 xx 的关系）。
正面评价：xx 和 xx 的处理让人印象深刻。论文为 xx 贡献了 xx 视角。在 xx 的情况下，研究 xx 确实非常必要。
负面评价：虽然 xx 的处理或想法很优秀，但是实际上 xxxxx，因此关于 xx 和 xx 的问题依旧使人对计量设计和实证结果的可靠性产生担忧。

开头以后是正文，分段列举意见，一点一段话最好。

关于选题。文章……
关于文献综述。文章……
关于一些小的排版错误。在……

选题和创新性

评价选题要素的大小、多少。例如一个选题同时研究 A、B、C 三个要素。三个变量关系实在太复杂了，很难实现完整的分析。为什么要研究这三个、三个要素有怎样的层次关系，都需要回答。

有一次听《世界经济》的一期期刊讲座，一位听众问期刊编辑什么样的选题才能上《世界经济》。编辑回答说“能够发现或者解释一个现象的经济研究就是我们编辑部最喜欢的研究”³。确实，围绕一个现象，有没有各种理论，或为递进关系，或为矛盾关系，这既是文献综述线索的归纳之道，也是凸显创新性的重要部分——文章是否通过计量证明或证伪了一种理论，解释了一种对应的现象。

题外话，个人觉得随着理论发展越加完善，越来越多的文章注重研究某个具体效应的异质性。不过这种边际创新在老师眼里似乎远远不够，但是真的发觉现象加以理论论述的创新是真的难啊！

文献综述

前文已经提到了，文献综述要围绕选题分析理论的层次、关系展开讨论，这一点可以从语言和逻辑上进行批判。同时，我们可以注意参考文献顶刊、英文文献的数量、质量、占比。

在审稿意见里，我们也可以引用参考文献加强说服力或者进行举例。

理论

优秀的计量论文，理论和计量设计的交互会贯穿全文。

文献综述提到的理论，内在是否有关系和逻辑阐述？
多种理论的冲突是否在计量中得到了检验？如果没有，那就是机械地罗列理论。
文献综述的理论和后续实证的理论是否阐述一致？比如前文谈论的理论是官员晋升锦标赛，后面的实证证据没政府竞争变量，或者去讨论生命周期了。
异质稳健性机制设计是否有理论支撑或者用于理论检验？
社会背景描述是否充足。当下研究中，这个变量真的具有独特性吗？研究真的有创新视角吗？例如房价带来的高储蓄和低消费，已经被谈论很多了。

描述性统计

分布是否合理？比如长尾分布是否影响论文。
数值是否合理？例如描述统计小于 0 但却进行了对数化？
指标构建是否合理？是否交代正负指标？是否进行了标准化？使用主成分分析时，分数可能出现负数，这时候要仔细考察论文对负分的处理，同时要时刻注意指标的实际含义，这会影响指标的范围和正负性。
是否展现完了最大最小值、平均值、单位？
是否交代了数据源？
是否有省略的数据处理步骤没交代？

实证结果

显著性复查。
效果估计是否夸张，例如工作效率的测量参数，结果居然是降低了200%！显然是违背现实的。
有些只能为正的结果，最后居然估计出了负数！
分组回归，正负性符号与结论是否有矛盾？
Ln（1+my）的放缩会影响显著性。
模型使用是否恰当。DID 应该有足够的外生冲击假设，RDD 要找到合适的断点，空间矩阵的权重需要合理的理论解释……

异质性、稳健性、机制

这部分主要看计量方案的设计。

计量分析是否围绕理论进行设计？
计量方法适不适合论文要素或者数据结构？
工具变量是否可信? 工具变量是因果推断的重要方法，这里要重点结合要素本身进行针对性的考察。大部分人都是用的参考文献的工具变量，要仔细对比。可能工具变量在 A 文章合适，在 B 文章不合适。
是什么和为什么全面阐释了吗？有些文章只是证明了一个现象的存在，却没有讨论为什么。
一些可以加工作量的检验：加入交互项分析、加入分组回归、加入组间差异检验、加入事前趋势、检验外生冲击、更换其他相关变量、稳健性聚类建议……

结论

结论是否匹配实证结果——每一个实证结果产生了结论，不能多也不能少。
结论要相对具体，不能天马行空。
既然计量设计中，基于现象检验理论是层层递进的，结论也应展现相同的结构和思考。

目录