Sakana 小组件集成

目录

Citespace 文献可视化

因为“财政学前沿”课程需要写反馈论文,于是顺便学习了 CiteSpace 用于进行文献可视化。本文也会简单介绍一些其他可以用的网页可视化工具,但重点是 CiteSpace 。

写这个文章也是为了记录最(新版 6.2.2 版) 一些网络教程没提及的点和一些更细节的操作事项。下面是李杰老师和陈超美老师写的指南,还包含了对知识图谱这个学科的梳理,不过基础操作我将在本文中直接展示。

CiteSpace科技文本挖掘及可视化

Citespace中文指南 第7版

一、效果如图

CiteSpace 基于 java 开发,基础版功能免费,高级版需要付费,这里只介绍免费基础版的功能。基础版其实已经够用。

/img/Citespace文献可视化.zh-cn-20240523120746354.webp
以“财政预算”为关键词,知网引用前500份文献可视化。

以“财政预算”为关键词,知网引用前 500 份文献可视化。

/img/Citespace文献可视化.zh-cn-20240523120837358.webp
二次元主题,可以发现B站、初音未来也是三级关键词(homo是这样的)

二次元主题,可以发现 B 站、初音未来也是三级关键词(homo 是这样的)

/img/Citespace文献可视化.zh-cn-20240523120855576.webp
这是时序图,还真发现点东西,例如财政预算主题的变化:财政改革、预算公开、预算程序、支出结构、债务管理

/img/Citespace文献可视化.zh-cn-20240523120913562.webp
热点词趋势,红色的就是主题词集中出现的时间段

二、下载与中文界面设置

1、下载网页:

网页

前文说过 CiteSpace 基于 java 开发,所以早期版本需要提前下载1。最新版本已经内置了 jre 所以不用额外下载。直接点进去像下载普通软件一样一路“ yes ”即可。

2、关于安装位置:建议安装路径不要有中文,感觉外国软件都需要注意这条。个人感觉内存占用不是很大,安装在 C 盘也无所谓。

3、页面汉化:

好消息:新版 CiteSpace 汉化了。坏消息:汉化的不多。

/img/Citespace文献可视化.zh-cn-20240523120943632.webp
先是黑框,然后等待后弹出初始页面,以后每一次都会重新从这个页面开始进入
/img/Citespace文献可视化.zh-cn-20240523121014349.webp
顺便一提,可以从最上面看到我的电脑用户名叫pluck,第一次知道这个单词是因为JOJO

顺便一提,可以从最上面看到我的电脑用户名叫 pluck,第一次知道这个单词是因为 JOJO

三、数据导入

/img/Citespace文献可视化.zh-cn-20240523121031639.webp
来源:CiteSpace科技文本挖掘及可视化(第三版)

首先建立三个文件夹:in、data、projecet

个人建议保存到方便从我的电脑点入的浅层,后期数据处理需要反复点击确认文件夹位置。 $$ 文件夹\begin{cases} in:保存txt格式的文献信息\newline data :保存文件夹in中清洗后的text文献信息\newline project:保存可视化操作 \end{cases} $$

(一)知网数据导入

1、知网数据选择阶段

筛选时注意:“全选”只是本页面的结果全选,

知网最多只支持 500 份记录导出,同时 CiteSpace(免费版)最多支持处理 500 份数据。

为加快进度,先把显示改成 50 条,然后全选 10 页,选出 500 条文献信息。

切换知网页数点右上方箭头指的地方即可,没必要拉到下面去看。

/img/Citespace文献可视化.zh-cn-20240523121058311.webp
知网

按照如下方式选择导出文献为 refworks,导出为 .txt 文件

/img/Citespace文献可视化.zh-cn-20240523121119069.webp
Refworks

同时知网是自带可视化页面的,我们也需要再次按照下图路径进入知网可视化分析,记住我们选择的 500 份文献的时间。时间范围非常重要,会在后面用到。

/img/Citespace文献可视化.zh-cn-20240523121134595.webp
选择路径

/img/Citespace文献可视化.zh-cn-20240523121155613.webp
知网自带的可视化分析,注意时间

2、文件夹清洗阶段

.txt 文件的名称格式改为 download_x, 这样才能被 CiteSpace 识别。例如 : download_1download_i……

清洗完成后,文件夹indownload_x.txt 就被处理加工到 文件夹data 中,可以看下 data 文件夹里面有没有处理后的 text 文件作为检验手段。

/img/Citespace文献可视化.zh-cn-20240523121215715.webp
按顺序做

  • 当 data 里面的 txt 文件处理好后,点击初始页面的“新建”,
  • 在新弹窗命名,并且输入 data 和 project 的路径2
  • 然后选择文献语言(英语\中文)和资料库格式(一般选 WOS )

/img/Citespace文献可视化.zh-cn-20240523121232653.webp
选择

3、数据分析页面

  • 如图,右下角是选择裁剪路径,把关系图没有必要的枝丫去掉,保留核心的相关文献。
  • 右上方是文献时间,所以之前强调一定要先用知网自带的可视化确定时间范围
  • 右侧中间是可视化元素选择,一般选择关键词。
  • 选好后就在左侧点击开始
  • 如果顺利,就会弹出有“可视化”按钮的弹窗,点击就开始分析。

/img/Citespace文献可视化.zh-cn-20240523121253027.webp
开始分析

(二)WOS 数据导入

WOS 就是 web of science

注意:由于 CiteSpace 筛选的是期刊论文,不是图书,所以一定要选择核心合集库,不然后面有图书了可能无法进行下去!

/img/Citespace文献可视化.zh-cn-20240523121447548.webp
选择核心合集库

后面和知网一致。

  • 导出为纯文本文件,导出上限也是 500 条
  • 导出的记录内容需要为“全记录与引用的参考文献”

/img/Citespace文献可视化.zh-cn-20240523121504011.webp
(如果没有出现这个选项,就说明里面混进了图书,所以前文提醒了要在“核心合集库”中筛选)

后面的数据输入就是选择 WOS 了,这里主要是进行一个去重,其他和知网一致。需要注意的是,知网的清洗后的 data 文件夹中, .txt 文件只有一个,但 WOS 清洗后的 data文件夹.txt,对应着文章的 doi、关键词之类的,所以不用怀疑自己是否操作失误,或者多次点击“去重整理”,这样会产生重复的文件!

/img/Citespace文献可视化.zh-cn-20240523121521533.webp

(三)支持的数据网站

/img/Citespace文献可视化.zh-cn-20240523121536973.webp
来源:《CiteSpace科技文本挖掘及可视化(第2版)》,最新版是第3版

四、可视化实操

(一)关键词图谱

新版背后的大水印无法去掉

/img/Citespace文献可视化.zh-cn-20240523121557554.webp
新版背后的大水印无法去掉

/img/Citespace文献可视化.zh-cn-20240523121620776.webp
图形阶段,我们一般如下操作:

图形阶段,我们一般如下操作: $$ \begin{align} &节点调整为圆形:\newline &节点\Rightarrow \text{Node Shape for Keywords and Terms} \Rightarrow Circle \newline &聚类分析优化:\newline &聚类 \Rightarrow \text{Convex Hull: Show/Hide}\newline &聚类色块:\newline &聚类 \Rightarrow \text{Visual Encoding: Advanced Settings} \Rightarrow
\text{Areas: Fil/Border Only} \end{align} $$

这样是可以清晰地看到色块边界,如果觉得太花哨,重新点击下就是 hide,会把色块去掉。

/img/Citespace文献可视化.zh-cn-20240523121636338.webp
样式如图
格式上,我一般选择下面的两者之一,标题选择 LLR,连线选择直线

/img/Citespace文献可视化.zh-cn-20240523121711007.webp
选择

更细节的操作:也是最主要的控制页面

/img/Citespace文献可视化.zh-cn-20240523121729170.webp
更细节的操作

(二)时序图

时序图的关键词数量和权重方式控制依旧为下图

/img/Citespace文献可视化.zh-cn-20240523121745298.webp
时序图

/img/Citespace文献可视化.zh-cn-20240523121800821.webp
img

(三)突显词

$热点\Rightarrow View$,就会出现,同时出现的弹窗可以看做 Word 表格环境,直接复制粘贴,

以原格式粘贴到 Word 环境中,就是表格形式且保留色彩。

/img/Citespace文献可视化.zh-cn-20240523121819424.webp
这个页面可以复制粘贴,是Word的表格形式

这个页面可以复制粘贴,是 Word 的表格形式

(四)高级版操作(氪金变强)

以前好像普通版也能画时区图,现在好像不行了,得付费用高级版。还有一些耦合性分析。

(五)txt 工具

如果升级了高级版,似乎可以处理超过 500 条文献信息3,但知网和 WOS 还是只能以 500 条为上限分批导出。此时可以使用 txt合并工具

(六)导出

可以看到有两个水印(背后一个大的,左下角一个小的),背后大水印是新版出的,消不掉。

左下角水印去掉操作如下:

/img/Citespace文献可视化.zh-cn-20240523121834921.webp
img
$标签 \Rightarrow \text{overlay Labels: Show/Hide}$

/img/Citespace文献可视化.zh-cn-20240523121851853.webp
img

文件格式导出支持 .png.jpg 。点击左上角菜单“文件”,就会弹出 save as pdf

虽然表面去掉了左下角的水印,但是导出还是会有,,,,,所以如果不想有任何水印,建议调整好画面直接电脑截图。

五、其他文献可视化网站

1、知网、wos 自带数据可视化

/img/Citespace文献可视化.zh-cn-20240523121909016.webp
img

2、如果是 zotero 前辈的话,那样也是可以的哟

知网的可视化看起来不错,能不能带回家呢?当然可以。

我在其他文章中介绍过 zotero 的可视化插件,其中就内置了类知网的可视化功能。

花瓣图标就是启动开关,可以调节窗口大小,有四个可视化关系,移动到页面底部就会浮现出切换选项。

/img/Citespace文献可视化.zh-cn-20240523121927192.webp
只支持zotero6版本,zotero7已删除这个功能

在 zotero 中得到自己搜集的文献可视化

词云也是有的,不过是整个 zoterozotero 文库的文献可视化词云。

/img/Citespace文献可视化.zh-cn-20240523121942947.webp
img

3、bibliometric

只支持SCI数据库

4、connectpaper

直接检索关键词,它就会去联想相关文献形成图谱,还会包含 arXiv 等网站。

/img/Citespace文献可视化.zh-cn-20240523122000571.webp
img

5、researchrabbit

网站:www.researchrabbit.ai/

六、文献综述?

能用 CiteSpace 水论文吗?我感觉不容易,至少近几年似乎 C 刊是没有这样的论文。但做做作业、小项目感觉还行?不过用多了过于流程化后还是太平淡了。

我个人感觉好的综述应该如下:

  • 对整个主题深度和前景都有独特的理解:不只有趋势性描述,还应该把握热点背后的时代背景。

所以我在写反馈论文时尝试结合热点谈论“财政预算”与“现实需要”。

关键词 财政汲取 国有资本 预算公开 支出结构 债务管理
背景 寻求发展 国有资本流失 腐败问题 高质量发展\公共选择\官员锦标赛模型 经济现状
时间 建国 2010 左右 2014 左右 2017 左右 2022 左右
  • 对现有的研究方向、理论发展阶段用一个框架进行巧妙的分类。
  • 能把握主题广度和实效性(这是 CiteSpace 的优势)

综上,我个人更倾向于通过 CiteSpace 做一些隐藏在背后的工作,例如理顺一个文献综述的关键词的归纳路线和逻辑,帮助自己更好的选题。

参考


  1. 我个人因为玩我的世界 java 版本地就安装过 java,这也是我顺手了解 citespace 的原因之一 ↩︎

  2. 所以尽力选择这里好点出来的文件夹位置,不然老是这样后面懒得点下去 ↩︎

  3. 不过我个人没试过 ↩︎