最新SATI简介.doc
《最新SATI简介.doc》由会员分享,可在线阅读,更多相关《最新SATI简介.doc(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-dateSATI简介SATI简介SATI定义文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics, SATI),旨在通过对期刊全文数据库题录信息的处理,利用一般计量分析、共现分析、聚类分析、多维尺度分析、社会网络分析等数据分析方法,挖掘和呈现出美妙的可视化数据结果。通过免费、共享软件功能及开源、增进代码实现,旨在
2、为学术研究提供期刊文献数据统计与分析的辅助工具。软件界面如下图1所示:图1 SATI软件主界面技术方法国外关于文献信息统计分析的技术方法和应用软件相对较为成熟,已有社会网络分析软件Ucinet(嵌入开源软件Pajek, Netdraw 和Mage)、科学计量学研究软件Bibexcel、文献可视化信息分析软件Citespace等,但这些软件都主要针对Web of Science (WoS)等国外数据库平台开发,需要专门的数据输入格式,对于国内期刊全文数据库题录数据不能直接处理。为兼顾处理国内期刊题录数据和国际WoS题录数据,本文尝试设计开发对国内外期刊数据库进行文献题录信息统计分析的统一软件。技
3、术方法的关键在于对国内和国际期刊全文数据库所导出题录数据的兼顾处理,设计思路是先将不同来源的数据格式统一转换为SATI处理的XML格式,抽取指定字段信息得出条目元素(即词条,本文“词条(Term)”指语句元素的最小单元,可以是字、词或短语,包括关键词、主题词、文本预处理后的分词等受限词或自然词)的频次统计文档,再分析知识单元间的共现关系和频率分布,生成共现矩阵、分布矩阵和文档词条矩阵,继而实现对海量文献信息的定量分析和可视化呈现。按此思路,我们首先对国内三大期刊全文数据库知网、万方和维普的题录数据格式进行细致的分析,找出了三大主流输出格式EndNote格式、NoteExpress格式和Note
4、First格式题录数据的字段信息特征;然后分别提取用于区别不同字段的标识符和词条的分隔符(如NoteExpress格式题录数据中,关键词字段的标识符是“Keywords:”,关键词之间的分隔符是“;”或“;”,但不同数据库平台和期刊会稍有不同,需进行特殊处理),利用同样的方法再同时对WoS导出的HTML格式题录进行特征分析,通过编程实现抽取不同字段信息,转换生成为SATI软件专用的XML格式文件;在自动导入转换后的XML文件后,基于抽取出的相应字段信息,再利用频次统计算法得出词条频次统计文档;然后将频次降序排列表中相应数量的条目元素作为知识单元按照适当的算法模型构建出共现矩阵、分布矩阵和文档词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 SATI 简介
限制150内