欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    最新SATI简介.doc

    • 资源ID:47522157       资源大小:804KB        全文页数:13页
    • 资源格式: DOC        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    最新SATI简介.doc

    Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-dateSATI简介SATI简介SATI定义文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics, SATI),旨在通过对期刊全文数据库题录信息的处理,利用一般计量分析、共现分析、聚类分析、多维尺度分析、社会网络分析等数据分析方法,挖掘和呈现出美妙的可视化数据结果。通过免费、共享软件功能及开源、增进代码实现,旨在为学术研究提供期刊文献数据统计与分析的辅助工具。软件界面如下图1所示:图1 SATI软件主界面技术方法国外关于文献信息统计分析的技术方法和应用软件相对较为成熟,已有社会网络分析软件Ucinet(嵌入开源软件Pajek, Netdraw 和Mage)、科学计量学研究软件Bibexcel、文献可视化信息分析软件Citespace等,但这些软件都主要针对Web of Science (WoS)等国外数据库平台开发,需要专门的数据输入格式,对于国内期刊全文数据库题录数据不能直接处理。为兼顾处理国内期刊题录数据和国际WoS题录数据,本文尝试设计开发对国内外期刊数据库进行文献题录信息统计分析的统一软件。技术方法的关键在于对国内和国际期刊全文数据库所导出题录数据的兼顾处理,设计思路是先将不同来源的数据格式统一转换为SATI处理的XML格式,抽取指定字段信息得出条目元素(即词条,本文“词条(Term)”指语句元素的最小单元,可以是字、词或短语,包括关键词、主题词、文本预处理后的分词等受限词或自然词)的频次统计文档,再分析知识单元间的共现关系和频率分布,生成共现矩阵、分布矩阵和文档词条矩阵,继而实现对海量文献信息的定量分析和可视化呈现。按此思路,我们首先对国内三大期刊全文数据库知网、万方和维普的题录数据格式进行细致的分析,找出了三大主流输出格式EndNote格式、NoteExpress格式和NoteFirst格式题录数据的字段信息特征;然后分别提取用于区别不同字段的标识符和词条的分隔符(如NoteExpress格式题录数据中,关键词字段的标识符是“Keywords:”,关键词之间的分隔符是“;”或“;”,但不同数据库平台和期刊会稍有不同,需进行特殊处理),利用同样的方法再同时对WoS导出的HTML格式题录进行特征分析,通过编程实现抽取不同字段信息,转换生成为SATI软件专用的XML格式文件;在自动导入转换后的XML文件后,基于抽取出的相应字段信息,再利用频次统计算法得出词条频次统计文档;然后将频次降序排列表中相应数量的条目元素作为知识单元按照适当的算法模型构建出共现矩阵、分布矩阵和文档词条矩阵。设计思路如图2所示。图2 SATI设计思路为便于后期数据的进一步处理和可视化呈现的需要,软件可同时生成Excel格式矩阵和.txt文本格式全矩阵。只要将共现矩阵文档导入相应的数据分析软件(如Ucinet、SPSS等),即可构建出知识单元聚类图、多维尺度分析图、共现关系网络知识图谱和战略坐标图等。功能实现目前软件主要实现了以下四大功能:1. 题录格式转换:支持输入WoS数据库平台导出的HTML格式、国内期刊全文数据库导出的EndNote格式、NoteExpress格式和NoteFirst格式题录数据。对英文题录关键词、主题词、标题和摘要字段进行文本预处理(Tokenization, Stop Words & Stemming )操作,中文题录标题、摘要进行中文分词 和停用词 处理后,将其自动转化为XML格式SATI专用数据文件,以为后期题录数据的存储、交换和分析提供便利。SATI专用数据文件(XML格式)采用简洁的三层树状结构,实例如图2所示。用户可将期刊全文数据库导出的题录文件导入SATI自动生成XML格式专用文件,或根据实际需要将相关数据文件自行转换为SATI处理所需格式。图3 SATI自动转换生成的专用数据格式实例2. 字段信息抽取: 在“Options”面板可以选择抽取标题、作者、第一作者、文献来源、出版年、关键词、主题词、摘要、机构、地址、文献类型、引文、语种、DOI和URL等字段信息,并可保存为.txt文本文件。还可利用“Refine”面板按照出版年和文献来源进行数据集合的限定,并在此基础之上进行下一步的统计分析。3. 词条频次统计: 根据抽取到的字段信息对条目元素(包括:关键词、主题词、作者、引文、机构、发表年、期刊、文献类型等)的频次进行统计和降序排列,同样可以按照时间和期刊对数据进行限定,生成相应频次统计文档,并可保存为.txt文本文件。4. 知识矩阵构建: 软件可生成三类共八种矩阵。o 词条共现矩阵。可自行设定共现矩阵输出行列数,将频次降序排列表中的相应数量条目元素作为知识单元进行运算,以构建知识单元共现关系矩阵(分相似矩阵、相异矩阵、多值矩阵和二值矩阵四种,包括关键词共现矩阵、主题词共现矩阵、引文共现矩阵、作者共现矩阵和机构共现矩阵等);其中,为消除多值共现矩阵中频次悬殊对统计结果造成的影响,软件采用Equivalence系数 (公式一所示)将多值矩阵转化为 0,1区间取值的相似矩阵,在此基础之上再生成二值矩阵和相异矩阵。相似矩阵中的数字代表矩阵元素间的相似性,数值越大关联程度越强。又因相似矩阵中的0值过多,统计时容易造成误差过大,软件在此基础之上自动生成相异矩阵,即相似矩阵值与-1的和为相异矩阵元素的值。o 频率分布矩阵。可自行设定条目元素(词条)数,生成词条的逐年分布矩阵(分频次矩阵和频率矩阵两种)。分布矩阵的行与词条元素对应,列与发表年相对应。其中,频次矩阵元素值为词条在某年出现的频次,频率矩阵元素的值(公式二所示)为词条在某年的频次与当年所有词条频次总和的商);o 文档词条矩阵(Document-Term Matrix):依据文本预处理结果,生成文档词条矩阵(分多值矩阵和二值矩阵两种,包括文档标题词矩阵、文档关键词矩阵、文档主题词矩阵和文档摘要词矩阵)。多值矩阵元素的值为词条在文档中出现的频次,二值矩阵元素的值为其布尔值。文档词条矩阵的行与文档ID相对应,列与词条相对应,文档词条矩阵可用于文本向量的构建,利用向量空间模型(VSM)做进一步数据挖掘。待生成Excel格式和.txt文本格式的知识矩阵数据后,可将相应矩阵文档导入数据分析软件(如SPSS、Ucinet、Netdraw等)以生成各种基本图表、聚类图、多维尺度分析图、共现网络知识图谱等。-

    注意事项

    本文(最新SATI简介.doc)为本站会员(1595****071)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开