面向web archive的社交媒体信息采集--基于arcomem项目的案例分析-张卫东.pdf
《面向web archive的社交媒体信息采集--基于arcomem项目的案例分析-张卫东.pdf》由会员分享,可在线阅读,更多相关《面向web archive的社交媒体信息采集--基于arcomem项目的案例分析-张卫东.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报资料工作 年第期W环境下的社交媒体(Sc Md)作为民众分享个人生活点滴的“自媒体” 及响应社会事件的“发声器”,已经成为当今社会重要的“文化集散地”。在社交媒体(微博、 微信、 论坛、Fck、T、Wk等)上人们能够参与信息的创建、发布、传播、利用活动,如随时随地发表个人观点,随心抒写所思所想与所感所悟,自由转发和共享“朋友圈”资源等。 G80G81G82G83社交媒体G84响G85G86G87G88G89G8AG80G8BG8C,G8DG8EG83社交媒体用G8FG8AG90G91 G92, G93G94G95G96用G8FG97G8A的%,G98G82,G99用G9AG9BG9CG9D
2、的社交媒体G9E要G9FQQGA0GA1、微信、GA2GA3微博等。社交媒体GA4GA5的用G8FGA6体GA7生GA8GA9G90GAA生GAB信息,G98G82GAC用G8F生成GADGAE(Ud ,GAFGB0U)为G9E,GB1GB2GB3社会GA6体的思想GB4GB5,GB6G9FGAA创GAB、时GB7GAB、G84响GB8、GB9GBAGBB等GBC点。GBDGBE信息GBF集GA8当今的GC0GC1事件、GC2点GA2GC3、G96GC4GC5论、动GC6GC7GC8等,GC9GCAGA8GA2媒体时GCB的生活GCCGCD,作为社会的“GCE众GCFGD0GD1”,GB6G9
3、F重要的GD2GD3GD4GD5、参GD6GD7GD8、GD9GDAGDBGDC等GDDGDE,GDF当GE0G96GC4信息资源GE1GE2GE3GE4(W Ac)的重要GE5GE6。 信息GE7集作为G96GC4资源GE3GE4的GE8要环GE9,在GEA个GE3GE4GEBGECG82GEDG89GEE作用, 如GEFGE5社交媒体信息GF0GC1G9FGB7GE7集,成为G96GC4资源GE3GE4GDBGDCGF1GF2G89GF3的GA2GF4GF5。面向Web Archive的社交媒体信息采集*基于AROMEM项目的案例分析张卫东 黄新平 (GF6GF7GA5GD9GF8GF9G
4、D9GFA GE1GFB )摘 要 文章通过对欧盟FP7框架下发展成熟且具有代表性的社交媒体信息采集与保存项目ARCOMEM采用的信息采集机制、采集标准、采集策略和采集方法等方面予以深入剖析,提出了建立多元的组织协作采集机制、制定科学规范的采集标准、运用多目标驱动的采集策略、开发智能化的采集方法等建议,以期为我国社交媒体信息采集与保存的相关研究提供启示和借鉴。关键词 社交媒体 信息采集 Web Archive ARCOMEM 项目Web Archve Orented Soc Med Inforton Coecton: A Cse Study Bsed on ARCOMM ProjectZ Wd
5、 H X (Sc f M,J Uy,c, )Abstrct T fcd AROMEM c dy,c d cd f cc d jc d EU F fk Accd y d,c,dd,d y f AROMEM, d cd f c c cc c, d f cfc d dddcc dd, f jcd c y,d d f cc dKeywords c d, f c, W Ac, AROMEM, jc*本文系国家社会科学基金青年项目“馆际合作视阈下数字档案文化遗产整合路径研究”(编号:TQ)的研究成果之一。信息服务94万方数据情报资料工作 2017年第1期1 研究概况及实践进展1.1 国外研究现状面向W A
6、c的社交媒体信息采集研究缘于近年社交媒体的迅速发展与广泛应用,年以来,欧美等一些发达国家陆续开始了相关研究和实践, 并涌现出一批有代表性的研究成果与实践项目。在研究成果方面, 主要集中在以下个内容:()采集方法与技术研究。 多是从基本原理、体系结构、采集算法、 性能分析等方面G80现有的采集G81G82G83G84G85G86G87G88,G89G8AG8BG8CG8DG8E,G8F研究和开发G90的采集G81G82G91G92G93G94。 G95外,G96有一些研究G97G98G91出一G99G90的采集方法G9A技术,并分析G8BG8CG9B,G9CG9DG9E有成果的G9FG90GA0
7、GA1)采集信息的GA2GA3GA4GA5研究。 研究GA6GA7关GA8的GA9G8E是GAAGABG80GACGA3的社交媒体信息G83G84G89G8A与G89GAD, 实现有GA4GAEG8AGAF信息的GB0能GB1GB2和GB3GB4。 GB5GB6,G8F了GB7GB8GB9GBAGA4采集信息的GBBGBC性、GBD实性,G91出采集信息内容GA2GA3分析GBE信GBFGC0GC1的方法GC2GA1)采集G98GC3中面GC4的GC5GC6与GC7GC8。 社交媒体信息采集GC9GBE内容GB1GB2、GCA理体GCB、GCCGCD、GCE术、法GCF等GD0多GC5GC6,
8、相关研究GD1主要GD2GD3以GD4内容展开, GAA在内容GB1GB2方面G80社交媒体信息GCCGD5的GB1GB2性采集、GD6GC6采集、GD7G86GD8采集等采集GD9GDAGDBGDC关GA8。在GCA理体GCBGD4G80社交媒体信息采集GDDGDE体系G83G84GDFGE0,G91GE1采用多GE2构G86GE3采集GE2GCB,GE4分发GE5和GE6用GE7GE8构的G8CG9B与G9E有GCCGD5, 实现技术GE9GC6的GEAGB5GEB关和GCCGCDGECGED的G8CGEEGEFGF0,G97G98GCBGF1与GF2GF3GCCGD5GF4GF5相关的法
9、GCFG9A法GF6来GF7GF8GF9GFA的GFBGFCGFDGFEGFF束GC5GC6GC2在实践项目方面,年,美国国会图书馆启G9D了T GAE档项目,G80年T GD4公开发布的所有消息G83G84采集和GA4GAE, 揭开了社交媒体信息长期GA4GAE的实践序幕GC2 随后, G8B他GE7国的图书馆、档GF6馆、研究GE8构、联盟组织等纷纷投入G8B中,开展了不GB5层次、不GB5目的、不GB5形GD8的项目GC2 GAA英国国家档GF6馆负GDD的英国政府GF2GF3GAE档项目,用于采集和GA4GAEGE7政府部门官方T和YT公众号GD4公布的政府信息和政治热G8E事件; 欧
10、盟FGECGED的BF项目和AROMEM项目,G8B中BF项目GD6门针G80GF2GF3日志GCCGD5G83G84内容分析与采集,最终实现G8B数字GEE归档GC2 AROMEM项目旨在社交GF2GF3GB6代,GE6用群体GB0慧有GB1GB2性GB9采集B、Wk、T、Fck等主流社交媒体GD4可以被社会感GFB的重要信息,构建能够反映集体记忆的“社交GF2GF3数字档GF6馆”GC21.2 国内研究现状目前, 国内在面向W Ac的社交媒体信息采集方面的研究尚处于萌芽阶段GC2在理论GD4,国内主要GDFGE0了博客GA1GF2GF3日志)和微博的采集与长期GA4GAEGC2 从博客长期
11、GAEGB4的困境、现状、G80GD9GBE国外的相关研究与实践归纳出有必要G80博客G83G84长期GA4GAE, 但目前G8B采集仍GAE在技术GA5G80、G81GFEGC5GC6等,G80GF2GF3日志的采集G82G83了G8BG9DG84性、 G85续性和内容G86G87的社会GF2GF3关系以GBEG88G89和G8AG8E、G8BG8CG86G87的G8DG9D,G8EG80微博G82有长期GA4GAE的G8FGAFGDC以了G90GF1并G91用G92G93G94法分析了G8B长期GA4GAE的可G84性,并分G95G96用GBBGBC性采集、GA1GFBGFCG97G98)
12、GEAG99结G86G9AG9BGD9GDA和AGA1Ac fc,应用GC3序G9CGC3G9DG9E)采集来GF7GF8中G9F微博信息采集GA0GD2、采集GFEGE6、采集方法等关GA1GC5GC6GC2在实践GA2GA3,国内相关的实践应用研究尚处于GA4GA5阶GA6,G88GA7GA8GA9的实GAA应用G96GABG86GACGAA,系GAD应用实践发展尚不成GAEGC2 G8B中,相关实践研究成果多集中在G80社交媒体信息采集技术实现GC5GC6的GDFGAF,并GB0GB1实现了采集社交媒体信息的相应系GAD原GB2,GAAGB3GB4GB5GB6微博数GB7并构建了GECG
13、ED多G99GB8GB9的数GB7采集系GAD和GD6门针G80Fck、T的数GB7采集系GAD,G96有GBAGB7政GBBGF8GD9信息G84G8FGBCG8E的政GBDG81GE3GBEGBFGC0GC1信息采集系GADGC2GC2以GD4国内外面向W Ac的社交媒体信息采集研究现状可GFB,国外相关研究G9EGA5入项目GC3G9D、系GAD研发阶GA6,GC4多研究成果GD1相GC5应用于实践GC2国内在GC6方面的研究G96处于GA4GA5GDFGAF阶GA6, 研究成果多针G80信息采集的GD9GDA、流GC3、方GD8等GC7GC8,从理论层面G91出GF7GF8的方法等,开
14、展相关实践应用的研究G88GC9,面向国内主流社交媒体信息采集与GA4GAE的实践研究GB7GCA不GCBGC2 从G9E有研究成果中发现AROMEMGE3G8F目前最成GCC的社交媒体信息采集GA4GAE项目G86一, G8B所采用的社交媒体信息采集GE8GCB、采集GCDGCE、采集GD9GDA、采集方法可G8F国内相关理论研究与实践GDFGAFG91G92GCFGD0和G93G94GC22 ARCOMM社交媒体信息采集实现分析AROMEMGA1ARc Oy MEM)项目是GC2欧盟GD1GA7会G91G92GD2GD3与GECGED,GC2GD4GD5GD6术GD7、G81GD8GA2G
15、A3和公G97部门等家的GD9国组织联盟GDAGDBG86GE3的面向社交媒体信息采集与GA4GAE的实践项目, G8B中以英国GDCGDDGDEG92GA7GD6G8FGEAGDF方,GADGE0GA8GE1G86GE3事GE2GC2GC6项目于年发布了GE3一个集成G81的GF2GF3在GE4GBEGBF,并正GD8G80公众开GE5,旨在社交GF2GF3GB6代GE6用群众GB0慧,建GE6信息服务95万方数据情报资料工作 年第期一个基于社会感知和社会驱动的社区记忆系统, 守护记忆、保护过去、营造历史数字遗产。由于微博、T、Fck等社交媒体发布的信息和上下文语境密切关联且转瞬即逝, 不利
16、于信息的选择、采集与保存,这已成为制约社交媒体信息采集的关键问题。针对该问题,AROMEM项目建立了跨国多组织机构参与的信息采集机制,G80G81G82G83G84的G85G86G87G88G89G8AG8B的G8CG83G8DG8E、G8FG90会的G91G90G92G93,G94G80G81G95G96的信息采集G97G98G99G9A了社交媒体信息采集G8CG83的G9BG9C问题。G9DG9EG8FG9F上,采GA0G8F于GA1GA2GA3GA4对社交媒体信息GA5题G87GA6GA7G87GA8体GA8GA9选择GAA采集的采集GABGAC,利GA0G9DGADGAEGAFGB0G
17、B1信息选择上GB2GB3GA8GB4GB5GB6GB7GA3GB8G9AGAB的信息采集GB9GBA,GBB集社交GBCGBD上GBEGBFGC0联的社会记忆,建立了G8F于社会GC1知和社会驱动的社交媒体信息采集GC2GC3,为GC4GC5W Ac的社交媒体信息采集GC6GC7了GC8机制G87GC8G97G98G87GC8GABGAC与GC8GB9GBA。2.1 AROMEM信息采集机制GC4GC5W Ac的社交媒体信息采集GC9一项系统G88GCA,GCBGCCGCDGCEG8FG90G91GCFG87GD0GD1GD2GD3G87GBAGD4GD5境G87组织G85G86等,GD6G
18、9E,对社交媒体信息的采集与保存不GB8GD7GD8GD9GDA机构,GDBGDC多机构的GBEGBF参与。AROMEM项目G9DGA8GA9社交媒体信息采集GDD采GA0了GDE布GC3GD2G86的采集机制,GCBGCC,G8FG90G91GCF上由GDFGE0GE1GE2会GC6GC7了GE3GE4G8AGDEG91G90保GE5项目GE6GE7GE8G9DGD0GD1GD2GD3GB1GBAGD4GD5境GB9GC4,为了GD2GE9知GEA产GD1问题AROMEM于GEBGECG9D多GED多知GEA产GD1会GD3上GEEGEF了知GEA产GD1的问题, GF0GF1AROMEM项
19、目的目的GA0于保存GBCGBDGB1社交GBCGBDGADGAE,保护GF2GF3数字记忆,GF4GF5GF6GB3GBAGD4保护GE8G9D组织GF7G86上,GF8GF9的GFAGFBGFCGFDGE4G82与GFDGFE的GFF诺威莱布尼兹GE4G82等GCB他G82G83科GEE单位承担社交GBCGBD的语义演变GB1情境信息保存等相GC0理论的GEE究, 雅典G8CG83GCC心负责GA3GB8化GBCGBD爬虫等G8CG83难题的攻GC0,GF4腊GD3会、奥地利GD3会GB3GCEGFDGFE之声等公GBEG8AG8B负责GA8GA9社交GBCGBDG91源的采集、管理、保存
20、与利GA0, 这些G85G86机构通过组织GFE际GEEGEF会来商GD3G99G9A社交媒体信息采集GC4临的困难与挑战。2.2 AROMEM信息采集G97G98为了GA8GB4对来GB5GFDGFE之声、GFDGFE公GBE广播、GF4腊GD3会、 奥地利GD3会等G8AG8B海量异质的社交媒体信息进GE7统一规G96的采集GB1组织管理,AROMEM项目G9DGA8GA9信息采集GDD遵循REST AG97G98、RDF三元组数据交互格GC3G97G98、 数据获取A服务G97G98等对收割社交媒体信息的GBCGBD爬虫G88具进GE7了规G96配置,确保获取的社交媒体信息GB8够GB3
21、JSO、RDF/XML等G97G98格GC3数据集的形GC3返回。 G94参照“SO/W”等相GC0的WG8CG83服务G97G98, 采GA0RDF、OWL等语义GBCG8CG83设计了一GDA数据GC2型GA0于对采集的社交媒体信息进GE7统一的G91源描述,使无序信息有序化,GB9便GB3后的数据管理。 GBFGDD采GA0G97G98的WARGBC页档案文GA7格GC3GA0于记录采集的社交媒体信息的GADGAE、G80构、管理过GCA、形成G81G82等信息, GB3形成对G83描述G91源GCEGCB构成G8AGDE的G98确G84述,GA8GB4对采集的社交媒体信息的G85目G8
22、6录,G87G88使这些GDCG89档保存的社交媒体信息GADGAE与GCB元数据信息建立G93G8A联系,保G8B信息GADGAE的G8CGA8GAA、G8DG8EGAAGB1GB2G8FGAA,GB3便形成GB2GB3GA8GB4G90G91保存的社交媒体信息数据G92。2.3 AROMEM信息采集GABGACAROMEM项目的G93GE4G94G95G96GC9采GA0了G8F于GA1GA2GA3GA4G97G98G89档信息G91源G99集与GAFGB0的选择GAA采集与G9A题采集G9BG85的信息采集GABGAC,GCB采集G9CGCAGC9G9DGF1确信息采集GA5题G9EG9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向webarchive的社交媒体信息采集-基于arcomem项目的案例分析-张卫东
限制150内