2022年网络转载传播实证分析与DSCCA模型研究 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年网络转载传播实证分析与DSCCA模型研究 .pdf》由会员分享,可在线阅读,更多相关《2022年网络转载传播实证分析与DSCCA模型研究 .pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网络转载传播实证分析与DSCC A模型研究沈 阳王丽丽刘晓兰刘 扬内容提要网络文章的转载传播无处不在。本文利用自研的ROST Copy Check软件监控搜索引擎 , 连续一个月采集新浪名人博客、人民网新闻等五网站343篇文章共84674条转载记录, 然后运用ROST Content M ining系统对数据集进行宏观结构测量和内容挖掘, 通过对转载时间、日均转载量 、转载网络交叉关系、转载标题的对比和聚类分析发现小众化网站转载时间最短、博客类网站平均转载周期最长; 转载网络中存在明显聚类和信 息 桥 现 象 。由 此给 出 网 络 转 载 传 播 的DSCCA模型 : 官方 、网络推手和普通
2、网友三类发布者通过搜索引擎、门户网站 、虚拟社区和主流论坛等渠道, 在大众 、分众 、小众和自我范围内 , 转载和传播具有可获得性、可读性和敏感性的网络文献, 其中二次传播率、传播深度 、传播广度及转载传播状态等因子尤为重要, 最后本文提出规范网络转载的对策。互 联 网 中 内 容 提 供 商( ICP“ InternetCopy and Paste ” ) 转载行为普遍。据聂震宁估计2007年我国1425个电子图书网站中, 1361个以转载 为 主 , 原 创 性 网 站 仅 有64 个 , 比 例 为4149% 1, 网络转载已渗透至整个互联网络。究竟什么是网络转载? 网络转载微观特征是什
3、么?这一转载传播话题已成为人文社科领域值得深入研究并具有重大现实意义的课题。考虑到搜索引擎是互联网长期流量的分发器, 要在一定时间内定量研究该现象, 利用搜索引擎采集转载数据较为可行 , 虽然搜索引擎做了部分网页的消重处理 , 但这是目前最接近真实状况的技术手段, 因此本文聚焦于搜索引擎中返回网页的网络转载实证分析及模型构建。1. 研究背景网络转载是机构媒体(例如门户网站、垂直网站等) 或社会媒体(如博客 、论坛等) 为扩大流量四处采集资源, 利用手工或自动采集技术方式将他人文献复制到自己网站的行为。网络转载按照转载后对作品的修改程度可分为直接转载 、恶意转载 、剽窃三类 。直接转载对原创内容
4、不进行文章标题、署名 、内容的修改;恶意转载是指保留原创作品的内容, 但对作品标题和署名进行了修改以混淆耳目的转载行为; 剽窃是指对原创文章的标题、署名和内容进行了部分篡改导致原创误会的转载行为, 较之上述两种 , 影响更为恶劣, 侵权更加严重。111行为现状目前国内互联网传播领域网络转载行为泛滥 。输入 “转载 ”一词 , 百度返回网页约4930万项 ,Google 约有1186亿项查询结果。对结果进行观察, 我们发现大多数是个体实施的单篇网络文献转载, 但也存在不少群体或企业实施的转载拷贝 , 例如玛雅网和转载小说网等。自从 2005年 Google 显示版权文字与图片连续被告开始, 国内
5、门户网站与网络转载的关系就已 “纠缠不清 ” 。2009年初在 “中国原创网络文学版权保护”论坛上盛大文学网侯小强宣布不排除因旗下起点中文网的网络文学盗贴猖獗而起诉谷歌 。侯小强称, 每年因盗贴行为给起点中文网带来的潜在损失无法计算。以目前人气很高的网络小说星辰变 为例,Google返回链接267万项( 2009年 3月 13日 ) , 首页10项中就有7项是盗贴 。112研究现状哥伦比亚大学出版社财务总监戴维(David )教授告知笔者, 与国内网络转载成风不同, 在英文互联网上绝大部分文章为原创 2 。在网络转载对 于 加 快 内 容 传 播 的 影 响 方 面 , 詹 姆 斯(James
6、 Curran) 、迈克尔(M ichael) 认为互联网?61?名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 7 页 - - - - - - - - - 的出现加快了文章转载的速度 3。哈特利教授( Hartley) 等在其著作论电子化获取复制品( On requesting re- prints electronically ) 中也指出越来越多的学生倾向于通过电子方式剽窃论文 4 。在网络转载的法律层面, 诺姆先生( EliM 1Noam) 等在其著作点对点视频
7、(Peer-to - PeerV ideo ) 中提及欧美国家原创内容尤其是音像制品的网络传播版权保护、法律依据以及现状研究 5。A ttributor公司的研究表明新闻报道非法拷贝网站的在线读者数量是合法转载网站的 150倍 6, 拉里(Larry P1Gross) 等认为随着互联网的普及, 转载新闻必须考虑道德规范 7。而从网络转载监控技术层面看, 网页转载监控技术一直 是 研 究 热 点 , 国外 转 载 监 控 的 网 站 如www.copyrightSpot .Com 8支持英文文章转载检测 , 此外2003年T1C1Hoad提出了如何检测互联网转载和剽窃文献的方法 9 ,Shaoz
8、hi Ye等人2006年提出了如何在互联网的海量数据集中发现重复文献的方法 10。面对愈演愈烈的网络转载现象, 国内学术界直接对网络转载问题进行研究的较少。在中国知网检索“网络转载” , 返回27条记录, 这些文献侧重于网络转载是否要收费以及其法律支撑等方面 。除此之外, 国内近几年比较热门的复杂网络 、语义网络以及反剽窃系统的理论研究对网络转载行为的深入探讨具有一定的启发借鉴作用。113研究意义鉴于国内网络转载的严重性以及深入研究的匮乏性 , 网络转载的深入研究对于新闻传播、网络出版 、数字图书馆、知识产权保护、电子学习 、反剽窃等多个领域的深入研究和应用具有重要意义 。从版权保护方面看,
9、该研究能为遏制网络非法转载提供强有力的理论依据以及切实可行的行为指南 。通过多角度探讨当前网络转载状况, 凸显转载监控软件在网络出版和新闻传播领域中的重要作用, 能够增强企业对转载监控技术应用的重视,从而自觉形成合法转载意识。从网络传播方面看, 该研究能有效规范信息资源在互联网领域的广泛传播。通过分析网络文章转载的程度与手段, 总结不同类型网站在网络转载方面的特点, 得到网络转载信息传播规律模型 , 为个人或企业作品资源在互联网领域大范围雪崩式传播提供有效的指导。此外 , 从自我转载角度看 , 有助于博客搬家和备份工具的研发。从学术研究方面看, 该研究能够为跨语言的转载翻译提供一定的参考价值,
10、 进而深入探讨相似信息在复杂信息网络中的传播动力学。2. 实证分析为满足网络转载研究的迫切需要, 笔者研发出 ROST CopyCheck与 ROST Content M ining软件采集数据并对其进行宏观拓扑结构的测量和内容挖掘 。利用ROST CopyCheck以及网络爬虫, 定时(2008/10 /28 - 2008 /11 /28 ) 监 控 新 浪 名 人 博客 、人民网新闻 、天涯论坛 、猫眼看人论坛、中华网军事论坛五个站点343篇文章被转载情况,平均每天采集3528条转载数据, 最终生成集合84674条转载记录的数据包。为了解目前我国网络转载现象的宏观规模及其深层规律, 我们将
11、实验分为转载时间对比、日均被转载量、转载网络交叉关系 、转载文章标题分析四部分。211转载时间对比分析经过ROST系列软件挖掘分析, 得到图的1数据 。得知搜索引擎收录的文章网页平均被转载时间间隔为40天 , 存在一定的时间周期。图 1: 五网站转载时间对比分析图具体到不同类型网站的文章被转载时间间隔 , 数据显示小众化网站(中华网军事论坛)新闻类网站(人民网 )娱乐类网站(天涯猫眼看人)博客类网站(新浪名人博客) 。小众化网站转载时间最短, 平均转载周期为10天 ; 新闻类网站文章发布后的20天左右迎来被转载 “高峰期 ” , 但很快就开始进入“ 沉寂期 ” ,新闻的时效性特点直接导致了这一
12、“ 迅速转载、迅速消化”的现象 。娱乐类文章转载周期约为?71?网络转载传播实证分析与DSCCA模型研究 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 7 页 - - - - - - - - - 45天 , 博客类超过60天 , 越是分散性、独立性的文章似乎越具有更长的“二次生命周期” , 对于质量较高的博客, 经过一段时间的沉淀后再次流行 , 我们称之为“沉淀激活现象” , 和新闻类文章比较, 质量较高的博客被转载的高峰时间间隔较长 , 潜伏期更长。从各网站转载文章的
13、时间变化幅度来看, 各类型网站每日被转载时间间隔变化较小, 表明互联网中转载时间频率与其文章类型具有密切联系 , 同一种类型的文章被转载时间间隔相似。在数据分析中我们也发现有少量数据在某些时间监测结果异常于该规律, 我们评估是搜索引擎在进行相关性排序时产生了偏差, 发现该问题后搜索引擎很快将这类数据删除。212日均转载量对比分析使用 ROST Content M ining统计得出监测文章每日被转载总量, 利用该软件统计各类网站文章日均被转载量, 对得到的信息列表挖掘深层关系 , 获得以下结论:第一 , 五站日均被转载总量超过3000条 ,除以监控文章总数343, 即单篇文章搜索引擎给出约为1
14、0条日均被转载量。而通过观察五网站转载总量变化趋势图(图 2) 我们发现转载总量呈时间周期性变化; 中华网军事论坛转载总量最小 ; 剩余四个网站其每日转载量波动较大, 但基本围绕各自单日转载的平均值做上下波动。图 2: 五网站转载总量变化趋势图表 1: 五网站日均被转载量对比分析表网站文献数量及序号范围日均转载总量单篇文章均转载量天涯论坛1 - 2074537125人民网新闻21 - 70101820136猫眼看人论坛71 - 11957411171中华网军事论坛120 - 14022710181新浪名人博客141 - 34310155第二 , 根据 ROST CopyCheck软件监控所得数
15、据 , 结合五网站所取样本量得出各网站日均被转载量(表 1) :通过本表得知: A、很多单篇文章转载量最小的博客类文章集合到一起就成为转载总量很大的一个群体, 即 “ 长尾 ”现象 ; B、娱乐类网站(天涯论坛) 单篇文章转载量最多, 人民网新闻次之 。手工查阅发现天涯文章转载者大多为个人 , 众多网友对娱乐类文章具有较高兴趣, 倾向于通过互联网这种途径对八卦、奇谈怪论等进行二次传播, 而人民网转载者多为门户网站, 互联网新闻信息服务管理规定的相关规定决定了我国大部分网站不具有采编权, 此类网站必然就需要向公信力高的人民网“借稿 ” , 从而产生转载行为 。213转载网络交叉关系分析使用 RO
16、ST Content M ining提取 “ 被转载的网站名称 ”和 “转载网址”字段 , 运用软件交叉关系集功能形成两者之间的相互关系文件, 在该文件基础上抽取关系频度最高的150个关系对,利用 Netdraw软件将其可视化, 如图 3所示 。图 3: 转载网站网络关系分析图观察图3可知 , 中国互联网的网络转载模式中存在明显聚类现象, 依据聚合程度可分为三大区域 : 以人民网新闻为主体的转载圈(区域群1) ; 以新浪名人博客为主体的转载圈(区域群2) ; 以天涯论坛为主体的转载圈(区域群3) 。此现象可能是因为同类网站圈子的网民对互联网上的内容存在着某种相似的喜好, 并且由于彼此“毗邻而居
17、 ”,有着极方便的链接关系,因此相互转载率高, 此类网民自发式聚类转载使得整个?81?新闻与传播研究第16卷第2期名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 7 页 - - - - - - - - - 表 2: 被转载文献前10位排名表转载排名转载标题被转载网站单天转载数量1坚守 26年 : 悬崖凿出上学路天涯论坛4582贾平凹 秦腔 获茅盾文学奖天涯论坛1663交警系统要把改进执法态度作为首要任务人民网新闻1314活下去 , 像牲口一样的活下去天涯论坛1195红杉资
18、本 : 经济严冬慎用资金新浪名人博客1086国企职工入股原则上限于持有本企业股权人民网新闻1067坚持德才兼备以德为先用人标准人民网新闻938第六届中国国际农产品交易会将于十月在北京举行人民网新闻729中国 东盟博览会5周年标志 、口号和宣传画揭晓人民网新闻7010反思 1291次列车乘客被捆绑死亡事件新浪名人博客66网络呈现“聚落 ”状态 。此外图3还反映出中国互联网网络转载模式中的信息桥现象。仔细观察 , 我们可以看出有若干个节点非常重要, 承担着沟通三大相对独立区域信息的重任, 一旦这些节点被去除, 整个转载网络将分裂成众多个相互封闭的子网络。这些节点往往由各种热门博客、百度贴吧和人民网
19、社会版充当 , 与网民生活契合度高以及新闻信息量丰富是它们能担当这一角色的重要原因。214转载文章标题分析使用 ROST Content M ining批量处理功能将每天独立采集的数据合并为一个文件, 统计得到监测文献日均转载量, 并按文献标题转载次数由高到低进行排列得到表2。从表 2的统计结果可以看出:第一 , 日 均 转 载 量 最 多 的10 篇 文 章 中 ,50%来源于人民网新闻。这与人民网的定位及其刊载的文章类型有关。人民网是世界十大报纸之一 人民日报建设的大型网上信息发布平台,而中华网军事论坛用户主要是军迷, 相对小众化 , 天涯 、新浪名人博客和猫眼看人则是草根民众的聚集场所。
20、在这五个网站中, 人民网新闻的文章官方推广力度最大, 同时受采编权限制以及新闻类文章时效性影响, 其文章单日被频繁转载 。第二 , 在数据监控时间段内, 天涯上名为坚守 26年 , 悬崖凿出上学路的文章一直排在单天转载率前三的位置上。经计算 , 单天该文章被转载数量占天涯所有被转载文章总量的50%以上 , 约占所有检测文章转载总量的10%。平台的影响力、文章的可获得性、标题的敏感性以及内容的可阅读性能够影响一篇文章的转载率 , 而天涯论坛的文章恰好能够满足以上所有要求 , 因此获得较高的被转载率。图 4: 文章转载内容分析图第三 , 从转载文章标题中也可以看出被转载文章由于性质或内容的不同在转
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年网络转载传播实证分析与DSCCA模型研究 2022 网络 转载 传播 实证 分析 DSCCA 模型 研究
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内