资源大数据采集技术方案要点.docx
《资源大数据采集技术方案要点.docx》由会员分享,可在线阅读,更多相关《资源大数据采集技术方案要点.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、资源数据采集技术方案公司名称2023 年 7 月二 O 一一年七月文档目 录第 1 局部 概述31.1 工程概况31.2 系统建设目标31.3 建设的原则31.3.1 建设原则31.4 参考资料和标准5第 2 局部 系统总体框架与技术路线52.1 系统应用架构52.2 系统层次架构62.3 关键技术与路线6第 3 局部 系统设计标准9第 4 局部 系统具体设计9第 1 局部 概述1.1 工程概况Internet 已经进展成为当今世界上最大的信息库和全球范围内传播学问的主要渠道, 站点遍布全球的巨大信息效劳网,为用户供给了一个极具价值的信息源。无论是个人的进展还是企业竞争力的提升都越来越多地依靠
2、对网上信息资源的利用。现在是信息时代,信息是一种重要的资源,它在人们的生活和工作中起着重要的作用。计算机和现代信息技术的快速进展,使Internet 成为人们传递信息的一个重要的桥梁。网络的不断进展,伴随着大量信息的产生,如何在海量的信息源中查找搜集所需的信息资源成 为了我们今后建设在线预订类旅游网重要的组成局部。因此,在当今高度信息化的社会里,信息的猎取和信息的准时性。而 Web 数据采集可以通过一系列方法,依据用户兴趣,自动搜取网上特定种类的信息,去除无关数据和垃圾数据, 筛选虚假数据和迟滞数据,过滤重复数据。直接将信息依据用户的要求呈现给用户。可以大 大减轻用户的信息过载和信息迷失。1.
3、2 系统建设目标在线预订类旅游网是在线供给机票、酒店、旅游线路等旅游商品为主,涉及食、住、行、游、购、娱等多方面的综合资讯信息、全方位的旅行信息和预订效劳的网站。假设用户要搜集这一类网站的相关数据,通常的做法是人工扫瞄网站,查看最近更的信息。然后再将之复制粘贴到 Excel 文档或已有资源系统中。这种做法不仅费时费力,而且在查找的过程中可能还会遗漏,数据转移的过程中会出错。针对这种状况,在线预订类旅游网信息自动采集的系统可以实现数据采集的高效化和自动化。1.3 建设的原则1.3.1 建设原则由于在线预订类旅游网的数据采集涉及的方面多、数据量大、采集源数据构造多样化的特点。因此,在进展工程建设的
4、过程中,应当遵循以下原则:可扩大性依据实际的要求,系统可被便利地载减和敏捷的扩展,使系统能适应变化和状况。可以实现模块级别的动态扩展,而且是运行时的。所谓运行时模块的动态扩展,比方说你需要增加一些的功能,你可以将开发的类和文件依据Bundle 进展组织,然后直接扔到运行时环境下,这些功能就可以用了。因此系统不会受技术改造而重做出调整。创性软件的投资要考虑到今后的进展,不能使用落后的产品与技术,避开投资的铺张;在系统软件选型、开发技术上,到达国内外先进水平。标准性和标准性整个设计方案从网络协议、操作系统到各个设计细节,应当全部遵循通用的国际或行业标准,符合国家有关标准标准的。低耦合性采集系统与其
5、它系统彼此间相对独立,直接进展数据库入库、sql 同步或者基于txt/xml 的数据交换,保证整体系统的低耦合性。高效性在底层的技术实现上承受java 语言,跨平台,跨数据库,运行效率卓越。安全、稳定、准确、准时性承受先进的算法,承受多个子系统和工具组成一个安全、稳定、准确、准时的解决方案。方案在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个方案组成合理, 技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期进展的需要。易操作和易维护原则整个系统易于维护,简洁操作,易学,易用,完全通过WEB 方式完成,降低维护的技术难度,也削减了人为隐患的发生。1.4 参考资料和标
6、准主要参阅并依据以下一些参考资料及标准:l 中国工程治理学问体系C-PMBOK,2023.5l GB/T 1526-1989信息处理 数据流程图、程序流程图、系统流程图、程序网络图、系统资源图的文件编制符号及商定l GB/T 8566-1995信息技术 软件生存期过程l GB/T 8567-1988计算机软件产品开发文件编制指南l GB/T 9385-1988计算机软件需求说明编制指南l GB/T 13702-1992计算机件分类与代码l GB/T 11457-1995软件工程术语第 2 局部 系统总体框架与技术路线网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制
7、跟踪和监控互联网实时信息,建立可再利用的信息效劳系统。能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式供给应最终用户使用。2.1 系统应用架构采集应用效劳网络蜘蛛数据库数据分析数据解析分组分析网络蜘蛛 数据流掌握流互联网资源公布系统 客户端l 网络蜘蛛:依据指定规章抓取网站数据。l 数据分析:分析从网络蜘蛛来的数据,过滤掉我们不需要的信息。l 数据解析:依据指定资源格式(字段)的定义,进展数据库字段级别的解析。l 分组分析:依据不同的网络资源类型进展分类,并以多种存储方式进展存储。2.2 系统层次架构扫瞄器表现层网络资源采集数据转换数据导出
8、数据公布网络恳求应用层采集监控数据分析消息通知登录验证数据处理任务打算常用脚本库认证码识别WEB效劳器应用效劳器标准接口其他支撑层关系数据文本文件数据图片视频数据数据层整个系统分为四层,分别为:l 数据层:数据层负责存储抓取来的各种信息及数据,这里面包括网页、文档、关系型数据、多媒体数据等。l 支撑层:支撑层供给了关键的硬、软件支撑系统,包括应用效劳器、WEB 效劳器、标准接口等标准支撑系统。l 应用层:在应用层主要供给网络资源采集、数据转换、分析、处理、导出、公布、采集监控、消息通知、登录验证、任务打算、认证码识别等效劳。l 表现层:表现层通过扫瞄器等方式,为用户供给多样化的信息效劳。2.3
9、 关键技术与路线为了充分满足本工程的建设:我们承受先进、主流、牢靠、有用、性价比好的三层架构体系,充分考虑今后纵向、横向扩张力量。承受构件化和面对对象技术,使系统具有敏捷的扩展性和良好的移植性。2.3.1 J2EE 标准体系从软件层次上看,我们承受了典型的J2EE 三层架构体系,即应用支撑数据三层。 简洁地说,J2EEJavatm 2 Platform Enterprise Edition是一个标准中间件体系构造, 旨在简化和标准多层分布式应用系统的开发和部署,有了它,开发者只需要集中精力编写代 码来表达应用的商业规律和表示规律,至于其他系统问题,如内存治理,多线程,资源分布 和垃圾收集等,都
10、将由J2EE 自动完成。J2EE 已经被证明是一个稳定的、可扩展的、成熟的平台,在国内外拥有众多成功的应用实例。J2EE 应用效劳器Application Server承受目前国际最先进的开发理念、拥有很多适合基于Internet 应用需求的特点:l 三层构造体系最适合Internet 环境,可以使系统有很强的可扩展性和可治理性。l 面对对象、组件化设计2EE 是一种组件技术,已完成的模块能便利的移植到其它地方,可以提高开发速度,降低开发本钱。l 基于 JAVA 完全跨平台特性与平台无关,适应Internet 需要,并能得到大多数厂商支持,用户可依据需要选择适宜的效劳器硬件和数据库。并且假设需
11、要更换系统平台时,J2EE 也能便利的进展移植。把 J2EE 三层架构软件体系引用到资源采集系统,将大大提高系统的可移植性、可伸缩性和可扩展性。2.3.2 XML 技术XMLeXtensible Markup Language,可扩展标记语言,是当前最热门的网络技术之一,被称为“其次代Web 语言”、“下一代网络应用的基石”。自它被提出以来,几乎得到了业界全部大公司的支持。XML 具有卓越的性能,它具有四大特点:l 优良的数据存储格式l 可扩展性l 高度构造化l 便利的网络传输以 XML 技术作为支持,为用户自定义应用界面和业务数据构造,并将其与底层数据库定义格式、界面标准输入、输出的接口转换
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资源 数据 采集 技术 方案 要点
限制150内