少数民族文字网络搜索引擎技术相关研究与开发,搜索引擎论文.docx
《少数民族文字网络搜索引擎技术相关研究与开发,搜索引擎论文.docx》由会员分享,可在线阅读,更多相关《少数民族文字网络搜索引擎技术相关研究与开发,搜索引擎论文.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、少数民族文字网络搜索引擎技术相关研究与开发,搜索引擎论文摘 要: 随着少数民族地区网民数量的不断增加,群众在网络上获取本民族文字信息的需求与日俱增,开发综合的少数民族文字网络搜索引擎势在必行,基于此,文章对少数民族文字(蒙古文、藏文、维吾尔文)网络搜索引擎的开发研究现在状况进行了调研分析。 本文关键词语 : 少数民族文字;网络搜索引擎; 随着互联网的飞速发展,网民数量与日俱增,根据中国互联网络信息中心(CNNIC)(第45次中国互联网络发展状况统计报告发布的数据,截至2020年3月,中国网民规模已到达9.04亿人,互联网普及率为64.5%。通过数据表示清楚,实现互联网接入以来,中国在推进互联网
2、全面普及的工作上获得显着成效,我们国家信息化发展的省间地区差异呈现稳定的下降趋势。 我们国家(宪法第四条指出: 各民族都有使用和发展自个的语言文字的自由。 教育部国家语委发布的(国家中长期语言文字事业改革和发展规划纲要(2020 2020年)提出:加强各民族语言文字的科学研究和资源开发利用。加强语言资源数字化建设,推动语言资源分享,充分挖掘、合理利用语言资源的文化价值和经济价值。加强语言文字规范化工作。研制少数民族语言文字规范标准。加快制订社会应用和信息化急需的少数民族语言文字基础规范标准。做好少数民族语言的术语规范化工作。建设少数民族语言文字数据库。收集梳理少数民族语言文字的发展历史和文化信
3、息,建设少数民族语言文化资源库和传统通用少数民族语言的大规模语料库。 近年来,我们国家已有蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、规范彝文、傣文等10多种少数民族文字逐步收录于国际标准ISO/IEC 10646(信息技术-通用多八位编码字符集(UCS)中,为我们国家少数民族文字信息化处理奠定了基础,也为少数民族文字网站的开发创造了条件。从少数民族文字网站的建设来看,我们国家传统通用少数民族文字多数已建有民族文字网站,并且逐年递增。据我们不完全统计,维吾尔文网站有近2 000个,蒙古文网站有1 000多个,藏文网站100多个;对民族自治区、自治州和自治县机关网站的民族文字版本建设情
4、况调查显示:已有部分机关建有少数民族文字版本的网站,包括蒙古文26个、维吾尔文11个、藏文6个、朝鲜文10个、哈萨克文2个、柯尔克孜文2个、傣文2个。当前,民族文字网站拥有相当规模的用户群。以藏文为例,我们在西藏、青海、四川、甘肃、云南等地进行的藏族人民使用网络的抽样调查结果显示,300份调查问卷中有178人经常、有时或偶然上网,华而不实有81人访问过藏文网站,占藏族网民的45.50%。 我们国家近年来的少数民族地区网民规模发展迅速,由、组织或个人建立的少数民族文字网站数量不断增加,形式多元化,且有一定规模的用户群。将来,少数民族文字网站的数量还将有更大的增长,信息量呈几何级的爆炸,少数民族群
5、众在网络上获取本民族文字信息的需求也将与日俱增。怎样从这些网站中快速检索出有效信息成了人们关注的焦点,网络搜索引擎在这种情况下应运而生,成为群众方便快速地查找信息的工具。但当前国内外主流的搜索引擎多不支持少数民族文字网络信息的检索,因而开发一个检索结果准确、全面的少数民族文字网络搜索引擎对少数民族文字互联网资源的检索、采集,以及民族问题舆情发现和分析等方面的工作都有着重大意义。笔者调查了蒙古文、藏文、维吾尔文等少数民族文字网络搜索引擎的开发现在状况,下面分述之。 1 、蒙古文网络搜索引擎技术相关研究与开发 2018 年,内蒙古蒙科立公司发布了基于Indri开发的蒙古文搜索引擎;2022年,内蒙
6、古自治区民族事务委员会发布上线 智路搜索 蒙古文搜索引擎,但相关技术仍有待完善。当前,蒙古文搜索引擎技术的相关研究开发主要在内蒙古大学等教学科研机构开展,主要研究有:如金威通过蒙古文的构词和语法等方面特点分析并确定了蒙古文停用词表,对蒙古文信息检索模型进行了讨论1;李业荣根据传统蒙古文语言特点,利用信息检索技术设计了蒙古文搜索引擎原型系统2;张畔对蒙古文搜索引擎基本方式方法进行了研究,主要研究了蒙古文网页信息采集和文档预处理、索引构造及索引构建3;邢朝龙借助全文检索工具包Lucene,并在对开源搜索引擎系统Nutch进行二次开发的基础上实现运行于Hadoop分布式平台的蒙古文搜索引擎系统4;巴
7、雅尔赛汗在基于Page Rank算法研究的基础上提出了蒙古文搜索站点的建设方案5;马路佳开发设计了蒙古文网页采集方案,采集的文档经过预处理后入库建立索引,通过跨语言词向量完成查询词源语言到目的语言的映射,最终构成蒙汉跨语言信息检索系统6;温子潇等基于蒙古文的语言特点构建了一个能够同时检索传统蒙古文和西里尔蒙古文的信息检索系统7。 2 、藏文网络搜索引擎技术相关研究与开发 2021年,西藏大学研发了 阳光多文种搜索引擎 2021年,海南藏族自治州藏文信息技术研究中心发布了 云藏 藏文搜索引擎,但相关技术仍需逐步改良。当前,藏文搜索引擎技术的相关研究开发主要在西北民族大学、青海民族大学、西藏大学等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内