2022年大数据下的数据管理领域研究体 .pdf
《2022年大数据下的数据管理领域研究体 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据下的数据管理领域研究体 .pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、41李国良清华大学大数据下 的数据管理领域研究体会每个研究领域都有入门的门槛,进入门槛之前,研究者像无头的苍蝇一样,感觉处处有困惑,到处碰壁 ;而进入门槛之后则变得得心应手,柳暗花明。但是如何跨过这道门槛则需要研究者不懈的努力拼搏。在此结合数据管理方面的研究介绍本人的点滴工作体会。选题具有前瞻性首先,选题是各个研究领域重中之重的问题,选择一个合适的题目对研究的开展起到至关重要的作用。每个研究题目都包含关键词 :IEEE杰出新人奖研究体会问题提出、方案攻关、技术优化、问题扩展四个阶段。下面通过一个“猪会飞”的例子来形象地描述科研的这几个阶段: A 提出了“猪会飞”的新问题, 并给出了“如何让猪飞
2、”的初步解决方案;针对 A 提出的新问题, B 研究“如何让猪飞得更快” ,C 研究“如何让猪飞得更高” ,而 D 研究“如何让猪飞得又高又快” ,?,接下来出现很多关于“猪飞”的研究成果。不难看出, A 提出了问题,而 B、C、D 进行了方法的优化以及问题的扩展。通常情况下,每个研究题目都有一个研究周期,问题刚提出时研究很火热(例如1998年半结构化数据管理问题的提出, 2006年不确定性数据问题的提出) ,随着研究进展,问题研究难度越来越大(例如 2005年半结构化数据管理问题已经得到了广泛的研究,此后相关研究逐渐变少) , 到最后问题逐渐研究透彻,直到没有研究空间。研究问题的热度随着时间
3、变化的过程如图1编者按 :李国良是清华大学计算机系副教授,主要研究海量多源异构数据的融合与管理,在数据管理顶级会议和期刊发表论文40 余篇。他针对互联网数据海量性、多源性、异构性、实体不一致性、不完整性、不准确性的特点,围绕“多源异构数据融合管理”这一重要问题,以互联网数据质量最大化为目标,以多源数据融合计算为核心,以为用户提供高质量的信息服务为宗旨,研究多源异构数据获取、表示、融合、检索的理论与方法。从数据获取、数据统一表示、数据融合、数据检索等四个层次研究多源异构数据处理的关键科学问题,建立了一套多源异构数据融合与管理方法。凭借在数据管理方面的突出贡献,李国良获得2014年 IEEE 数据
4、工程领域的杰出新人奖(IEEE TCDE Early Career Award) 。该奖项面向全球范围内获得博士学位不超过5 年的青年学者评选,旨在表彰在数据管理研究中作出突出贡献的学者。本年度仅有李国良一人获得该奖项,在美国芝加哥召开的ICDE 2014大会上进行颁奖。该奖项由IEEE-CS下属的数据工程技术委员会颁发。图1问题的不同研究阶段名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 4 页 - - - - - - - - - 专栏42所示。但是如何了解一个研究问题
5、在每个时间点的研究热度呢?个人认为有几个比较好的方法: (1)按照在顶级会议发表的论文数量画一张类似于图1 的时间 - 热点研究曲线,通过该曲线可以了解每个研究问题在不同时间点的热度,并可以通过预测的方法来判断未来热度走势。(2) 分析该研究问题在不同档次会议上论文的发表情况,新问题一般发表在顶级会议上,而随着研究的开展,研究难度逐步增大,论文逐渐向其他低档次会议转移,因此可以根据在各种档次会议上的论文发表情况来推断该问题的研究热度。(3) 可以多和知名研究者 (牛人)进行交流,讨论研究热点和趋势。新问 题 和老 问题 的研 究方法截然不同。新问题不需要复杂的技术深度,也不需要和现有方法进行对
6、比分析。然而提出新问题是一件非常难的事情,需要一定的研究积累,一般情况下,新问题都是由牛校牛研究组的牛人提出来的,而更多的研究者则跟随这些人研究如何解决已有的问题,类似于“挖坑” (新问题)和“灌水”(提出各种方法来解决该问题)。提出新问题的难点在于说服审稿人接受该问题,详细给出该问题的科学意义、应用前景、研究挑战和如何进行实验评测(是否有相关数据集,如何评测分析)。而研究老问题的难点在于如何提出新技术和新方法来解决该问题,突破老方法的技术壁垒。提出的方法一定要有技术深度和创新性,此外还需要和现有方法进行详细的实验比较和分析。老问题的研究难度大,而且随着时间的变化,研究难度越来越大,因此研究老
7、问题的过程类似于啃骨头,最开始骨头上肉很多,很容易吃到肉,随后肉越来越少,越来越难啃。因此把握住研究热点从而挑选一个有前瞻性的题目就变得十分重要。不仅研究生面临着选题的问题,很多青年教师由于各种原因也需要更换研究题目(例如原有题目已经过时或者更换了研究环境) 。选题时经常遇到的一个问题是什么研究题目具有前瞻性?前瞻性题目一般是问题提出不久,还有很多难点需要攻克,例如图1 曲线中上坡的位置,研究问题越早(例如目前的众包和知识图谱) ,越容易出成果,而且容易得到其他研究者的关注。为了得到该曲线,可以首先阅读大量顶级会议的论文,画出每个研究题目的时间 - 热度图,挑选出比较适合于自己的研究的题目。另
8、外一个方法就是多讨论多交流,多参加国际会议,和国内外同行进行深入讨论,选出合适的题目。还有就是通过学科交叉来发现新的问题或者找到新的应用。青年教师深入科研第一线要想取得优秀的学术成果,青年教师必须要深入到研究第一线。低年级博士生对于科研没有经验,对选题、攻关、实验、论文撰写都不熟悉,像无头的苍蝇一样无从下手, 很难独立完成一个出色的学术成果,因此需要导师进行深入指导,带领研究生逐渐走入学术研究大门。一名优秀的导师能使研究变得事半功倍, 早 日达到 科研 顶峰。由于计算机技术更新换代非常快,很多问题容易过时,因此青年教师一定要坚守在科研第一线,对现有热点有着深入的把握,否则很容易落伍。研究生一般
9、针对某个具体问题进行深入研究,仅对某一特定问题了解深入,而对其他问题略知一二。但是对于青年教师来讲,知识面一定要广,对本领域的每个问题都要有所了解。其实不同领域的研究是相通的,只不过是门槛不一样而已,各个领域的研究都会有借鉴意义,因此青年教师一定要扩充自己的知识面,做到融会贯通。关键技术攻关选择了一个题目之后就要对关键技术攻关,提出新的方法来解决问题。一个好的解决方案一定要新颖,有技术深度和创新性,切忌堆积现有技术或者简单修改现有技术,而没有任何实质性贡献。评价一个方法是否有创新性和技术深度的标准一般是小同行在十分钟内很难想到该方法。对名师资料总结 - - -精品资料欢迎下载 - - - -
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年大数据下的数据管理领域研究体 2022 数据 数据管理 领域 研究
限制150内