生物信息学基础教程4讲正则表达式教程市公开课一等奖百校联赛特等奖课件.pptx
《生物信息学基础教程4讲正则表达式教程市公开课一等奖百校联赛特等奖课件.pptx》由会员分享,可在线阅读,更多相关《生物信息学基础教程4讲正则表达式教程市公开课一等奖百校联赛特等奖课件.pptx(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学基础教程第第4讲:正则表示式教程讲:正则表示式教程正则表示式与模式匹配正则表示式与模式匹配第1页本节内容本节内容n正则表示式n正则表示式定义与表示方法n正则表示式中元字符(metacharacter)nVIM编辑器ngrep命令nsed编辑器nawk工具第2页正则表示式n所谓正则表示式(regular expression,RE),指是符合某种模式字串,惯用于从文件中或者字符串中查找和替换一些符合某种规则字串第3页VIM教程linux下最惯用文本编辑器第4页VIM编辑器n三种模式:各种模式之间切换n从命令行模式到插入模式:按下i键n从命令行模式到附加模式:按下a键n返回命令行模式:按
2、下ESC键n退出编辑n保留并退出:在命令行模式按下:wqn不保留退出:在命令行模式按下:q!n保留:在命令行模式按下:wn另存为其它文件名:按下:w filename第5页VIM编辑功效n光标跳到文件头:命令行模式下按2下gn光标跳到文件尾:按下:$n光标跳到行首:按下n光标跳到行末:按下$n跳到100行:按下100g第6页VIM查找功效n底行模式下输入/pattern/回车,对应符合pattern文本就会显示为高亮n底行模式下输入:m,n/pattern/,就会在第m行到第n行查找pattern并高亮显示第7页grep教程教程正则表示式应用第8页grep介绍n是Global search r
3、egular expression(RE)and Print out the line缩写n强大文本搜索工具,使用正则表示式搜索文本,并打印匹配行n在一个或者多个文件中搜索字符串模式,搜索结果输出到屏幕,不影响文件内容第9页grep使用方法ngrep option pattern input_files第10页惯用惯用grep命令选项命令选项-?n?为数值,同时显示匹配行前后?行ngrep-2 grep test.txt同时显示匹配行前后2行-cn-count,只打印匹配行行数,而不输出匹配行-f file从输入文件中提取模式-i-ignore-case,忽略大小写-q-quiet,取消显示-
4、ln仅打印匹配模式文件清单-ln打印不匹配模式文件清单-n-line-number,在匹配行前打印行号-s-silent,不显示错误信息-vn-revert-match,只显示不匹配行-wn-word-regexp,假如被引用,就把表示式作为一个单词搜索第11页grep正则表示式元字符正则表示式元字符n锚定行开始ngrep匹配全部以grep开始行$n锚定行结束ngrep$匹配全部以grep结束行.n匹配一个非换行符任意字符ngr.p匹配gr后跟一个任意字符,后为p行*匹配0个或多个先前字符n*grep匹配全部0个或多个空格紧跟grep行n匹配一个指定范围字符nGgrep匹配包含Grep或gre
5、p行n匹配不在指定范围内一个字符nA-FH-Zrep匹配全部不在A-F和H-Z范围内字符后跟rep行()n标识匹配字符n(love)中能够匹配love,且love被标识为1n分别锚定一个单词起始和结束n匹配以grep结束单词x5,x5,,x5,10nx恰好重复5次行、最少重复5次行、重复次数在5-10次之间行w=A-Za-z0-9W=A-Za-z0-9n匹配全部单个(非)字母和数字字符bgrepb只匹配单词grep,不匹配egrep等第12页练习题:这些命令都能干啥?1.ls l|grep a2.grep test d*3.grep test aa bb cc4.grep a-z5 aa5.g
6、rep w(es)t.*1 aa6.grep n datafile7.grep 4$datafile8.grep 5.datafile9.grep.5 datafile10.grep wesn datafile11.grep A-ZA-Z A-Z datafile12.grep ss*datafile13.grep a-z9 datafile14.grep datafile第13页sed教程教程非交互性文本编辑非交互性文本编辑第14页sed介绍n首先用which sed查看一下sed位置n一个非交互性文本编辑器,编辑文件或标准输入导出文件拷贝nsed能够随意编辑小文件或者大文件n一次性处理全部
7、改变,高效率n经过行号和正则表示式指定需要编辑行第15页sed使用方法n从文件一个文本行或标准输入中读取数据,并将其拷贝到一个编辑缓冲区n读取命令行或者脚本第一条命令,并用该命令查找模式或定位行号并编辑,重复过程直到命令结束nsed option sed_command input_filensed option f sed_script_file input_filensed_script_file option input_file第16页sed命令选项-nnQuiet,不自动打印编辑行,默认是打印-e下一命令是编辑命令,使用多项编辑时加入此选项-f其后加sed脚本文件第17页sed定位行
8、号方法 x行号,指定某一行 x,yn指定x-y范围行 xy从第x行开始,每隔y行 /pattern/n查询包含该模式行 x,y!n查询不包含指定行号x和y行第18页基本sed编辑命令p打印匹配行sed n 2,3p test.txtsed n/movie/p temp.txt=显示文件行号sed e/music/=temp.txta在定位行号后附加新文本sed/jack/a“here add new line”p temp.txti在定位行号后插入新文本sed 4 i“here add new line”p temp.txtd删除定位行sed/music/d temp.txtn从另一个文本中读
9、取下一行,并附加到下一行sed/movie/n temp2.txt temp.txtc用新文本替换定位文本sed 4 c“i like it”temp.txtsn用替换模式替换对应模式sed s/source/okstr/”add before”&/p temp.txtr从另一个文本中读取文本sed/name/r temp2.txt temp.txtw写文本到另一个文件sed s/name/”my”&/w temp2.txt temp.txt第19页练习题:这些命令能干什么?sed s/.$/g temp.txtsed e/abcd/d temp.txtsed s/*/g temp.txtse
10、d s/*/g temp.txtsed s/.*/g temp.txtsed/$/d temp.txtsed s/./g temp.txtsed s/COL()/g temp.txtsed s/g temp.txt第20页AWK教程教程文件模式提取教程文件模式提取教程第21页AWK介绍介绍nLinux下awk有三个版本:awk、nawk、gawk,普通所说awk是指/bin/awk,也就是gawk(GNU awk)nawk功效:n基于指定规则从文件或者字符串中分解抽提信息n基于指定规则输出数据第22页awk三种执行方式1.awk option awk_script input_file1 in
11、put_file2 2.将awk_script放入脚本文件并以#!/bin/awk f 作为首行,并赋予该脚本可执行权限,然后在shell下调用该脚本名称执行awk_script内容:awk_file input_file3.将全部awk_script放入一个单独脚本文件,然后用awk f awk_file input_file(s)执行脚本第23页awk脚本组成n可由一条或多条awk_cmd组成,两条awk_cmd之间普通以NEWLINE分割nawk_cmd由两部分组成:awk_pattern actions nawk命令普通形式awk BEGIN actions awk_pattern1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 基础教程 正则 表达式 教程 公开 一等奖 联赛 特等奖 课件
限制150内