网络socket编程指南-.pdf
《网络socket编程指南-.pdf》由会员分享,可在线阅读,更多相关《网络socket编程指南-.pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、介绍socket 编程让你沮丧吗?从man pages 中很难得到有用的信息吗?你想跟上时代去编internet相关的程序,但是为你在调用 connect()前的 bind()的结构而不知所措?等等,好在我已经将这些事完成了,我将和所有人共享我的知识了。如果你了解 c 语言并想穿过网络编程的沼泽,那么你来对地方了。读者对象这个文档是一个指南,而不是参考书。如果你刚开始 socket 编程并想找一本入门书,那么你是我的读者。但这不是一本完全的 socket 编程书。平台和编译器这篇文档中的大多数代码都在 linux 平台 pc 上用 gnu 的 gcc 成功编译过。而且它们在 hpux 平台上用
2、 gcc 也成功编译过。但是注意,并不是每个代码片段都独立测试过。目录:1)什么是套接字?2)internet 套接字的两种类型3)网络理论4)结构体5)本机转换6)ip 地址和如何处理它们7)socket()函数8)bind()函数9)connect()函数10)listen()函数11)accept()函数12)send()和 recv()函数13)sendto()和 recvfrom()函数14)close()和 shutdown()函数15)getpeername()函数16)gethostname()函数17)域名服务(dns)18)客户-服务器背景知识19)简单的服务器20)简单的
3、客户端21)数据报套接字socket 22)阻塞23)select()-多路同步 i/o 24)参考资料什么是 socket?你经常听到人们谈论着“socket”,或许你还不知道它的确切含义。现在让我告诉你:它是使用标准 unix 文件描述符 (file descriptor)和其它程序通讯的方式。什么?你也许听到一些unix 高手(hacker)这样说过:“呀,unix 中的一切就是文件!”那个家伙也许正在说到一个事实:unix 程序在执行任何形式的 i/o 的时候,程序是在读或者写一个文件描述符。一个文件描述符只是一个和打开的文件相关联的整数。但是(注意后面的话),这个文件可能是一个网络连
4、接,fifo,管道,终端,磁盘上的文件或者什么其它的东西。unix 中所有的东西就是文件!所以,你想和internet上别的程序通讯的时候,你将要使用到文件描述符。你必须理解刚才的话。现在你脑海中或许冒出这样的念头:“那么我从哪里得到网络通讯的文件描述符呢?”,这个问题无论如何我都要回答:你利用系统调用socket(),它返回套接字描述符(socket descriptor),然后你再通过它来进行send()和 recv()调用。“但是.”,你可能有很大的疑惑,“如果它是个文件描述符,那么为什么不用一般调用read()和 write()来进行套接字通讯?”简单的答案是:“你可以使用!”。详细的
5、答案是:“你可以,但是使用send()和recv()让你更好的控制数据传输。”存在这样一个情况:在我们的世界上,有很多种套接字。有darpa internet 地址(internet 套接字),本地节点的路径名(unix套接字),ccitt x.25 地址 (你可以将 x.25 套接字完全忽略)。也许在你的unix 机器上还有其它的。我们在这里只讲第一种:internet 套接字。internet 套接字的两种类型什么意思?有两种类型的internet 套接字?是的。不,我在撒谎。其实还有很多,但是我可不想吓着你。我们这里只讲两种。除了这些,我打算另外介绍的 raw sockets 也是非常强
6、大的,很值得查阅。那么这两种类型是什么呢?一种是stream sockets(流格式),另外一种是datagram sockets(数据包格式)。我们以后谈到它们的时候也会用到 sock_stream 和 sock_dgram。数据报套接字有时也叫“无连接套接字”(如果你确实要连接的时候可以用connect()。)流式套接字是可靠的双向通讯的数据流。如果你向套接字按顺序输出“1,2”,那么它们将按顺序“1,2”到达另一边。它们是无错误的传递的,有自己的错误控制,在此不讨论。有什么在使用流式套接字?你可能听说过 telnet,不是吗?它就使用流式套接字。你需要你所输入的字符按顺序到达,不是吗?同
7、样,www浏览器使用的 http 协议也使用它们来下载页面。实际上,当你通过端口 80 telnet 到一个 www 站点,然后输入“get pagename”的时候,你也可以得到 html 的内容。为什么流式套接字可以达到高质量的数据传输?这是因为它使用了“传输控制协议(the transmission control protocol)”,也叫“tcp”(请参考 rfc-793 获得详细资料。)tcp 控制你的数据按顺序到达并且没有错误。你也许听到“tcp”是因为听到过“tcp/ip”。这里的 ip 是指“internet 协议”(请参考rfc-791。)ip 只是处理 internet
8、路由而已。那么数据报套接字呢?为什么它叫无连接呢?为什么它是不可靠的呢?有这样的一些事实:如果你发送一个数据报,它可能会到达,它可能次序颠倒了。如果它到达,那么在这个包的内部是无错误的。数据报也使用 ip 作路由,但是它不使用 tcp。它使用“用户数据报协议(user datagram protocol)”,也叫“udp”(请参考 rfc-768。)为什么它们是无连接的呢?主要是因为它并不象流式套接字那样维持一个连接。你只要建立一个包,构造一个有目标信息的ip 头,然后发出去。无需连接。它们通常使用于传输包-包信息。简单的应用程序有:tftp,bootp等等。你也许会想:“假如数据丢失了这些程
9、序如何正常工作?”我的朋友,每个程序在 udp 上有自己的协议。例如,tftp 协议每发出的一个被接受到包,收到者必须发回一个包来说“我收到了!”(一个“命令正确应答”也叫“ack”包)。如果在一定时间内(例如 5 秒),发送方没有收到应答,它将重新发送,直到得到 ack。这一 ack 过程在实现 sock_dgram 应用程序的时候非常重要。网络理论既然我刚才提到了协议层,那么现在是讨论网络究竟如何工作和一些关于 sock_dgram 包是如何建立的例子。当然,你也可以跳过这一段,如果你认为已经熟悉的话。现在是学习数据封装(data encapsulation)的时候了!它非常非常重要。它重
10、要性重要到你在网络课程学(图 1:数据封装)习中无论如何也得也得掌握它。主要的内容是:一个包,先是被第一个协议(在这里是 tftp)在它的报头(也许是报尾)包装(“封装”),然后,整个数据(包括 tftp 头)被另外一个协议 (在这里是 udp)封装,然后下一个(ip),一直重复下去,直到硬件(物理)层(这里是以太网 )。当另外一台机器接收到包,硬件先剥去以太网头,内核剥去ip 和 udp 头,tftp程序再剥去tftp头,最后得到数据。现在我们终于讲到声名狼藉的网络分层模型(layered network model)。这种网络模型在描述网络系统上相对其它模型有很多优点。例如,你可以写一个套
11、接字程序而不用关心数据的物理传输(串行口,以太网,连 接单元接口 (aui)还是其它介质),因为底层的程序会为你处理它们。实际的网络硬件和拓扑对于程序员来说是透明的。不说其它废话了,我现在列出整个层次模型。如果你要参加网络考试,可一定要记住:应用层 (application)表示层 (presentation)会话层 (session)传输层(transport)网络层(network)数据链路层(data link)物理层(physical)物理层是硬件(串口,以太网等等)。应用层是和硬件层相隔最远的-它 是用户和网络交互的地方。这个模型如此通用,如果你想,你可以把它作为修车指南。把它对应到
12、 unix,结果是:应用层(application layer)(telnet,ftp,等等)传输层(host-to-host transport layer)(tcp,udp)internet层(internet layer)(ip和路由)网络访问层 (network access layer)(网络层,数据链路层和物理层)现在,你可能看到这些层次如何协调来封装原始的数据了。看看建立一个简单的数据包有多少工作?哎呀,你将不得不使用 cat 来建立数据包头!这仅仅是个玩笑。对于流式套接字你要作的是 send()发 送数据。对于数据报式套接字,你按照你选择的方式封装数据然后使用 sendto()
13、。内核将为你建立传输层和 internet 层,硬件完成网络访问层。这就是现代科技。现在结束我们的网络理论速成班。哦,忘记告诉你关于路由的事情了。但是我不准备谈它,如果你真的关心,那么参考 ip rfc。结构体终于谈到编程了。在这章,我将谈到被套接字用到的各种数据类型。因为它们中的一些内容很重要了。首先是简单的一个:socket 描述符。它是下面的类型:int 仅仅是一个常见的 int。从现在起,事情变得不可思议了,而你所需做的就是继续看下去。注 意这样的事实:有两种字节排列顺序:重要的字节 (有时叫 octet,即八 位位组)在前面,或者不重要的字节在前面。前一种叫“网络字节顺序(netwo
14、rk byte order)”。有些机器在内部是按照这个顺序储存数据,而另外一些则不然。当我说某数据必须按照 nbo 顺序,那么你要调用函数(例如 htons()来将它从本机字节顺序(host byte order)转换过来。如果我没有提到 nbo,那么就让它保持本机字节顺序。我的第一个结构(在这个技术手册tm 中)-struct sockaddr.。这个结构为许多类型的套接字储存套接字地址信息:struct sockaddr unsigned short sa_family;/*地址家族,af_xxx*/char sa_data14;/*14字节协议地址*/;sa_family 能够是各种各
15、样的类型,但是在这篇文章中都是 af_inet。sa_data包含套接字中的目标地址和端口信息。这好像有点不明智。为了处理 struct sockaddr,程序员创造了一个并列的结构:struct sockaddr_in(in 代表 internet。)struct sockaddr_in short int sin_family;/*通信类型 */unsigned short int sin_port;/*端口*/struct in_addr sin_addr;/*internet 地址 */unsigned char sin_zero8;/*与 sockaddr 结构的长度相同*/;用这个
16、数据结构可以轻松处理套接字地址的基本元素。注意 sin_zero(它被加入到这个结构,并且长度和struct sockaddr 一样)应该使用函数 bzero()或 memset()来全部置零。同时,这一重要的字节,一个指向 sockaddr_in结构体的指针也可以被指向结构体sockaddr 并且代替它。这样的话即使 socket()想要的是 struct sockaddr*,你仍然可以使用 struct sockaddr_in,并且在最后转换。同时,注意sin_family 和 struct sockaddr 中的 sa_family 一致并能够设置为 af_inet。最后,sin_por
17、t和sin_addr 必须是网络字节顺序(network byte order)!你也许会反对道:但是,怎么让整个数据结构 struct in_addr sin_addr 按照网络字节顺序呢?要知道这个问题的答案,我们就要仔细的看一看这个数据结构:struct in_addr,有这样一个联合 (unions):/*internet 地址 (一个与历史有关的结构)*/struct in_addr unsigned long s_addr;它曾经是个最坏的联合,但是现在那些日子过去了。如果你声明 ina 是数据结构 struct sockaddr_in 的实例,那么 ina.sin_addr.s_
18、addr 就储 存 4 字节的 ip 地址(使用网络字节顺序)。如果你不幸的系统使用的还是恐怖的联合 struct in_addr,你还是可以放心4 字节的 ip 地址并且和上面我说的一样(这是因为使用了“#define”。)本机转换我们现在到了新的章节。我们曾经讲了很多网络到本机字节顺序的转换,现在可以实践了!你能够转换两种类型:short(两个字节)和 long(四个字节)。这个函数对于变量类型 unsigned 也适用。假设你想将 short 从本机字节顺序转换为网络字节顺序。用 h 表示 本机(host),接着是 to,然后用 n 表 示 网络 (network),最后用 s 表示 s
19、hort:h-to-n-s,或者 htons()(host to network short)。太简单了.如果不是太傻的话,你一定想到了由n,h,s,和 l形成的正确组合,例如这里肯定没有stolh()(short to long host)函数,不仅在这里没有,所有场合都没有。但是这里有:htons()-host to network short htonl()-host to network long ntohs()-network to host short ntohl()-network to host long 现在,你可能想你已经知道它们了。你也可能想:“如果我想改变 char 的
20、顺序要怎么办呢?”但是你也许马上就想到,“用不着考虑的”。你也许会想到:我的 68000 机器已经使用了网络字节顺序,我没有必要去调用 htonl()转换 ip 地址。你可能是对的,但是当你移植你的程序到别的机器上的时候,你的程序将失败。可移植性!这里是 unix 世界!记住:在你将数据放到网络上的时候,确信它们是网络字节顺序的。最后一点:为什么在数据结构 struct sockaddr_in 中,sin_addr 和 sin_port 需要转换为网络字节顺序,而 sin_family 需不需要呢?答案是:sin_addr 和 sin_port 分别封装在包的 ip 和 udp 层。因此,它们
21、必须要是网络字节顺序。但是 sin_family 域只是被内核 (kernel)使用来决定在数据结构中包含什么类型的地址,所以它必须是本机字节顺序。同时,sin_family 没有发送到网络上,它们可以是本机字节顺序。ip 地址和如何处理它们现在我们很幸运,因为我们有很多的函数来方便地操作 ip 地址。没有必要用手工计算它们,也没有必要用 操作来储存成长整字型。首先,假设你已经有了一个sockaddr_in结构体 ina,你有一个 ip 地 址132.241.5.10要储存在其中,你就要用到函数inet_addr(),将 ip 地址从点数格式转换成无符号长整型。使用方法如下:ina.sin_a
22、ddr.s_addr=inet_addr(132.241.5.10);注意,inet_addr()返回的地址已经是网络字节格式,所以你无需再调用函数 htonl()。我们现在发现上面的代码片断不是十分完整的,因为它没有错误检查。显而易见,当inet_addr()发生错误时返回-1。记住这些二进制数字?(无符号数)-1 仅仅和 ip 地址 255.255.255.255相符合!这可是广播地址!大错特错!记住要先进行错误检查。好了,现在你可以将ip 地址转换成长整型了。有没有其相反的方法呢?它可以将一个in_addr结构体输出成点数格式?这样的话,你就要用到函数 inet_ntoa()(ntoa的
23、含义是 network to ascii),就像这样:printf(%s,inet_ntoa(ina.sin_addr);它将输出 ip 地址。需要注意的是inet_ntoa()将结构体 in-addr作为一个参数,不是长整形。同样需要注意的是它返回的是一个指向一个字符的指针。它是一个由inet_ntoa()控制的静态的固定的指针,所以每次调用 inet_ntoa(),它就将覆盖上次调用时所得的ip 地址。例如:char*a1,*a2;.a1=inet_ntoa(ina1.sin_addr);/*这是 198.92.129.1*/a2=inet_ntoa(ina2.sin_addr);/*这是
24、 132.241.5.10*/printf(address 1:%sn,a1);printf(address 2:%sn,a2);输出如下:address 1:132.241.5.10 address 2:132.241.5.10 假如你需要保存这个ip 地址,使用 strcopy()函数来指向你自己的字符指针。上面就是关于这个主题的介绍。稍后,你将学习将一个类似wintehouse.gov的字符串转换成它所对应的ip 地址(查阅域名服务,稍 后)。socket()函数我想我不能再不提这个了下面我将讨论一下socket()系统调用。下面是详细介绍:#include#include int so
25、cket(int domain,int type,int protocol);但是它们的参数是什么?首先,domain 应该设置成 af_inet,就 象上面的数据结构struct sockaddr_in 中一样。然后,参数 type 告诉内核是 sock_stream 类型还是 sock_dgram 类型。最后,把 protocol 设置为 0。(注意:有很多种 domain、type,我不可能一一列出了,请看 socket()的 man 帮助。当然,还有一个 更好 的方式去得到 protocol。同 时请查阅 getprotobyname()的 man 帮助。)socket()只是返回你以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 socket 编程 指南
限制150内