2007年7月23日随笔档案 - java思维

2007年7月23日 #

bcb6 中安装 boost

正则表达式是一种模式匹配形式，它通常用在处理的文本程序中。比如我们经常使用的grep工具，还是perl语言都使用了正则表达式。传统的C++处理正则表达式是非常麻烦的，这也成为很多其他语言爱好者的笑柄，现在情况不一样了，因为有了boost。

Boost是一个基于Template的开发源代码库，在这个库中有很多子库用来高效处理各方面的问题，比如字符串拆分，格式化，线程等等，Boost对于每一个C++爱好者都是应该了解的，对于C++ Builder用户如果能在熟练使用VCL的情况下再熟练使用Boost，我想一定如虎添翼。

一般来说，使用Boost是非常简单，和使用其他STL库没有太大区别，但使用Boost的正则表达式库则不那么容易，因为这个库还需要我们单独编译，下面我将详细介绍如何使用。

如果你还不知道或者还没有Boost的话，你可以去www.boost.org下载最新版本，作者使用的是1.30版本。将下载下来的zip包[1]解压到任何你喜欢的目录，比如D:\boost。

编译正则表达式库

前面已经提到，这个库需要我们单独编译才能使用，为什么不编译好一起发布呢？主要是考虑到不同的编译器需要不同的链接库文件和链接库太大了。在命令行下，进入[%Boost]\Libs\RegEx\Build目录，直接敲入make –fbcb6.mak命令开始编译，这里请大家注意了，如果你的计算机上同时安装了BCB5，请一定要把path设置成为BCB6的bcc32.exe程序所在的目录，否则可能使用BCB5的make程序，这样虽然能编译但最后不能使用。
编译过程相当耗时，你需要耐心等待，最终编译完成，会在[%Boost]\Libs\RegEx\Build目录生成一个BCB6目录，在这个目录生成了很多lib文件和dll文件，把所有dll文件复制到windows系统目录，所以lib文件复制到bcb6\lib目录。如果你不想这么麻烦的复制文件，可以在编译时加入install参数，就像这样make –fBcb6.mak install，不过作者还是比较喜欢前一种方式，这样我可以知道到底生成了什么文件。现在编译已经完成了，你可以体现boost的神奇魅力了。

#include<deque>
#include<iostream>
#include<algorithm>
#include<boost/regex.hpp>
int main()
{
using namespace boost;
using namespace std;
regex expression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);
string s="<a href=\"index.html\"><img src=\"logo.gif\"></a>";
deque<string> result;
regex_split(std::back_inserter(result),s,expression);
copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));
int c;
cin>>c;
return 0;
}

设置BCB6 Project属性的Lib Path和Include Path为你安装boost的目录，运行你会看到结果：
index.html
可以看到index.html已经从字符串中提出出来了，那么为什么会是这样呢？
代码的核心部分是：
regex expression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);
它用来设置如何匹配字符串，上面乱七八糟的字符串很难看懂，如果不了解正则表达式的书写规则，上
面代码可以和天书媲美。
regbase::normal|regbase::icase 是解析参数设置，具体可以参考boost帮助文档。
正则表达式的书写规则
具体的书写规则，大家可以参看boost的文档，我这里做一下简要说明：
. (dot)
用来匹配任何一个字符，但不包括新行上的字符
*
闭包，任意有限次的自重复连接
+
有限次自重复连接，但至少出现一次
{}
指定可能的重复次数
例如：
ba* 匹配 b ba baa baaa等
ba+ 匹配 ba baa baaaaaaaaa等
ba{1,5} 匹配 ba baa baaa baaaa baaaaa
\
转义字符，有很多用途，根据参数设置而变化，最常见的就是类似于c语言\的用法
\s
匹配空格
\w
匹配一个单词
\d
匹配数字
()
有两种用法：
1是合并的作用，例如(ab)*匹配ab abab ababab等
2是确定匹配，也就是说在()中的字符将被最终拆解出来
根据上面这张表，我们可以很容易知道前面的那段天书如何解释。

一个实际的例子
前一段时间在CSDN上有一篇帖子，问题是有一种文件结构如（类似）：
@People{
Age=19
Speek=”Hay,{name},how are you”
}
问如何拆分字符串得到@后面的名字，=两边的属性名和属性值，引号里{}种的名字。
解决这个问题用正则表达式再合适不过了。
根据分析，我们可以这样构造匹配规则：
"@(.*?)\s*\\{" 匹配@开始的字符创，后面两种类型如何构造匹配规则留给大家思考吧。
这样我们可以轻易拆解这个例子。

性能分析
通过上面的讨论，大家已经了解到boost的强大威力，那个性能又如何呢？为此我们再实际来拆分一个
复杂的html代码，看看到底需要花费多少时间。
为了节省篇幅，这里就不列出html代码了，不过可以告诉大家，这是一个又Word生成的大小为186K
的html文件，这个文件中用到了很多<table>标签，所以我这里测试就来拆分所有<table>标签的
width属性。测试代码如下：

#include<deque>
#include<iostream>
#include<algorithm>
#include<boost/regex.hpp>
#include<vcl.h>
int main()
{
using namespace boost;
using namespace std;
TStringList* html=new TStringList();
html->LoadFromFile("D:\\1.htm");
regex expression("\\s+width=([^\"]*)\s+",regbase::normal|regbase::icase);
DWORD start=GetTickCount();
for(int n=0;n<html->Count;n++)
{
   string s=html->Strings[n].c_str();
   deque<string> result;
   regex_split(std::back_inserter(result),s,expression);
copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));
result.clear();
}
start=GetTickCount()-start;
delete html;
cout<<start;
int c;
cin>>c;
return 0;
}

输出结果为671毫秒，拆分得到1072个width属性值，我们可以看到boost的效率是非常高的，虽然与一些角本语言比起来解析速度还是慢，但已经可以满足大多数编程要求了。另外作者的计算机配置并不是非常高，相信拿到现在任何一台主流配置的计算机上都会优于作者的结果。
结束语

其实上面的强大威力只是boost的冰山一角，如果你不自己去体会，你很难想象到boost的强大威力。在boost里还有很多使用的库，比如格式化输出，字符串拆解，类型转换等，这些库使用起来也比较方便，大家可以自行参考boost文档。在这些库中还有两个库需要自行编译，他们是Python和thread库，而且这些库的编译需要专门的工具Jam，所以我们在编译这些库的时候还要编译jam工具，而编译jam工具也不是一件快乐的事情，麻烦同样出现在如果你安装了多个编译器，如果读者有兴趣可以自己试一下。

不过BCB6并不支持全部boost库，从boost提供的编译器支持表可以看到[2]，BCB6还是有相当多的库不支持的，支持最好的是gcc/g++的编译器，但也不是全部支持。希望borland下一个将要发布的C++编译器可以支持更多C++标准。

[1] 其实还有其他类型的包，但在windows系统下，你最好下载zip包

[2] Boost提供的编译器支持表是针对BCB5的，对于BCB6的支持作者并没有详细测试，如果读者有兴趣可以自己测试boost附带的测试代码。

posted @ 2008-12-07 21:22 john 阅读(919) | 评论 (0) | 编辑收藏

RedHat LinuxAS4 cvs 服务器搭建步骤

根据网上各种文档整理而成.=号两边要空格的问题折磨了我好久.

1:安装

先检查是否安装CVS包

#>rpm -qa|grep cvs

没有安装的话,用下面2种方法安装

(1):在安装linux的时候可以选择安装CVS包
(2):另外下载CVS RPM包自行安装

2:建立cvs用户和组

#> groupadd cvs
#> useradd -g cvs -G cvs –d /cvsroot cvsroot
#> passwd cvsroot

更改目录属性
chmod –R 770 /cvsroot

3:建立CVS服务

#more /etc/services | grep cvspserver

看看是否有
cvspserver 2401/tcp #CVS client/server operations
cvspserver 2401/udp #CVS client/server operations

如果没有需要到/etc/service文件中增加

建立#vi /etc/xinet.d/cvspserver 文件内容如下

service cvspserver
{
disable = no
flags = REUSE
socket_type = stream
wait = no
user = root
server = /usr/bin/cvs
server_args = -f --allow-root=/cvsroot pserver
}

该文件有特别要注意的地方,所有=号两边都需要空一个空格,除了"root=/cvsroot" 所有要空格的地方,不要多加空格.否则会有CVS服务不能启动的问题

切换到cvsroot用户

#cvs -d /cvsroot init

然后重新启动xinetd服务或者重启动机器

#service xinetd restart

然后用

#netstat -l | grep cvspserver
or
#netstat -l | grep 2401

看是否有下面tcp 0 0 *:cvspserver *:* LISTEN

说明已经正常启动，没有的话请重新检查配置过程是否有错误或者遗漏。最后还必须检查防火墙的设置，把2401端口打开。

4:用户管理

CVS默认使用系统用户登录,所有系统用户都可以登陆,但是这样对系统不安全,我们需要独立的用户管理.CVS用户名和密码保存在CVSROOT目录下的passwd文件中.格式

用户名:密码:系统用户

#htpasswd passwd username

用来设置用户密码并保存到passwd文件中.

然后需要关闭系统用户登陆使用cvs的权限,CVSROOT目录下的config文件,把#SystemAuth=no的#去掉就可以了.

测试登陆

#cvs -d “:pserver:username@127.0.0.1:/cvsroot” login

5 :源代码仓库的备份和移动
基本上，CVS的源代码仓库没有什么特别之处，完全可以用文件备份的方式进行备份。需要注意的只是，应该确认备份的过程中没有用户提交修改，具体的做法可以是停止CVS服务器或者使用锁等等。恢复时只需要把这些文件按原来的目录结构存放好，因为CVS的每一个模块都是单独的一个目录，与其他模块和目录没有任何瓜葛，相当方便。甚至只需要在仓库中删除一个目录或者文件，便可以删除该模块的一些内容，不过并不建议这么做，使用CVS的删除功能将会有一个历史记录，而对仓库的直接删除不留任何痕迹，这对项目管理是不利的。移动仓库与备份相似，只需要把该模块的目录移动到新的路径，便可以使用了。
如果不幸在备份之后有过一些修改并且执行了提交，当服务器出现问题需要恢复源代码仓库时，开发者提交新的修改就会出现版本不一致的错误。此时只需要把CVS相关的目录和文件删除，即可把新的修改提交。

6．更进一步的管理
CVSROOT目录下还有很多其他功能，其中最重要的就是modules文件。这个文件定义了源代码库的模块，下面是一个例子：

代码:

Linux Linux
Kernel Linux/kernel

这个文件的内容按行排列，每一行定义一个模块，首先是模块名，然后是模块路径，这是相对于CVS根目录的路径。它定义了两个模块，第一个是Linux模块，它位于Linux目录中，第二个是Kernel模块，这是Linux模块的子模块。
modules文件并非必须的，它的作用相当于一个索引，部分CVS客户端软件通过它可以快速找到相应的模块，比如WinCVS。

7．协同开发的问题
默认方式下，CVS允许多个用户编辑同一个文件，这对一个协作良好的团队来说不会有什么问题，因为多个开发者同时修改同一个文件的同一部分是不正常的，这在项目管理中就应该避免，出现这种情况说明项目组内部没有统一意见。而多个开发者修改文件的不同部分，CVS可以很好的管理。
如果觉得这种方式难以控制，CVS也提供了解决办法，可以使用cvs admin -l进行锁定，这样一个开发者正在做修改时CVS就不会允许其他用户checkout。这里顺便说明一下文件格式的问题，对于文本格式，CVS可以进行历史记录比较、版本合并等工作，而二进制文件不支持这个操作，比如word文档、图片等就应该以二进制方式提交。对于二进制方式，由于无法进行合并，在无法保证只有一个用户修改文件的情况下，建议使用加锁方式进行修改。必须注意的是，修改完毕记得解锁。
从1.6版本开始，CVS引入了监视的概念，这个功能可以让用户随时了解当前谁在修改文件，并且CVS可以自动发送邮件给每一个监视的用户告知最新的更新。

8．建立多个源代码仓库
如果需要管理多个开发组，而这些开发组之间不能互相访问，可以有2个办法：
a．共用一个端口，需要修改cvspserver文件，给server_args指定多个源代码路径，即多个—allow-root参数。由于xinetd的server_args长度有限制，可以在cvspserver文件中把服务器的设置重定向到另外一个文件，如：

代码:

server = /home/cvsroot/cvs.run

然后创建/home/cvsroot/cvs.run文件，该文件必须可执行，内容格式为：

代码:

#!/bin/bash
/usr/bin/cvs -f \
--allow-root=/home/cvsroot/src1 \
--allow-root=/home/cvsroot/src2 \
pserver

注意此时源代码仓库不再是/home/cvsroot，进行初始化的时候要分别对这两个仓库路径进行初始化，而不再对/home/cvsroot路径进行初始化。
b．采用不同的端口提供服务
重复第2步和第3步，为不同的源代码仓库创建不同服务名的启动脚本，并为这些服务名指定不同的端口，初始化时也必须分别进行初始化。

posted @ 2008-05-25 02:04 john 阅读(461) | 评论 (0) | 编辑收藏

Oracle 内存分配建议

Oracle 内存分配建议

关于SGA设置的一点总结

本总结不针对特例，仅对服务器只存在OS + ORACLE 为例，如果存在其他应用请酌情考虑
写这个也是因为近来这种重复性的问题发生的太多所导致的

首先不要迷信STS,SG,OCP,EXPERT 等给出的任何建议、内存百分比的说法
基本掌握的原则是， data buffer 通常可以尽可能的大，shared_pool_size 要适度，log_buffer 通常大到几百K到1M就差不多了

设置之前，首先要明确2个问题
1：除去OS和一些其他开销，能给ORACLE使用的内存有多大
2：oracle是64bit or 32 bit,32bit 通常 SGA有 1.7G 的限制(某些OS的处理或者WINDOWS上有特定设定可以支持到2G以上甚至达到3.7G，本人无这方面经验)

下面是我的windows2000下的oracle :

SQL> select * from v$version;

BANNER
----------------------------------------------------------------
Oracle8i Enterprise Edition Release 8.1.7.0.0 - Production
PL/SQL Release 8.1.7.0.0 - Production
CORE 8.1.7.0.0 Production
TNS for 32-bit Windows: Version 8.1.7.0.0 - Production
NLSRTL Version 3.4.1.0.0 - Production

SQL>

windows上存在32bit的限制，如AIX、HP UNIX 等有明确的64BIT OS and ORACLE的版本，32bit oracle可以装在64bit os 上，64 bit oracle不能装在32 bit OS上

不管oracle是32 bit ORACLE还是 64 bit 的,假定应用存在没有很好的使用bind var 的情况，也不能设置 shared_pool_size 过大，通常应该控制在200M--300M,如果是 ORACLE ERP 一类的使用了很多存储过程函数、包，或者很大的系统，可以考虑增大shared_pool_size ,但是如果超过500M可能是危险的，达到1G可能会造成CPU的严重负担，系统甚至瘫痪。所以shared_pool_size 如果超过300M还命中率不高，那么应该从应用上找原因而不是一味的增加内存，shared_pool_size 过大主要增加了管理负担和latch 的开销。

log_buffer : 128K ---- 1M 之间通常问题不大，不应该太大

large_pool_size :如果不设置MTS，通常在 RMAN 、OPQ 会使用到，但是在10M --- 50M 应该差不多了。假如设置 MTS,则由于 UGA 放到large_pool_size 的缘故，这个时候依据 session最大数量和 sort_ares_size 等参数设置，必须增大large_pool_size 的设置，可以考虑为 session * (sort_area_size + 2M)。这里要提醒一点，不是必须使用MTS，我们都不主张使用MTS，尤其同时在线用户数小于500的情况下。

java_pool_size : 若不使用java，给30M通常就够了

data buffer ,在做了前面的设置后，凡可以提供给oracle的内存，都应该给data buffer = (db_block_size * db_block_buffers)
在9i 中可以是 db_cache_size

还有2个重要参数我们需要注意

sort_area_size and hash_area_size
这两个参数在非MTS下都是属于PGA ，不属于SGA,是为每个session单独分配的，在我们的服务器上除了OS + SGA,一定要考虑这两部分

(****) : OS 使用内存+ SGA + session*(sort_area_size + hash_area_size + 2M) < 总物理RAM 为好

这样归结过来，假定oracle是 32 bit ,服务器RAM大于2G ，注意你的PGA的情况，,则建议

shared_pool_size + data buffer +large_pool_size + java_pool_size < 1.6G

再具体化，注意满足上面(****) 的原则的基础上可以参考如下设置
如果512M RAM
建议 shared_pool_size = 50M, data buffer = 200M

如果1G RAM
shared_pool_size = 100M , data buffer = 500M

如果2G
shared_pool_size = 150M ,data buffer = 1.2G

物理内存再大已经跟参数没有关系了

假定64 bit ORACLE

内存4G
shared_pool_size = 200M , data buffer = 2.5G

内存8G
shared_pool_size = 300M , data buffer = 5G

内存 12G
shared_pool_size = 300M-----800M , data buffer = 8G

以上仅为参考值，不同系统可能差异比较大，需要根据具体情况调整。建议在设置参数的同时，init中使用 lock_sga ，在不同的平台上可能有不同的方式，使得SGA锁定在物理内存中而不被放入 SWAP 中，这样对效率有好处

关于内存的设置，要再进行细致的调整，起的作用不大，但可根据statspack信息和v$system_event,v$sysstat,v$sesstat,v$latch 等view信息来考虑微调

posted @ 2008-01-28 23:58 john 阅读(843) | 评论 (0) | 编辑收藏

Oracle 回滚段空间回收步骤

摘要: 是谁"偷偷的"用了那么多空间呢(本来有几十个G的Free磁盘空间的)? 检查数据库表空间占用空间情况: SQL> select tablespace_name,sum(bytes)/1024/1024/1024 GB 2 from dba... 阅读全文

posted @ 2007-12-27 00:50 john 阅读(2301) | 评论 (1) | 编辑收藏

常用的MQ命令

最近在配置MQ,记下了一些常用的MQ命令,如下:

创建队列管理器
crtmqm –q QMgrName
-q是指创建缺省的队列管理器

删除队列管理器
dltmqm QmgrName

启动队列管理器
strmqm QmgrName
如果是启动默认的队列管理器，可以不带其名字

停止队列管理器
endmqm QmgrName 受控停止

endmqm –i QmgrName 立即停止

endmqm –p QmgrName 强制停止

显示队列管理器
dspmq –m QmgrName

运行MQ命令
runmqsc QmgrName
如果是默认队列管理器，可以不带其名字

往队列中放消息
amqsput QName QmgrName
如果队列是默认队列管理器中的队列，可以不带其队列管理器的名字

从队列中取出消息
amqsget QName QmgrName
如果队列是默认队列管理器中的队列，可以不带其队列管理器的名字

启动通道
runmqchl –c ChlName –m QmgrName

启动侦听
runmqlsr –t TYPE –p PORT –m QMgrName

停止侦听
endmqlsr -m QmgrName

下面是在MQ环境中可以执行的MQ命令(即在runmqsc环境下可以敲的命令)

定义持久信队列
DEFINE QLOCAL（QNAME） DEFPSIST（YES） REPLACE

设定队列管理器的持久信队列
ALTER QMGR DEADQ（QNAME）

定义本地队列
DEFINE QL（QNAME） REPLACE

定义别名队列
DEFINE QALIAS(QALIASNAME) TARGQ(QNAME)

远程队列定义
DEFINE QREMOTE（QRNAME） +
RNAME（AAA） RQMNAME（QMGRNAME） +
XMITQ（QTNAME）

定义模型队列
DEFINE QMODEL（QNAME） DEFTYPE（TEMPDYN）

定义本地传输队列
DEFINE QLOCAL(QTNAME) USAGE(XMITQ) DEFPSIST(YES) +
INITQ（SYSTEM.CHANNEL.INITQ）+
PROCESS(PROCESSNAME) REPLACE

创建进程定义
DEFINE PROCESS（PRONAME） +
DESCR（‘STRING’）+
APPLTYPE（WINDOWSNT）+
APPLICID（’ runmqchl -c SDR_TEST -m QM_ TEST’）
其中APPLTYPE的值可以是：CICS、UNIX、WINDOWS、WINDOWSNT等

创建发送方通道
DEFINE CHANNEL（SDRNAME） CHLTYPE（SDR）+
CONNAME（‘100.100.100.215(1418)’） XMITQ（QTNAME） REPLACE
其中CHLTYPE可以是：SDR、SVR、RCVR、RQSTR、CLNTCONN、SVRCONN、CLUSSDR和CLUSRCVR。

创建接收方通道
DEFINE CHANNEL（SDR_ TEST） CHLTYPE（RCVR） REPLACE

创建服务器连接通道
DEFINE CHANNEL（SVRCONNNAME） CHLTYPE（SVRCONN） REPLACE

显示队列的所有属性
DISPLAY QUEUE（QNAME） [ALL]

显示队列的所选属性
DISPLAY QUEUE（QNAME） DESCR GET PUT
DISPLAY QUEUE（QNAME）MAXDEPTH CURDEPTH

显示队列管理器的所有属性
DISPLAY QMGR [ALL]

显示进程定义
DISPLAY PROCESS（PRONAME）

更改属性
ALTER QMGR DESCR（‘NEW DESCRIPTION’）
ALTER QLOCAL（QNAME） PUT（DISABLED）
ALTER QALIAS（QNAME） TARGQ（TARGQNAME）

删除队列
DELETE QLOCAL（QNAME）
DELETE QREMOTE（QRNAME）

清除队列中的所有消息
CLEAR QLOCAL（QNAME）

以下是一些高级配置的命令:

amqmcert 配置SSL证书

amqmdain 配置windows上的MQ服务

crtmqcvx 转换数据

dmpmqaut 转储对象权限管理

dmpmqlog 转储日志管理

dspmq 显示队列管理器

dspmqaut 显示打开对象的权限

dmpmqcap 显示处理程序容量和处理程序数

dspmqcsv 显示命令服务器状态

dspmqfls 显示文件名

dspmqtrc 跟踪MQ输出(HP-UNIX LINUX Solaris)

dspmqrtn 显示事务的详细信息

endmqcsv 停止队列管理器上的命令服务器

strmqcsv 启动队列管理器上的命令服务器

endmqtrc 停止跟踪

rcdmqimg 向日志写对象的映像

rcmqobj 根据日志中的映像重新创建一个对象

rsvmqtrn 提交或逆序恢复事务

posted @ 2007-12-26 17:26 john 阅读(2629) | 评论 (0) | 编辑收藏

BCB UTF-8 格式转换

如果是字串转换.BCB有多个方法(如TStringConverter,或API的 WideCharToMultiByte/MultiByteToWideChar,VCL的WideCharToString/StringToWideChar等)
当然,BCB本身就支持三种字串,前两种可自动转,后一种有函数:
String x; //GBK
WideString y; //unicode
UTF8String z; //utf8

x=y; //自动
y=x; //自动
z=AnsiToUtf8(x);
x=Utf8ToAnsi(z);

posted @ 2007-11-22 18:11 john 阅读(2724) | 评论 (1) | 编辑收藏

Oracle安装的一些问题收集

摘要: 在安装过程中出现的一些问题的解决办法。值得收藏与学习。比如在安装的时候如果有中文的路径则会出现类似这样的提示:加载数据库时出错：areasQueries Oracle的系统要求企业版：CPU　最低PENTIUM　200M　推荐　PENTIUMIII　1G以上　　　　内存　最低128M　推荐　512M 　　　　硬盘空间　系统盘140M　安装盘4.5G（FAT32）或2.75G（... 阅读全文

posted @ 2007-10-24 20:50 john 阅读(1867) | 评论 (0) | 编辑收藏

东京爱情故事？

在经历了一段时间的起起落落以后，开始静下心来回顾近4年的往事，也想到了把东京爱情故事下载了下来看。用了1天时间把这部电视看完了。莉香的笑容确实让人感到阳光灿烂；我觉得她最大的错误，是喜欢了本来就不属于她的“丸子”。从故事一开始，就可以知道，完治的心留在了同学“里美”那里了，对于完治来说，莉香的出现，只是生命中的一个小小插曲。

posted @ 2007-07-23 23:08 john 阅读(302) | 评论 (0) | 编辑收藏

关于Bill Gates的一些评论，我喜欢

比尔~盖茨最聪明的地方不是他做了什么，而是他没做什么。他可以做许许多多的事情，却只专注在自己的操作系统，软件研发二不被市场中别的诱惑吸引。

做人要谦卑，做事要学会不断找问题--比尔·盖茨
在真理面前的谦卑，是比尔·盖茨一种内心态度，远比外面的风光无限、备受世人崇敬更重要。
有了在真理面前的谦卑，就可以在这个浮躁的世界中保持一颗安静的心灵，有更大的创造力和影响力。

posted @ 2007-07-23 22:55 john 阅读(350) | 评论 (0) | 编辑收藏

Linux系统环境下的Socket编程详细解析

什么是Socket

　　Socket接口是TCP/IP网络的API，Socket接口定义了许多函数或例程，程序员可以用它们来开发TCP/IP网络上的应用程序。要学Internet上的TCP/IP网络编程，必须理解Socket接口。

　　Socket接口设计者最先是将接口放在Unix操作系统里面的。如果了解Unix系统的输入和输出的话，就很容易了解Socket了。网络的Socket数据传输是一种特殊的I/O，Socket也是一种文件描述符。Socket也具有一个类似于打开文件的函数调用Socket()，该函数返回一个整型的Socket描述符，随后的连接建立、数据传输等操作都是通过该Socket实现的。常用的Socket类型有两种：流式Socket（SOCK_STREAM）和数据报式Socket（SOCK_DGRAM）。流式是一种面向连接的Socket，针对于面向连接的TCP服务应用；数据报式Socket是一种无连接的Socket，对应于无连接的UDP服务应用。

　　Socket建立

　　为了建立Socket，程序可以调用Socket函数，该函数返回一个类似于文件描述符的句柄。socket函数原型为：

　　int socket(int domain, int type, int protocol);

　　domain指明所使用的协议族，通常为PF_INET，表示互联网协议族（TCP/IP协议族）；type参数指定socket的类型：SOCK_STREAM 或SOCK_DGRAM，Socket接口还定义了原始Socket（SOCK_RAW），允许程序使用低层协议；protocol通常赋值"0"。Socket()调用返回一个整型socket描述符，你可以在后面的调用使用它。

　　Socket描述符是一个指向内部数据结构的指针，它指向描述符表入口。调用Socket函数时，socket执行体将建立一个Socket，实际上"建立一个Socket"意味着为一个Socket数据结构分配存储空间。Socket执行体为你管理描述符表。

　　两个网络程序之间的一个网络连接包括五种信息：通信协议、本地协议地址、本地主机端口、远端主机地址和远端协议端口。Socket数据结构中包含这五种信息。

　　Socket配置

　　通过socket调用返回一个socket描述符后，在使用socket进行网络传输以前，必须配置该socket。面向连接的socket客户端通过调用Connect函数在socket数据结构中保存本地和远端信息。无连接socket的客户端和服务端以及面向连接socket的服务端通过调用bind函数来配置本地信息。
Bind函数将socket与本机上的一个端口相关联，随后你就可以在该端口监听服务请求。Bind函数原型为：

int bind(int sockfd,struct sockaddr *my_addr, int addrlen); 
　　Sockfd是调用socket函数返回的socket描述符,
            my_addr是一个指向包含有本机IP地址及端口号等信息的sockaddr类型的指针；
            addrlen常被设置为sizeof(struct sockaddr)。 
　　struct sockaddr结构类型是用来保存socket信息的： 
　　struct sockaddr { 
　　 unsigned short sa_family; /* 地址族， AF_xxx */ 
char sa_data[14]; /* 14 字节的协议地址 */ 
}; 
　　sa_family一般为AF_INET，代表Internet（TCP/IP）地址族；sa_data
则包含该socket的IP地址和端口号。 
　　另外还有一种结构类型： 
　　struct sockaddr_in { 
　　 short int sin_family; /* 地址族 */ 
　　 unsigned short int sin_port; /* 端口号 */ 
　　 struct in_addr sin_addr; /* IP地址 */ 
　　 unsigned char sin_zero[8]; /* 填充0 以保持与struct sockaddr同样大小 */ 
　　};

　　这个结构更方便使用。sin_zero用来将sockaddr_in结构填充到与struct sockaddr同样的长度，可以用bzero()或memset()函数将其置为零。指向sockaddr_in 的指针和指向sockaddr的指针可以相互转换，这意味着如果一个函数所需参数类型是sockaddr时，你可以在函数调用的时候将一个指向sockaddr_in的指针转换为指向sockaddr的指针；或者相反。

　　使用bind函数时，可以用下面的赋值实现自动获得本机IP地址和随机获取一个没有被占用的端口号：

　　my_addr.sin_port = 0; /* 系统随机选择一个未被使用的端口号 */
　　my_addr.sin_addr.s_addr = INADDR_ANY; /* 填入本机IP地址 */
通过将my_addr.sin_port置为0，函数会自动为你选择一个未占用的端口来使用。同样，通过将my_addr.sin_addr.s_addr置为INADDR_ANY，系统会自动填入本机IP地址。

　　注意在使用bind函数是需要将sin_port和sin_addr转换成为网络字节优先顺序；而sin_addr则不需要转换。

　　计算机数据存储有两种字节优先顺序：高位字节优先和低位字节优先。Internet上数据以高位字节优先顺序在网络上传输，所以对于在内部是以低位字节优先方式存储数据的机器，在Internet上传输数据时就需要进行转换，否则就会出现数据不一致。

　　下面是几个字节顺序转换函数：

·htonl()：把32位值从主机字节序转换成网络字节序 
·htons()：把16位值从主机字节序转换成网络字节序 
·ntohl()：把32位值从网络字节序转换成主机字节序 
·ntohs()：把16位值从网络字节序转换成主机字节序

　　Bind()函数在成功被调用时返回0；出现错误时返回"-1"并将errno置为相应的错误号。需要注意的是，在调用bind函数时一般不要将端口号置为小于1024的值，因为1到1024是保留端口号，你可以选择大于1024中的任何一个没有被占用的端口号。

连接建立

　　面向连接的客户程序使用Connect函数来配置socket并与远端服务器建立一个TCP连接，其函数原型为：

　　int connect(int sockfd, struct sockaddr *serv_addr,int addrlen);
Sockfd是socket函数返回的socket描述符；serv_addr是包含远端主机IP地址和端口号的指针；addrlen是远端地质结构的长度。Connect函数在出现错误时返回-1，并且设置errno为相应的错误码。进行客户端程序设计无须调用bind()，因为这种情况下只需知道目的机器的IP地址，而客户通过哪个端口与服务器建立连接并不需要关心，socket执行体为你的程序自动选择一个未被占用的端口，并通知你的程序数据什么时候到打断口。

　　Connect函数启动和远端主机的直接连接。只有面向连接的客户程序使用socket时才需要将此socket与远端主机相连。无连接协议从不建立直接连接。面向连接的服务器也从不启动一个连接，它只是被动的在协议端口监听客户的请求。

　　Listen函数使socket处于被动的监听模式，并为该socket建立一个输入数据队列，将到达的服务请求保存在此队列中，直到程序处理它们。

　　int listen(int sockfd， int backlog);

　　Sockfd是Socket系统调用返回的socket 描述符；backlog指定在请求队列中允许的最大请求数，进入的连接请求将在队列中等待accept()它们（参考下文）。Backlog对队列中等待服务的请求的数目进行了限制，大多数系统缺省值为20。如果一个服务请求到来时，输入队列已满，该socket将拒绝连接请求，客户将收到一个出错信息。

　　当出现错误时listen函数返回-1，并置相应的errno错误码。

　　accept()函数让服务器接收客户的连接请求。在建立好输入队列后，服务器就调用accept函数，然后睡眠并等待客户的连接请求。

　　int accept(int sockfd, void *addr, int *addrlen);

　　sockfd是被监听的socket描述符，addr通常是一个指向sockaddr_in变量的指针，该变量用来存放提出连接请求服务的主机的信息（某台主机从某个端口发出该请求）；addrten通常为一个指向值为sizeof(struct sockaddr_in)的整型指针变量。出现错误时accept函数返回-1并置相应的errno值。

　　首先，当accept函数监视的socket收到连接请求时，socket执行体将建立一个新的socket，执行体将这个新socket和请求连接进程的地址联系起来，收到服务请求的初始socket仍可以继续在以前的 socket上监听，同时可以在新的socket描述符上进行数据传输操作。

　　数据传输

　　Send()和recv()这两个函数用于面向连接的socket上进行数据传输。

　　Send()函数原型为：

　　int send(int sockfd, const void *msg, int len, int flags);
Sockfd是你想用来传输数据的socket描述符；msg是一个指向要发送数据的指针；Len是以字节为单位的数据的长度；flags一般情况下置为0（关于该参数的用法可参照man手册）。

　　Send()函数返回实际上发送出的字节数，可能会少于你希望发送的数据。在程序中应该将send()的返回值与欲发送的字节数进行比较。当send()返回值与len不匹配时，应该对这种情况进行处理。
char *msg = "Hello!";
int len, bytes_sent;
……
len = strlen(msg);
bytes_sent = send(sockfd, msg,len,0);
……
　　recv()函数原型为：

　　int recv(int sockfd,void *buf,int len,unsigned int flags);

　　Sockfd是接受数据的socket描述符；buf 是存放接收数据的缓冲区；len是缓冲的长度。Flags也被置为0。Recv()返回实际上接收的字节数，当出现错误时，返回-1并置相应的errno值。

　　Sendto()和recvfrom()用于在无连接的数据报socket方式下进行数据传输。由于本地socket并没有与远端机器建立连接，所以在发送数据时应指明目的地址。
　　Sendto()函数原型为：
　　int sendto(int sockfd, const void *msg,int len,unsigned int flags,const struct sockaddr *to, int tolen);

　　该函数比send()函数多了两个参数，to表示目地机的IP地址和端口号信息，而tolen常常被赋值为sizeof (struct sockaddr)。Sendto 函数也返回实际发送的数据字节长度或在出现发送错误时返回-1。

　　Recvfrom()函数原型为：

　　int recvfrom(int sockfd,void *buf,int len,unsigned int flags,struct sockaddr *from,int *fromlen);

　　from是一个struct sockaddr类型的变量，该变量保存源机的IP地址及端口号。fromlen常置为sizeof (struct sockaddr)。当recvfrom()返回时，fromlen包含实际存入from中的数据字节数。Recvfrom()函数返回接收到的字节数或当出现错误时返回

　　1，并置相应的errno。

　　如果你对数据报socket调用了connect()函数时，你也可以利用send()和recv()进行数据传输，但该socket仍然是数据报socket，并且利用传输层的UDP服务。但在发送或接收数据报时，内核会自动为之加上目地和源地址信息。

　　结束传输

　　当所有的数据操作结束以后，你可以调用close()函数来释放该socket，从而停止在该socket上的任何数据操作：

　　close(sockfd);

　　你也可以调用shutdown()函数来关闭该socket。该函数允许你只停止在某个方向上的数据传输，而一个方向上的数据传输继续进行。如你可以关闭某socket的写操作而允许继续在该socket上接受数据，直至读入所有数据。

　　int shutdown(int sockfd,int how);

　　Sockfd是需要关闭的socket的描述符。参数 how允许为shutdown操作选择以下几种方式：
·0-------不允许继续接收数据
·1-------不允许继续发送数据
·2-------不允许继续发送和接收数据，
·均为允许则调用close ()

　　shutdown在操作成功时返回0，在出现错误时返回-1并置相应errno。

　面向连接的Socket实例

　　代码实例中的服务器通过socket连接向客户端发送字符串"Hello, you are connected!"。只要在服务器上运行该服务器软件，在客户端运行客户软件，客户端就会收到该字符串。

　　该服务器软件代码如下：

#include  
#include  
#include  
#include  
#include  
#include  
#include  
#include  
#define SERVPORT 3333 /*服务器监听端口号 */ 
#define BACKLOG 10 /* 最大同时连接请求数 */ 
main() 
{ 
int sockfd,client_fd; /*sock_fd：监听socket；client_fd：数据传输socket */ 
　struct sockaddr_in my_addr; /* 本机地址信息 */ 
　struct sockaddr_in remote_addr; /* 客户端地址信息 */ 
if ((sockfd = socket(AF_INET, SOCK_STREAM, 0)) == -1) { 
　　perror("socket创建出错！"); exit(1); 
} 
my_addr.sin_family=AF_INET; 
　my_addr.sin_port=htons(SERVPORT); 
　my_addr.sin_addr.s_addr = INADDR_ANY; 
bzero(&(my_addr.sin_zero),8); 
　if (bind(sockfd, (struct sockaddr *)&my_addr, sizeof(struct sockaddr)) \ 
　　 == -1) { 
perror("bind出错！"); 
exit(1); 
} 
　if (listen(sockfd, BACKLOG) == -1) { 
perror("listen出错！"); 
exit(1); 
} 
while(1) { 
　　sin_size = sizeof(struct sockaddr_in); 
　　if ((client_fd = accept(sockfd, (struct sockaddr *)&remote_addr, \ 
　　&sin_size)) == -1) { 
perror("accept出错"); 
continue; 
} 
　　printf("received a connection from %s\n", inet_ntoa(remote_addr.sin_addr)); 
　 if (!fork()) { /* 子进程代码段 */ 
　　 if (send(client_fd, "Hello, you are connected!\n", 26, 0) == -1) 
　　 perror("send出错！"); 
close(client_fd); 
exit(0); 
} 
　　close(client_fd); 
　　} 
　} 
}

　　服务器的工作流程是这样的：首先调用socket函数创建一个Socket，然后调用bind函数将其与本机地址以及一个本地端口号绑定，然后调用listen在相应的socket上监听，当accpet接收到一个连接服务请求时，将生成一个新的socket。服务器显示该客户机的IP地址，并通过新的socket向客户端发送字符串"Hello，you are connected!"。最后关闭该socket。

　　代码实例中的fork()函数生成一个子进程来处理数据传输部分，fork()语句对于子进程返回的值为0。所以包含fork函数的if语句是子进程代码部分，它与if语句后面的父进程代码部分是并发执行的。

　　客户端程序代码如下：

#include 
#include  
#include  
#include  
#include  
#include  
#include  
#include  
#define SERVPORT 3333 
#define MAXDATASIZE 100 /*每次最大数据传输量 */ 
main(int argc, char *argv[]){ 
　int sockfd, recvbytes; 
　char buf[MAXDATASIZE]; 
　struct hostent *host; 
　struct sockaddr_in serv_addr; 
　if (argc < 2) { 
fprintf(stderr,"Please enter the server's hostname!\n"); 
exit(1); 
} 
　if((host=gethostbyname(argv[1]))==NULL) { 
herror("gethostbyname出错！"); 
exit(1); 
} 
　if ((sockfd = socket(AF_INET, SOCK_STREAM, 0)) == -1){ 
perror("socket创建出错！"); 
exit(1); 
} 
　serv_addr.sin_family=AF_INET; 
　serv_addr.sin_port=htons(SERVPORT); 
　serv_addr.sin_addr = *((struct in_addr *)host->h_addr); 
　bzero(&(serv_addr.sin_zero),8); 
　if (connect(sockfd, (struct sockaddr *)&serv_addr, \ 
　　 sizeof(struct sockaddr)) == -1) { 
perror("connect出错！"); 
exit(1); 
} 
　if ((recvbytes=recv(sockfd, buf, MAXDATASIZE, 0)) ==-1) { 
perror("recv出错！"); 
exit(1); 
} 
　buf[recvbytes] = '\0'; 
　printf("Received: %s",buf); 
　close(sockfd); 
}

客户端程序首先通过服务器域名获得服务器的IP地址，然后创建一个socket，调用connect函数与服务器建立连接，连接成功之后接收从服务器发送过来的数据，最后关闭socket。

　　函数gethostbyname()是完成域名转换的。由于IP地址难以记忆和读写，所以为了方便，人们常常用域名来表示主机，这就需要进行域名和IP地址的转换。函数原型为：

　　struct hostent *gethostbyname(const char *name); 
　　函数返回为hosten的结构类型，它的定义如下： 
　　struct hostent { 
　 char *h_name; /* 主机的官方域名 */ 
　　 char **h_aliases; /* 一个以NULL结尾的主机别名数组 */ 
　　 int h_addrtype; /* 返回的地址类型，在Internet环境下为AF-INET */ 
　　int h_length; /* 地址的字节长度 */ 
　　 char **h_addr_list; /* 一个以0结尾的数组，包含该主机的所有地址*/ 
　　}; 
　　#define h_addr h_addr_list[0] /*在h-addr-list中的第一个地址*/

　　当 gethostname()调用成功时，返回指向struct hosten的指针，当调用失败时返回-1。当调用gethostbyname时，你不能使用perror()函数来输出错误信息，而应该使用herror()函数来输出。

　　无连接的客户/服务器程序的在原理上和连接的客户/服务器是一样的，两者的区别在于无连接的客户/服务器中的客户一般不需要建立连接，而且在发送接收数据时，需要指定远端机的地址。

　　阻塞和非阻塞

　　阻塞函数在完成其指定的任务以前不允许程序调用另一个函数。例如，程序执行一个读数据的函数调用时，在此函数完成读操作以前将不会执行下一程序语句。当服务器运行到accept语句时，而没有客户连接服务请求到来，服务器就会停止在accept语句上等待连接服务请求的到来。这种情况称为阻塞（blocking）。而非阻塞操作则可以立即完成。比如，如果你希望服务器仅仅注意检查是否有客户在等待连接，有就接受连接，否则就继续做其他事情，则可以通过将Socket设置为非阻塞方式来实现。非阻塞socket在没有客户在等待时就使accept调用立即返回。
　　#include
　　#include
　　……
sockfd = socket(AF_INET,SOCK_STREAM,0);
fcntl(sockfd,F_SETFL,O_NONBLOCK)；
……

　　通过设置socket为非阻塞方式，可以实现"轮询"若干Socket。当企图从一个没有数据等待处理的非阻塞Socket读入数据时，函数将立即返回，返回值为-1，并置errno值为EWOULDBLOCK。但是这种"轮询"会使CPU处于忙等待方式，从而降低性能，浪费系统资源。而调用select()会有效地解决这个问题，它允许你把进程本身挂起来，而同时使系统内核监听所要求的一组文件描述符的任何活动，只要确认在任何被监控的文件描述符上出现活动，select()调用将返回指示该文件描述符已准备好的信息，从而实现了为进程选出随机的变化，而不必由进程本身对输入进行测试而浪费CPU开销。Select函数原型为:
int select(int numfds,fd_set *readfds,fd_set *writefds，
fd_set *exceptfds,struct timeval *timeout);

　　其中readfds、writefds、exceptfds分别是被select()监视的读、写和异常处理的文件描述符集合。如果你希望确定是否可以从标准输入和某个socket描述符读取数据，你只需要将标准输入的文件描述符0和相应的sockdtfd加入到readfds集合中；numfds的值是需要检查的号码最高的文件描述符加1，这个例子中numfds的值应为sockfd+1；当select返回时，readfds将被修改，指示某个文件描述符已经准备被读取，你可以通过FD_ISSSET()来测试。为了实现fd_set中对应的文件描述符的设置、复位和测试，它提供了一组宏：
　　FD_ZERO(fd_set *set)----清除一个文件描述符集；
　　FD_SET(int fd,fd_set *set)----将一个文件描述符加入文件描述符集中；
　　FD_CLR(int fd,fd_set *set)----将一个文件描述符从文件描述符集中清除；
　　FD_ISSET(int fd,fd_set *set)----试判断是否文件描述符被置位。
　　Timeout参数是一个指向struct timeval类型的指针，它可以使select()在等待timeout长时间后没有文件描述符准备好即返回。struct timeval数据结构为：
　　struct timeval {
　　 int tv_sec; /* seconds */
　　 int tv_usec; /* microseconds */ };

　　POP3客户端实例

　　下面的代码实例基于POP3的客户协议，与邮件服务器连接并取回指定用户帐号的邮件。与邮件服务器交互的命令存储在字符串数组POPMessage中，程序通过一个do-while循环依次发送这些命令。

#include 
#include  
#include  
#include  
#include  
#include  
#include  
#include  
#define POP3SERVPORT 110 
#define MAXDATASIZE 4096 
             
            main(int argc, char *argv[]){ 
int sockfd; 
struct hostent *host; 
struct sockaddr_in serv_addr; 
char *POPMessage[]={ 
"USER userid\r\n", 
"PASS password\r\n", 
"STAT\r\n", 
"LIST\r\n", 
"RETR 1\r\n", 
"DELE 1\r\n", 
"QUIT\r\n", 
NULL 
}; 
int iLength; 
int iMsg=0; 
int iEnd=0; 
char buf[MAXDATASIZE]; 
            if((host=gethostbyname("your.server"))==NULL) { 
perror("gethostbyname error"); 
exit(1); 
} 
if ((sockfd = socket(AF_INET, SOCK_STREAM, 0)) == -1){ 
perror("socket error"); 
exit(1); 
} 
serv_addr.sin_family=AF_INET; 
serv_addr.sin_port=htons(POP3SERVPORT); 
serv_addr.sin_addr = *((struct in_addr *)host->h_addr); 
bzero(&(serv_addr.sin_zero),8); 
if (connect(sockfd, (struct sockaddr *)&serv_addr,sizeof(struct sockaddr))==-1){ 
perror("connect error"); 
exit(1); 
} 
            do { 
send(sockfd,POPMessage[iMsg],strlen(POPMessage[iMsg]),0); 
printf("have sent: %s",POPMessage[iMsg]); 
            iLength=recv(sockfd,buf+iEnd,sizeof(buf)-iEnd,0); 
iEnd+=iLength; 
buf[iEnd]='\0'; 
printf("received: %s,%d\n",buf,iMsg); 
            iMsg++; 
} while (POPMessage[iMsg]); 
            close(sockfd); 
}

posted @ 2007-07-23 22:45 john 阅读(694) | 评论 (0) | 编辑收藏

java思维

导航

统计

公告

常用链接

留言簿(2)

随笔分类

随笔档案

java - open source

搜索

最新评论

阅读排行榜

评论排行榜