一次web 服务器无法连接上Oracle 数据库的故障处理
今天早上维护人员打来电话说某移动的web server 无法连接到数据库,web server 报一大堆jdbc 的错误,最后报 sql error,但是并没有明显的ORA- 的错误,第一反映应该不是oracle 数据库的问题,估计是web server 与数据库连接出现了问题
然后远程登陆数据库系统,使用top 发现数据库服务器很闲,基本上没有什么负荷,查看 v$session 目前一共有74个 连接,show parameter process 最大是400个,数据库分配的资源应该没有什么问题,查看v$session_wait 也没有发现什么异常的等待事件。
现场人员重新启动了web server 故障依旧,应该也不是web server 的问题,焦点又转移到oracle 数据库上面,查看v$session 发现从这台服务器连接过来的有22个连接,web server 应该是有连接的。而且连接数还没有达到最大的连接数,即使连接数不够的话,应该报ora- 错误的
仔细想想,既然从那台web server 有连接过来,说明连接没有问题,那么这个应用怎么连不上呢?
既然是连接的问题,于是查看listener的日志文件listener.log
发现web server 连接数据库很频繁
23-MAR-2007 09:51:03 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35605)) * establish * ora9ha * 0
23-MAR-2007 09:51:03 * service_update * ora9ha * 0
23-MAR-2007 09:51:13 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35606)) * establish * ora9ha * 0
23-MAR-2007 09:51:23 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35608)) * establish * ora9ha * 0
23-MAR-2007 09:51:33 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35609)) * establish * ora9ha * 0
23-MAR-2007 09:51:43 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35610)) * establish * ora9ha * 0
23-MAR-2007 09:51:53 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35612)) * establish * ora9ha * 0
23-MAR-2007 09:51:57 * service_update * ora9ha * 0
23-MAR-2007 09:52:03 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35613)) * establish * ora9ha * 0
23-MAR-2007 09:52:14 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35614)) * establish * ora9ha * 0
23-MAR-2007 09:52:24 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35616)) * establish * ora9ha * 0
23-MAR-2007 09:52:34 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35617)) * establish * ora9ha * 0
23-MAR-2007 09:52:44 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HOST=192.168.18.5
)(PORT=35618)) * establish * ora9ha * 0
23-MAR-2007 09:52:54 * (CONNECT_DATA=(SID=ora9ha)(CID=(PROGRAM=)(HOST=__jdbc__)(USER=))) * (ADDRESS=(PROTOCOL=tcp)(HO
基本上几秒一次,既然web server 有自己的连接池,,从web server 过来的连接应该是长连接(也就是一直在连接)为什么连接如此频繁呢?询问应用人员,他说他的程序无法连接?既然他的程序无法连接,那么是不是有其他的程序也在这台web server 部署了应用程序呢?询问一下,果然有新的应用部署到了这台web server 上面。
但是如果新部署的应用程序如果连接池正常的话,即使增加了新的应用,也不会造成web server 连不上数据库的情况,仔细询问开发人员,把情况给他一说,问“为什么连接数据库如此频繁”开发人员说“他的程序为了保证应用连接数据库正常,每打开一个网页,都要手工的关闭连接,然后再连接”
这下原因找到了,原来开发人员怕网络出现中断影响程序,在前台网页打开一次,程序就关闭连接,然后重新再连接,所以才造成连接如此频繁,以至于web server 频繁的disconnect ,connect 数据库,造成数据库频繁的分配,释放资源,造成原来的应用无法连接数据库。
由于数据库服务器和web server 在同一个网络内,网络出现问题的可能性很小,开发人员修改了新的程序,配置了连接池,问题解决