一次BI系统事故教训


  描述: 突然之间,BI服务无法对外提供服务,整个BI+报表系统是ORACLE11G+OBIEE11G+Weblogic11G+Informatica8.6 构成,整个系统几乎是一己之力完成到上线。昨天甲方人员打电话给我,突然之间所有BI的站点,报表都无法登陆,查看后台服务,都正常。于是建议对方重启。还是没有解决,于是仔细分析日志。最终定位到问题所在。

1. OBIEE11G sawserver 的7001 anaytics web界面登陆,密码用户甲方确认无误。登陆还是现实密码或用户名错误 。 问题有点不对劲

2. 试用OBIEE11G Administrator Tool 连接 在线逻辑模型,登陆显示报错 。

    [nQSError: 37001]无法连接 Oracle BI Server 实例

3. 查看ORACLE BI Server 服务, opmnctl status 所有服务都处于激活状态。 可以排除 BI Server 端口占用的问题, 捉摸着是中间件的bi_platform中的服务有些可以崩溃了。 进一步查看 ORACLE BI Server 的日志 。

有如下报错

[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8] [85004] MDX Member Name Cache subsystem recovered entries: 0, size: 0 bytes.
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8] [13026] Error in getting roles from BI Security Service: 'Error Message From BI Security Service: PolicySet Invalid: WSM-06102 PolicyReference 策略引用 URI "oracle/wss_username_token_service_policy" 无效。 '
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8] nqsserver: Clustered Oracle BI Server started. Version: 11.1.1.6.0.120104.0152.000.
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: 94c] [43071] A connection with Cluster Controller bi-4lna2lrlna7w:9706 was established.
[2013-04-18T14:35:39.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCO8qy8F0Fg5xFDCiW0000Xo000003] [tid: a6c] Error Message From BI Security Service: PolicySet Invalid: WSM-06102 PolicyReference 策略引用 URI "oracle/wss_username_token_service_policy" 无效。
[2013-04-18T14:35:39.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCO8qy8F0Fg5xFDCiW0000Xo000003] [tid: a6c] [nQSError: 43126] Authentication failed: invalid user/password.

4.可以定位问题了,基本是由于

    This issues occur, when the application wsm-pm is not running. To resolve this, login to EM -> Application Deployments -> Internal Applications. The two applications wsm-pm on AdminServer and managed server should be up and running.

5.进入Weblogic Em 查看 WSM-PM服务 ,该服务处于崩溃状态。 重新启动。报错如下:

RDBMS Error,ORA-28001: the password has expired。 恍然大悟,非天灾人祸也。

6. Oracle 11G 有个新特性可以设置密码过期时间,

通过SQL查看

SQL> conn DEV1_MDS/Admin123
ERROR:
ORA-28001: the password has expired
通过SQL查看

SQL> select * from dba_profiles where profile='DEFAULT' AND resource_name='PASSW
ORD_LIFE_TIME'
2 ;

PROFILE RESOURCE_NAME RESOURCE
------------------------------ -------------------------------- --------
LIMIT
----------------------------------------
DEFAULT PASSWORD_LIFE_TIME PASSWORD
360

更改 DEV1_MDS 的口令
新口令:
重新键入新口令:
口令已更改
已连接。
SQL> conn DEV1_BIPLATFORM/Admin123
ERROR:
ORA-28001: the password has expired


更改 DEV1_BIPLATFORM 的口令
新口令:
重新键入新口令:
口令已更改
已连接。

7.重新启动 wms-em 服务,启动成功。

8.登陆 BIEE Administrator Tool ,登陆成功.

9.登陆报表和BI系统,登陆成功。

总结:这个案例比较的典型,进入大数据时代的集成系统的问题。 原来的OLTP或者BS的系统,问题比较单一,瓶颈比较单一,大部分瓶颈问题集中在数据库。

现在进入大数据时代,是个多数据源整合(分布式系统),业务单元网状集成的状况,不是说数据库DBA和中间件不重要了,是各个环节都有可能成为问题环境,要做到 开发运维一条心 ,还真不容易,扯的有点远,废话有点多。 总之跟我有点关系,当初在开发完成交付时,没有强调这个过期密码的问题 。最近出问题是必然娘的。

优质内容筛选与推荐>>
1、软件测试作业三
2、Linux内核设计与实现 第四章
3、解决方法:Eclipse的 window-->preferences里面没有Android选项
4、Node连接MySql返回数据给Https协议网站为什么不显示
5、c++类定义代码的分离


长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    阅读
    好看
    已推荐到看一看
    你的朋友可以在“发现”-“看一看”看到你认为好看的文章。
    已取消,“好看”想法已同步删除
    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号