今天工作原因,在线上的jenkins安装了一个需要的插件,然后需要重启生效,接着就重启了,接着就悲剧了。
前情说明
就是因为重启了一下,结果报了一堆插件无法加载,然后用到插件的比如pipeline插件的任务均无法显示,然后人都有点崩了,服务器查看,还好任务的配置信息还都在,日志显示也就只是无法load进来,并没有丢失数据。
过程分析
首先分析肯定是要看容器日志的,查看日志显示重启之后就一直提示加载一些插件失败,紧接着就挨个加载任务,也提示失败,启动完成之后,进入页面查看发现任务全没了,那问题大概率出现在那些插件上面,导致后面任务配置中有对应插件的也就直接无法启动了。
问题处理
由于日志已经有相应提示信息了,那尝试了各种办法,修复插件、下载相应版本插件本地安装插件,折腾了2个多小时未果,想着线上还有好多任务在排队,不能这么干等着啊,于是想出来最后的办法,升级!
将war包和对应的jobs目录备份,然后关闭容器,替换war包,启动容器等待,结果发现还真有了转机,然后就有处理接下来的一些问题,最后确保在jenkins启动过程中日志中不再显示错误为止,到目前基本恢复正常,只是版本不同,部分图片出现异常,需要逐步去补充处理了。
问题总结
事后对此次事故进行了回溯,感觉应该是在之前尝试过安装GerritTrigger,因为要求版本高于当前版本,并未安装成功,也就没有重启使之生效,随后立即卸载了该插件,但是实际该过程已经出现了异常,但是因为没有重启使之生效,所以未发觉该问题。所以在安装插件的时候一定要特别小心,当然如果不介意升级jenkins来解决可以随意处置了。
评论区