背景
普通用户A提交bjob任务一直处于pend状态,而之前的用户B则可以成功提交并运行。
插曲
考虑是否用户权限不同
检查两个用户的组id是否一致,将用户A的分组和B一致,排除因组权限不同,导致的任务提交失败。
改了后,仍然无法解决。
最终方案
确定原因是因为新建立的用户A仅在管理节点上存在,而LSF的计算节点不存在该用户,导致提交了任务,而计算节点找不到任务的发起者,所以一直pend。
所以开始同步用户信息给计算的fat节点
- 使用root登录,远程同步覆盖scp
scp /etc/passwd /etc/shadow /etc/group fat01:/etc/
以上命令,相当于将管理节点的所有用户信息同步给计算节点了。
这样计算节点就可以找到任务的发起者,可以运行了。
- 以下命令可以查看用户A在计算节点fat01上是否存在。
ssh fat01 id userA
- 再提交任务,成功运行。
思考
- 在管理节点建立用户后,需要同步给计算节点,避免这种bug;
- 找到集群,新增用户的统一规范的命令。
|