生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

279

主题
发表于 2024-3-19 21:35:16 | 查看: 52| 回复: 0

背景

普通用户A提交bjob任务一直处于pend状态,而之前的用户B则可以成功提交并运行。

插曲

考虑是否用户权限不同

检查两个用户的组id是否一致,将用户A的分组和B一致,排除因组权限不同,导致的任务提交失败。

改了后,仍然无法解决。

最终方案

确定原因是因为新建立的用户A仅在管理节点上存在,而LSF的计算节点不存在该用户,导致提交了任务,而计算节点找不到任务的发起者,所以一直pend。

所以开始同步用户信息给计算的fat节点

  1. 使用root登录,远程同步覆盖scp
scp /etc/passwd /etc/shadow /etc/group fat01:/etc/

以上命令,相当于将管理节点的所有用户信息同步给计算节点了。 这样计算节点就可以找到任务的发起者,可以运行了。

  1. 以下命令可以查看用户A在计算节点fat01上是否存在。
ssh fat01 id userA
  1. 再提交任务,成功运行。

思考

  1. 在管理节点建立用户后,需要同步给计算节点,避免这种bug;
  2. 找到集群,新增用户的统一规范的命令。

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-6 00:34 , Processed in 0.044856 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表