ウェビナー参加者よりQ&Aに寄せられた質問
Q1. 自分のデータの処理に、どのくらいのCPUがかかるのかを、コマンドを送る前に知る方法はありますでしょうか。
CPUやメモリの使用量を事前に予測するのは難しい点がありますが、処理するデータ量で線形に必要量が多くなると予測できる場合は事前に小さなデータセットでテストしておくのがいいと思います。たとえば、実際は10GBのfastqファイルを処理する必要があるとき、手元のローカルのマシンで1MB程度にファイルを小さくして(DNA配列データなら最初の1,000本くらいだけのファイルを作って)、そのときのメモリ使用量などをテストしてみるのがいいと思います。MacでもWindowsでも、現在のプロセスの逼迫度合を表示するアプリケーションがあります。それで推定された値を、実際のファイルサイズぶんに掛け算して大体の使用量を推定したりします。
Q2. Windowspowershellのショットカットキーですが、遺伝研でログインしているかどうかで動作変わることあるのでしょうか。オンラインでアカウントもないのでwindowspowershellで練習していたのですが、たとえばcontrol+Aでは全選択になりました。
はい、変わると思います。powershell上ではwindowsのショートカットですが、遺伝研スパコンにログインすると、linuxのショートカットとして処理されると思います。
Q3. シングルクォート「’」でdateを囲むと、最後に「date」と文字列が出力されてしまいます。スクリプトとしてdateを動かすには、バッククォート「`」(macだとshift + @)で囲む必要があるということですね。
はい、おっしゃる通りです。シェルスクリプト上で、シングルクオート、ダブルクオート、バッククオートはそれぞれ役割が異なります。変数展開ならダブルクオート、コマンド評価の展開ならバッククオート、という感じです。
Q4. 「解析環境の構築」のセッションで使っているスライドはどこかで再度(後日)見ることはできますか?
Q5. samtoolsなどを新しいものを使いたいと思った場合には、仮想環境を新しく作るものなのでしょうか。以前入れたminicondaで入れたcondaなどがある場合には、今日の説明の場合は、具体的にどのようにするとぶつかったりしないのか、最後に教えていただけると嬉しいです。
解析ごとに、ツール群のバージョンを固定した仮想環境を作って残しておくのが安全だと思います。ツールのバージョンを頻繁にアップデートすると、去年動いたはずの解析が動かなくなっていて絶望しかねないので。研究に使った環境はバージョンも含めて全部フリーズしておいたほうが心理的に安心です。前入れたcondaがあっても、conda create -n XXXなどで新しい仮想環境を作っておけばOKです。仮想環境で隔離しておけばぶつかる心配はありません。
Q6. cp -r /usr/local/shared_data/lecture/20231030 .を実行しようとすると、cannot stat ‘/usr/local/shared_data/lecture/20231030’: No such file or directoryとなってしまいます。原因として何が考えられるでしょうか?
いったんスパコンからexitコマンドで出て、もう一度接続してみてもらえますか?プロンプトが「アカウント名@gwB1」になったらqloginコマンドを実行すると、「アカウント名@at138」(at138は例で実際は別のマシン名が表示されます)のように表示されることを確認してください。