Grüezi,
世間ではコロナウィルスが大流行ですが,皆さんいかがお過ごしでしょうか.
さて,この数週間でCOVID-19関連の構造情報が複数公開され,各PDBサイトにも特集が組まれています.
2020/3/14現在でRCSB PDBのサイトには19個の構造情報が公開されています.19個の結晶構造を一変にダウンロードするのは面倒なので,一発で済ます方法を紹介します.*但し,KNIMEユーザーに限る.
*2020/03/18 Molecule Type Cast Nodeは不要だったので削除しました.
本日のコンテンツはこちら.
- KNIMEのWorkFlow
- PDB Connector
- PDB Downloader
- PDB Saver
- Renderer to Image
- Column Resorter
- Excel Writer
KNIMEのWorkFlow
まんま載せるとこんな感じです.
Community Nodes-Vernailsをインストールしておくと,RCSB PDB Toolsというノードが見つかります.それを並べただけのシンプルな構成です.
レポートをLoopで見やすく出来ないかは勉強中です...
PDB Connector
このノードを使うと,RSCB PDBのAdvanced Search(http://www.rcsb.org/pdb/search/advSearch.do)と同じ検索をかけることが出来ます.設定を少し見てみましょう.
Query Optionsは一番最初に私がハマったポイントです.
Remove Similar SequencesのSelectedからチェックを外してください.そうしないと,同じ報告内の異なるリガンドの共結晶構造ははじかれてしまいます.
Report OptionsでPDB IDからStructure Titleや掲載日など,簡単な情報を取ってきてくれます.結果はノードの下から出力されます.
Select Reportから,上の方にあるCustomizable Tableを選択し,必要な項目をチェックしていきます.とりあえずざっくりとStructure Summary,Ligands,Binding Affinity,Primary Citation辺りをチェックしておきます.後から変更できますし,Row Filterとかでも絞り込めます.基本の設定はここまでです.
IDs and Keywordsから検索したいQueryを作成します.Text Searchをアクティブにするのがシンプルで使いやすいかと思います.今回は話題のcovid-19と入力しておきます.
他にもFilterをかけたい時は他のタブから条件を絞り込んでいけばOKです.解像度や測定方法など,結構細かいことを絞り込めます.
設定を完了して実行すると下記のようにPDB IDとReportが返ってきます.
PDB Downloader
その名の通りでPDBをダウンロードしてきます.この時点で保存はされてません(!)
特に設定不要ですが,ダウンロードしたい項目を増やしたり変更したい時にはいじります.
PDB Saver
こちらもその名の通りで,DownloaderでダウンロードしたPDBをローカルに保存します.保存先のディレクトリに,以下のレポートも保存するといいと思います.
Renderer to Image
SMILESの構造情報は,そのままではExcelで単なる文字列としてしか表示できないので,このNodeでさらにPNGファイルに変換します.
SmilesをMarvinを使ってPng形式で200x200の大きさにして,Structureカラムに出力しますよ,という設定です.
Column Resorter
出力されるReportのカラムを並び替えておきます.
構造情報を前の方に並び替えておく方が,Chemist的にはなんとなくフレンドリーです.
Excel Writer
PDBと同じディレクトリを指定しておくと,色々と作業がしやすくなると思います.
以上,ここまでを一旦流してみると,2020/03/15現在登録されている19個の結晶構造と,そのレポートを一度に取ってこれました.レポートをもう少し見やすくまとめるのにLoopを使えないかなぁ...