こちらの記事でChEMBLから引っ張ってきたデータを可視化しました。
全体を俯瞰することも大切ですが、キーになりそうな化合物を見つけることも大切です。
というのが今日のお話です。
データのどこに目を向けるのか
論文や特許を見る場合、データのどんなところを気にするでしょうか。
- 活性値
- 選択性
- ADME
- PK
- 薬効
- 開発状況
- 臨床データ
化合物のステージによって記載されている情報が当然違うと思いますが、それぞれのステージのチャンピオン、例えば活性が最も強い化合物や選択性が最も高い化合物が先に進むわけではないので注意が必要です。
今回は全体を俯瞰しているので、化合物あたりのデータ数が多い化合物に注目すればキーになりそうな化合物が見えてくると考えます。
実習
データはこちらでクレンジングしたものを再利用します。
化合物あたりの統計量を調べたいので、Molecule ChEMBL ID
でgroupby
します。
文献あたりの記載回数が多ければ、色々データを取るようなキー化合物だろうと想像するのでDocument ChEMBL ID
に絞り込みます。
dfi = df.groupby(['Molecule ChEMBL ID'])['Document ChEMBL ID'].describe() dfi[dfi['unique']>2]
- count : データ記載回数
- unique : データが記載された論文数
- top : データ記載頻度の最も高い論文ID
- freq : topの中でデータが記載された回数
という感じだと思います。
1度しか論文に載っていない化合物が多すぎるので、filterで除いてあります。
CHEMBL221959
という化合物は25の論文に計30回記載されていますが、論文あたり最も多く記載された回数は2回でした。今回の標的はTYK2というkinaseなので、上市品など有名な化合物で活性と選択性のポテンシャル確認が多かったのかもなと予想します。
どんな化合物でしょうか。
from rdkit.Chem import Draw dft = df[df['Molecule ChEMBL ID']=='CHEMBL221959'] Draw.MolToImage(dft['Molecule_Image'].iloc[0], legend=dft['Molecule Name'].iloc[0])
Tofacitinib
という同じく一番最初に上市されたJAKiでした。 ヤッパリネ!
CHEMBL4435170
は記載論文数が4報にも関わらず、最多データ記載回数が5回なので色々とデータが報告された化合物かもしれません。
c_list = [ 'Molecule Name', 'Document ChEMBL ID', 'Assay Description', 'Standard Type', 'Standard Value', 'Standard Units', 'Murcko_generic_SMILES' ] dft = df[df['Molecule ChEMBL ID']=='CHEMBL4435170'] dft.loc[:, c_list].sort_values('Document ChEMBL ID')
完全にたまたまなんですが、これまで紹介してきたDeucravacitinib
がヒットしました(笑)。
細胞活性やアロステリック活性の報告だったみたいです。
Document ID
から文献を調べる方法は次の宿題ということで。。(やり方忘れた。。
もう一度見渡す
Deucravacitinib
はやっぱり注目すべき化合物だったんだろうなということで、化合物の起源をもう少し調べたいです。
Murcko_generic_SMILES
を使って遡ってみます。
df_deu = df[df['Murcko_generic_SMILES']=='CC(CC1CCCC(CC2CCCC(C3CCCC3)C2)C1)C1CC1'] df_deu.loc[:, ['Molecule Name', 'Compound Key', 'Document ChEMBL ID', 'Document Year']]
あれ?案外報告されてなかったケモタイプなんですね...
じゃあ同じ文献内で分子量の小さいケモタイプを遡って...
みたいにすると化合物起源にたどり着けると思います。
順番が逆になってしまいましたが、Deucravacitinib
のストーリーは非常にざっくりとこちらで紹介しています。
ChEMBLのデータは特許が入ってませんし、商用データベースと比べると網羅性は高くありません。
ただ、データとしては重要なものを綺麗にまとめてくれてるので非常に有用だなと思いました。
おしまい。