データのどこに目を向けるのか

論文や特許を見る場合、データのどんなところを気にするでしょうか。

活性値
選択性
ADME
PK
薬効
開発状況
臨床データ

化合物のステージによって記載されている情報が当然違うと思いますが、それぞれのステージのチャンピオン、例えば活性が最も強い化合物や選択性が最も高い化合物が先に進むわけではないので注意が必要です。
今回は全体を俯瞰しているので、化合物あたりのデータ数が多い化合物に注目すればキーになりそうな化合物が見えてくると考えます。

実習

データはこちらでクレンジングしたものを再利用します。

keetaneblog.hatenablog.com

化合物あたりの統計量を調べたいので、Molecule ChEMBL IDでgroupbyします。
文献あたりの記載回数が多ければ、色々データを取るようなキー化合物だろうと想像するのでDocument ChEMBL IDに絞り込みます。

dfi = df.groupby(['Molecule ChEMBL ID'])['Document ChEMBL ID'].describe()
dfi[dfi['unique']>2]

count : データ記載回数
unique : データが記載された論文数
top : データ記載頻度の最も高い論文ID
freq : topの中でデータが記載された回数

という感じだと思います。
1度しか論文に載っていない化合物が多すぎるので、filterで除いてあります。

CHEMBL221959という化合物は25の論文に計30回記載されていますが、論文あたり最も多く記載された回数は2回でした。今回の標的はTYK2というkinaseなので、上市品など有名な化合物で活性と選択性のポテンシャル確認が多かったのかもなと予想します。
どんな化合物でしょうか。

from rdkit.Chem import Draw
dft = df[df['Molecule ChEMBL ID']=='CHEMBL221959']
Draw.MolToImage(dft['Molecule_Image'].iloc[0], legend=dft['Molecule Name'].iloc[0])

Tofacitinibという同じく一番最初に上市されたJAKiでした。ヤッパリネ！

www.jseikei.com

CHEMBL4435170は記載論文数が4報にも関わらず、最多データ記載回数が5回なので色々とデータが報告された化合物かもしれません。

c_list = [
    'Molecule Name',
    'Document ChEMBL ID',
    'Assay Description',
    'Standard Type',
    'Standard Value',
    'Standard Units',
    'Murcko_generic_SMILES'
]

dft = df[df['Molecule ChEMBL ID']=='CHEMBL4435170']
dft.loc[:, c_list].sort_values('Document ChEMBL ID')

完全にたまたまなんですが、これまで紹介してきたDeucravacitinibがヒットしました(笑)。
細胞活性やアロステリック活性の報告だったみたいです。
Document IDから文献を調べる方法は次の宿題ということで。。(やり方忘れた。。

もう一度見渡す

Deucravacitinibはやっぱり注目すべき化合物だったんだろうなということで、化合物の起源をもう少し調べたいです。
Murcko_generic_SMILESを使って遡ってみます。

df_deu = df[df['Murcko_generic_SMILES']=='CC(CC1CCCC(CC2CCCC(C3CCCC3)C2)C1)C1CC1']
df_deu.loc[:, ['Molecule Name', 'Compound Key', 'Document ChEMBL ID', 'Document Year']]