Using natural language processing (NLP)-inspired molecular embedding approach to predict Hansen solubility parameters

文献情報

出版日 2023-11-29
DOI 10.1039/D3DD00119A
インパクトファクター 0
著者

Jiayun Pang, Alexander W. R. Pine, Abdulai Sulemana


原文を見る

要旨

Hansen solubility parameters (HSPs) have three components, δd, δp and δh, accounting for dispersion forces, polar forces, and hydrogen bonding of a molecule, which were designed to better understand how molecular structure affects miscibility/solubility. HSP is widely used throughout the pipeline of pharmaceutical research and yet has not been as well studied computationally as the aqueous solubility. In the current study, we predicted HSPs using only the SMILES of molecules and utilise the molecular embedding approach inspired by Natural Language Processing (NLP). Two pre-trained deep learning models – Mol2Vec and ChemBERTa have been used to derive the embeddings. A dataset of ∼1200 organic molecules with experimentally determined HSPs was used as the labelled dataset. Upon finetuning, the ChemBERTa model “learned” relevant molecular features and shifted attention to functional groups that give rise to the relevant HSPs. The finetuned ChemBERTa model outperforms both the Mol2Vec model and the baseline Morgan fingerprint method albeit not to a significant extent. Interestingly, the embedding models can predict δd significantly better than δh and δp and overall, the accuracy of predicted HSPs is lower than the well-benchmarked ESOL aqueous solubility. Our study indicates that the extent of transfer learning leveraged from the pre-trained models is related to the labelled molecular properties. It also highlights how δp and δh may have large intrinsic errors in the way they are defined and therefore introduces inherent limitations to their accurate prediction using machine learning models. Our work reveals several interesting findings that will help explore the potential of BERT-based models for molecular property prediction. It may also guide the possible refinement of the Hansen solubility framework, which will generate a wide impact across the pharmaceutical industry and research.

関連文献

Ultrafast photoinduced charge transport in Pt(ii) donor–acceptor assembly bearing naphthalimide electron acceptor and phenothiazine electron donor

Jonathan Best, Paul A. Scattergood, Michael Towrie, Sergei A. Tikhomirov, Oleg V. Bouganov, Anthony J. H. M. Meijer, Julia A. Weinstein

2014-10-24 Paper

DOI: 10.1039/C4CP03995E

Influence of process variables on extraction of Cefalexin in a novel biocompatible ionic liquid based-aqueous two phase system

Shiva Abdolrahimi, Bahram Nasernejad, Gholamreza Pazuki

2014-11-07 Paper

DOI: 10.1039/C4CP02923B

Structural dynamics effects on the ultrafast chemical bond cleavage of a photodissociation reaction

María E. Corrales, Garikoitz Balerdi, Rebeca de Nalda, Luis Bañares, Ahmed H. Zewail

2013-12-24 Paper

DOI: 10.1039/C3CP54677B

Unusual electroluminescence from n-ZnO@i-MgO core–shell nanowire color-tunable light-emitting diode at reverse bias

Xiaoming Mo, Guojia Fang, Hao Long, Songzhan Li, Haoning Wang, Zhao Chen, Huihui Huang, Wei Zeng, Yupeng Zhang, Chunxu Pan

2014-02-26 Paper

DOI: 10.1039/C3CP55505D

The mechanism of NaFePO4 (de)sodiation determined by in situ X-ray diffraction

Montserrat Galceran, Damien Saurel, Begoña Acebedo, Vladimir V. Roddatis, Egoitz Martin, Montse Casas-Cabanas

2014-03-20 Paper

DOI: 10.1039/C4CP01089B

Switching magnetic interactions in the NiFe Prussian Blue Analogue: an ab initio inspection

Tim Krah, Nadia Ben Amor, Vincent Robert

2014-04-03 Paper

DOI: 10.1039/C4CP00662C

Copper–amyloid-β complex may catalyze peroxynitrite production in brain: evidence from molecular modeling

Ilaria Ciofini, Li Rao, Christian Amatore

2014-01-15 Paper

DOI: 10.1039/C3CP54839B

Front cover

Cover

DOI: 10.1039/C4CP90060J

こちらもおすすめ

化合物よくある質問

S-(甲硅烷基丙基)異硫酰氯を取り扱う際の実験室安全事項は何ですか?

取り扱う際にはPPE(防護具)が必要です。特に手袋と面マスクは必須です。ドラフトチャンバーを使用して漏洩処理を行い、温度は常温、湿度は乾燥状態、容器はガラス容器...

84682-36-02-Amino-7,7-dimethox...
化合物よくある質問

8-硝基-咪唑并[1,2-a]吡啶とは何ですか?

8-硝基-咪唑并[1,2-a]吡啶は、CAS番号52310-46-0の化合物で、8-位に硝基を有する咪唑並みの结构をもつ吡啶の化合物です。この化合物は、酸化還元...

52310-46-08-Nitroimidazo[1,2-a...
化合物よくある質問

4-ブロモ-5-メトキシピリジン-2-甲醇の代替品はありますか?

4-ブロモ-5-メトキシピリジン-2-甲醇の代替品には、類似構造を持つ化合物や機能性に等しい代替試薬があります。例えば、4-クロロ-5-メトキシピリジン-2-甲...

1454849-84-3(4-Bromo-5-methoxy-2...
化合物よくある質問

全氟-1,2-二甲基環己烷を含む廃棄物はどのように処理すべきですか?

全氟-1,2-二甲基環己烷(CAS番号:306-98-9)の廃棄物は、特別な処理が必要です。まず、廃棄物を密閉容器に収集し、適切な防漏容器に保管します。次に、専...

306-98-91,1,2,2,3,3,4,4,5,6-...
化合物よくある質問

3-(溴甲基)苯乙酸の主な用途は何ですか?

3-(溴甲基)苯乙酸は主に研究用化学薬品として利用され、有機合成や医薬品の開発に用いられます。また、特定の化合物の合成中間体としても使用されることがあります。

118647-53-32-(3-(Bromomethyl)ph...
化合物よくある質問

5-イドキド-4-メチオキシ-6-メチルピリミジニン-2-アミンはどのように保存すればよいですか?

5-イドキド-4-メチオキシ-6-メチルピリミジニン-2-アミンは冷暗所で密栓の容器に保存し、直射日光を避けて保管することをお勧めします。温度は常温とし、湿気を...

23368-84-55-Iodo-4-methoxy-6-m...
化合物よくある質問

1-(2-溴-6-甲氧基苯基)乙酮を取り扱う際の実験室安全事項は何ですか?

実験室では、1-(2- Bromo-6-methoxyphenyl)ethanoneを取り扱う際には、ゴーグルや面具、手袋などのPPEを使用することが推奨されま...

380225-68-31-(2-Bromo-6-methoxy...
化合物よくある質問

5-(4,4,5,5-テトラメチル-1,3,2-ダイオキサボラロール-2-イル)-1,3-ジヒドロ-2-ベンゾフランは安全ですか?

5-(4,4,5,5-テトラメチル-1,3,2-ダイオキサボラロール-2-イル)-1,3-ジヒドロ-2-ベンゾフランは一般に安全ですが、取扱いには注意が必要です...

1352037-60-55-(4,4,5,5-Tetrameth...
化合物よくある質問

4-溴萘-1-甲酸の代替品はありますか?

4-溴萘-1-甲酸は比較的稀な化合物ですが、類似物としては、4-クロロ-1-ナフホリック酸やその他のブロモ置換ナフホリック酸が挙げられます。ただし、これらの代替...

16650-55-84-Bromo-1-naphthoic ...
化合物よくある質問

ε-白藜芦醇脱氢二聚体の代替品はありますか?

ε-白藜芦醇脱氢二聚体の代替品としては、ε-白藜芦醇、ポリフェノール類、フラボノイド類が挙げられます。これらは類似の化学構造と生物学的活性を持っています。ただし...

62218-08-05-{(2R,3R)-6-Hydroxy...
免責事項
このページに表示される学術雑誌情報は、参考および研究目的のみを目的としています。当社は雑誌出版社とは提携しておらず、投稿の取り扱いも行っておりません。出版に関するお問い合わせは、各雑誌出版社に直接ご連絡ください。
表示されている情報に誤りがある場合は、support@chemtradehub.com までご連絡ください。迅速に確認し、対応いたします。