ChemBioFrance - Infrastructure de recherche

Accès à des bases de données moléculaires

La fouille de données est une étape importante de préparation et ou d'analyse de donnés de criblage. ChemBioFrance fournit un portail d'accès à des bases de données développées et maintenues en interne, permettant des requêtes simples concernant vos molécules/cibles d'intérêt.

Protocole

Ces bases de données ne sont pas gérées par ChemBioFrance mais individuellement par chaque plateforme. Certaines peuvent être téléchargées en suivant le lien web. Pour les autres, veuillez suivre le lien web pour obtenir plus d'information et contacter les auteurs.

Base de données	URL	Description
e-Drug3D	http://chemoinfo.ipmc.cnrs.fr/MOLDB/index.html	Structure, métabolites actifs et données PK/PD des médicaments approuvés par la FDA
PKIDB	http://www.icoa.fr/pkidb/	Inhibiteurs de Kinases en cours de développement clinique
Bioinfo DB	http://bioinfo-pharma.u-strasbg.fr/bioinfo/	Molécules drug-like commercialement disponibles
sc-PDB	http://bioinfo-pharma.u-strasbg.fr/scPDB/	Sites de liaisons 'droguables' des protéines de la PDB
2P2I	https://2p2idb.marseille.inserm.fr/2p2idb-update.php	Données structurales sur les interfaces protéine-protéine et leurs inhibiteurs connus
iPPI-DB	https://ippidb.pasteur.fr/	Structure et activités de modulateurs d'interaction protéine-protéine
BactPepDB	http://bactpepdb.rpbs.univ-paris-diderot.fr/	Peptides de génomes de procaryotes

Informations requises

aucune

Notes

Références

Douguet, D. (2018) Data Sets Representative of the Structures and Experimental Properties of FDA-Approved Drugs. ACS Med Chem Lett, 9: 204-209

Carles F, Bourg S, Meyer C, Bonnet P (2018) PKIDB: A Curated, Annotated and Updated Database of Protein Kinase Inhibitors in Clinical Trials. Molecules, 23, E908

Desaphy J, Bret G, Rognan D, Kellenberger E. (2015) sc-PDB: a 3D-database of ligandable binding sites--10 years on. Nucleic Acids Res., 43, D399-404

Basse MJ, Betzi S, Morelli X, Roche P. (2016) 2P2Idb v2: update of a structural database dedicated to orthosteric modulation of protein-protein interactions, Database (Oxford), 2016: baw007.

Labbé CM, Kuenemann MA, Zarzycka B, Vriend G, Nicolaes GA, Lagorce D, Miteva MA, Villoutreix BO, Sperandio O. (2016) iPPI-DB: an online database of modulators of protein-protein interactions., Nucleic Acids Res., 44, D542-547.

Pupin M, Esmaeel Q, Flissi A, Dufresne Y, Jacques P, Leclère V (2016) Norine: A powerful resource for novel nonribosomal peptide discovery., Synth Syst Biotechnol, 1:89-94

Rey J, Deschavanne P, Tuffery P. (2014) BactPepDB: a database of predicted peptides from a exhaustive survey of complete prokaryote genomes Database (Oxford). 2014:bau106.

Demande de projet

Criblage virtuel

Le criblage virtuel de chimiothèques est un outil puissant, regroupant de nombreuses méthodes, permettant de sélectionner à faible coût un petit nombre de molécules commercialement disponibles (10-1000), répondant à un cahier des charges précis (ex: liaison à une cible protéique, similarité à une molécule active connue, propriétés physicochimiques particulières) parmi un catalogue de plus de 5 millions de molécules commercialement disponibles.

Protocole

Deux types de prestations sont possibles selon les contraintes imposées par le client:

· Criblage base sur la structure de la protéine : Après préparation de la structure 3D de la cible (structure cristallographique, modèle par homologie), la chimiothèque est soit dockée dans la cavité hôte de la cible, soit analysée en fonction de sa complémentarité à un pharmacophore protéine-ligand connu déterminé automatiquement à partir de la structure du complexe correspondant. Les touches sont retenues par rapport à un cahier des charges conçu en accord avec le client (ex: présence d'interactions obligatoires, énergie libre de liaison, ligand efficiency). Une liste de ligands commercialement disponible (référence commerciale, fournisseur, prix) est transmise au client pour évaluation biologique
· Criblage basé sur la (les) structure(s) de molécule(s) active(s) connue(s) : La chimiothèque est criblée par similarité (2D et/ou 3D) à un ou plusieurs actifs connus, soit en utilisant de modèles QSAR/QSPR, soit à l'aide de cartes SOM ou GTM. Les touches sont retenues par rapport à un cahier des charges conçu en accord avec le client (ex: présence de groupements chimiques obligatoires, seuil de similarité 2D et/ou 3D). Une liste de ligands commercialement disponible (référence commerciale, fournisseur, prix) est transmise au client pour évaluation biologique

Informations requises

Nom et/ou structure de la protéine cible (code PDB, identifiant UniProt)

Nom et structures 2D des molécules actives connues

Notes

Les logiciels utilisés sont soit commerciaux, soit développés en interne à ChemBioFrance

QSAR : ISIDA-Fragmentor, ISIDA-Predictor, ISIDA-GTM, ISIDA-SOM

Docking: Surflex-Dock, PLANTS, IChem

Recherche pharmacophorique: LigandScout, Biovia, IChem

Recherche par similarité: Pipeline Pilot, ROCS

Références

Rivat, C. et al. Inhibition of neuronal FLT3 receptor tyrosine kinase alleviates peripheral neuropathic pain in mice. Nature Commun 2018, 9:1042

Da Silva, F. et al. IChem: A Versatile Toolkit for Detecting, Comparing, and Predicting Protein-Ligand Interactions. ChemMedChem 2018, 13:507-510

da Silva Figueiredo Celestino Gomes, P. et al. Ranking docking poses by graph matching of protein-ligand interactions: lessons learned from the D3R Grand Challenge 2. J Comput Aided Mol Des. 2018, 32:75-87.

Slynko, I. et al. Docking pose selection by interaction pattern graph similarity: application to the D3R grand challenge 2015. J Comput Aided Mol Des. 2016, 30:669-683.

Ruggiu, F. et al. ISIDA Property-Labelled Fragment Descriptors Mol Inf, 2010, 29, 855 - 868

Klimenko, K. et al. Chemical Space Mapping and Structure-Activity Analysis of the ChEMBL Antiviral Compound Set. J Chem Inf Model, 2016, 56, 1438-1454

Gaspar, H. et al. GTM-Based QSAR Models and Their Applicability Domains. Mol Inf, 2015, 34 (6-7), 348-356

Lin, A. et al. Mapping of the Available Chemical Space versus the Chemical Universe of Lead-Like Compounds. ChemMedChem.,2017, 13(6), 540-554

Demande de projet

Caractérisation et optimisation de peptides interférants.

Les molécules biologiques constituent une alternative prometteuse aux petits composés chimiques pour le développement de nouvelles génération de composés thérapeutiques. Parmi eux, les peptides sont une classe spécifique de molécules qui sont impliquées dans la signalisation et le trafficking cellulaire, peuvent agir comme des antibiotiques, ou cibler des interactions protéines-protéines. Des progrès récents ont été accomplis, entre autres, dans le contrôle de leur biodisponibilité (résistance à la dégradation), de leur biodistribution (les voies d'administration sont maintenant variées, et des procédés permettent de faire penetrer les peptides dans les cellules, voir cibler des lignées cellulaires specifiques ou des organites cellulaires), et des coûts de production. Plus de 60 peptides sont actuellement sur le marché et plus de 500 sont en phases de développement. Le service proposé porte sur l'identification, la caractérisation et l'optimisation de « peptides interférants », c'est à dire de peptides capables d'interférer avec une interaction protéine-protéine cible.

Protocoles :

o Identification de peptides interférants. Deux approches sont possibles.
- PEP-scan : cette approche in vitro requiert de la protéine cible purifiée ainsi qu'un anticorps la ciblant, et la séquence de la protéine partenaire. Les coûts et délais sont à définir au cas par cas.
- In silico : l'identification de peptides candidats interférants et stables peut être faite à partir de la connaissance de la structure d'un complexe, ou de la modélisation de celui-ci. Les coûts et délais sont à définir au cas par cas.
o Caractérization de l'interaction peptide-cible. Cette caractérisation est possible dans le cas ou la séquence du peptide, ainsi que la structure du récepteur sont connues ou identifables par modélisation. Les délais sont de l'ordre d'un mois pour un récepteur soluble et à définir au cas par cas dans le cas de récepteurs membranaires.
o Optimisation de peptides. L'optimisation des peptides couvre un large éventail de possibilités. Nos offre concerne des peptides de taille supérieure à 6 acides aminés. Nous nous limitons à :
- L'identification de variants de séquence par délétion N- et C-ter, dans l'objectif de réduire le coût entropique de liaison du peptide.
- L'identification de variants de séquence dans l'optique de stabiliser l'interaction peptide-récepteur.
- La cyclisation head-to-tail de peptide linéaires afin d'augmenter leur résistance à la dégradation enzymatique.
- L'internalisation cellulaire de peptides. Elle est envisagée par le couplage du peptide avec un peptide pénétrant, un peptide d'adressage, ou les deux. La prestation peut inclure la preuve de l'internalisation par fluorescence.
Les délais et coûts sont à définir au cas par cas.

Informations requises :

Les différents cas de figures impliquent une connaissance spécifique de la cible et des mécanismes moléculaires impliqués comme préalable à la définition d'un cahier des charges.

Notes

Les protocoles in silico utilisés repose essentiellement sur des logiciels académiques et les protocoles spécifiques développés par les équipes de la plate-forme.

Références

Bruzzoni-Giovanelli et al.,Interfering peptides targeting protein-protein interactions: the next generation of drugs?, Drug Discov. Today, 2018, 23:272.

Quignot et al.,InterEvDock2: an expanded server for protein docking using evolutionary and biological information from homology models and multimeric inputs. C, Rey J, Yu J, Tufféry P, Guerois R, Andreani J. Nucleic Acids Res., 2018, 46:W408.

de Vries et al., The pepATTRACT web server for blind, large-scale peptide-protein docking., Nucleic Acids Res., 2017, 45:W361.

Lamiable et al., PEP-FOLD3: faster de novo structure prediction for linear peptides in solution and in complex., Nucleic Acids Res., 2016, 44:W449.

Saladin et al., PEP-SiteFinder: a tool for the blind identification of peptide binding sites on protein surfaces., Nucleic Acids Res., 2014, 42:W221.

Thévenet et al., PEP-FOLD: an updated de novo structure prediction server for both linear and disulfide bonded cyclic peptides., Nucleic Acids Res., 2012, 40:W288.

Demande de projet

Conception et Analyse de Chimiothèques focalisées (par ex. inhibiteurs d'interaction protéine-protéine)

Malgré le nombre croissant de modulateurs développés, le taux de succès dans les campagnes de criblages contre les interfaces protéine-protéine reste faible, principalement en raison de l'inadéquation des chimiothèques utilisées. Un effort général a donc été entrepris afin de développer des collections de molécules dédiées à ce type de cibles.

Protocole

Les propriétés caractéristiques des inhibiteurs de PPIs présents dans la base de données 2P2I_DB et iPPI_DB peuvent être utilisées pour guider la conception de chimiothèques dédiées aux PPIs en utilisant des méthodes d'apprentissage [1-8]. Les algorithmes d'apprentissage 'SVM' (2P2I_HUNTER) et PPI-HitProfiler ont, par exemple, été appliqués aux chimiothèques de deux fournisseurs (MolPort et Ambinter) représentant respectivement 6,3 et 5,7 millions de composés. Les sélections provenant des deux fournisseurs ont été regroupées aboutissant à 63,282 composés uniques. Les deux sélections ont ensuite été filtrées en éliminant les composés indésirables de type PAINS, agrégateurs ou frequent-hitters. Enfin, des filtres optimisés opérant sous contraintes ADME-Tox (Absorption, Distribution, Métabolisme, Excrétion, Toxicité) ont été appliqués afin d'améliorer les propriétés pharmacocinétiques et de chimie médicinale des composés. La chimiothèque finale composée de 10,314 molécules a été mise en plaque.

Une prestation similaire est possible selon les contraintes imposées par le client:

· Développement d'un modèle d'apprentissage propre aux données internes du client (structure de complexes Protéine-Ligand non publiées, résultats d'un premier criblage expérimental interne avec molécules actives et inactives) puis application des meilleurs modèles à la chimiothèque du totale du client. Les touches sont retenues par rapport à un cahier des charges conçu en accord avec le client (ex: présence de groupements chimiques obligatoires, seuil de similarité 2D et/ou 3D). Une liste de ligands également commercialement disponibles (référence commerciale, fournisseur, prix) peut aussi être transmise au client pour évaluation biologique

Informations requises

Structures chimiques des molécules 'propres' au client si nécessité de créer un modèle 'propriétaire'

Chimiothèque à filtrer au format sdf

Notes

Les bases de données et logiciels utilisés sont développés en interne

Références

1. Basse, M.J., et al., 2P2Idb v2: update of a structural database dedicated to orthosteric modulation of protein-protein interactions. Database (Oxford), 2016. 2016.

2. Basse, M.J., et al., 2P2Idb: a structural database dedicated to orthosteric modulation of protein-protein interactions. Nucleic Acids Res, 2013. 41(Database issue): p. D824-7.

3. Hamon, V., et al., 2P2I HUNTER: a tool for filtering orthosteric protein-protein interaction modulators via a dedicated support vector machine. J R Soc Interface, 2014. 11(90): p. 20130860.

4. Hamon, V., et al., 2P2Ichem: focused chemical libraries dedicated to orthosteric modulation of protein-protein interactions. MedChemComm, 2013. 4(5): p. 797-809.

5. Bosc, N. et al. Privileged Substructures to Modulate Protein-Protein Interactions. J Chem Inf Model. 2017 Oct 23;57(10):2448-2462. doi: 10.1021/acs.jcim.7b00435.

6. Reynès, C et al. Designing focused chemical libraries enriched in protein-protein interaction inhibitors using machine-learning methods. PLoS Comput Biol. 2010 Mar 5;6(3):e1000695.

7. Labbé, C.M. et al. iPPI-DB: an online database of modulators of protein-protein interactions. Nucleic Acids Res. 2016 Jan 4;44(D1):D542-7.

8. Labbé, C.M. et al. iPPI-DB: a manually curated and interactive database of small non-peptide inhibitors of protein-protein interactions. Drug Discov Today. 2013 Oct;18(19-20):958-68.

Demande de projet

Prédiction de propriétés physicochimiques et ADMET

L'optimisation des propriétés pharmacocinétiques et ADMET (absorption, distribution, métabolisation, excrétion, toxicité) est une étape clé dans la phase die "hit to lead" de génération de têtes de séries à partir de touches de criblages. ChemBioFrance vous propose de calculer une multitude de ces propriétés afin de vous guider soit dans la priorisation de touches soit dans leur optimisation.

Protocole

Divers modèles QSAR et d'apprentissages sont disponibles afin de prédire les propriétés suivantes:

· physicochimique: solubilité aqueuse, logP, logD, pKa, surface polaire
· structurale: violations des règles de Lipinski, QED: "quantitative estimate of drug likeness", score d'accessibilité synthétique
· absorption: Coefficient de diffusion, perméation membranaire (Caco2, MDCK), passage de la barrière hématoméningée, substrat/inhibition de Pgp, inhibition de OATP1B1
· distribution: liaison aux protéines plasmatique
· métabolisation: sites de métabolisation par CYPs, induction/inhibition des CYPs majeurs, clairance hépatique intrinsèque, substrats UGT
· toxicité: dose maximale thérapeutique recommandée (MaxRTD), toxicité endocrinale, cutanée, respiratoire, cardiaque (liaison au canal hERG), abbérations chromosomales, phospholipidose, reproduction, hépatique (Ser_AlkPhos, Ser_GGT, Ser_LDH, Ser_AST, and Ser_ALT)

Informations requises

Nom et structures 2D des molécules

Notes

Les logiciels utilisés sont soit commerciaux (PipelinePilot, ADMET Predictor), soit développés en interne à ChemBioFrance

Références

Muller C, Pekthong D, Alexandre E, Marcou G, Horvath D, Richert L, Varnek A. Prediction of drug induced liver injury using molecular and biological descriptors. Comb Chem High Throughput Screen. 2015;18(3):315-22

Demande de projet

Recherche de motifs chimiques indésirables

Le filtrage ADME/tox de chimiothèques électroniques permet l'élimination ou l'annotation, en amont des projets de criblage virtuel, des composés ayant des propriétés potentiellement indésirables en vue du développement d'un composé à vocation thérapeutique ou d'une sonde chimique. Ces analyses peuvent aussi s'effectuer après un criblage virtuel ou expérimental pour gagner en connaissance sur certaines molécules avant ou pendant une phase optimisation. Plusieurs types de filtrages sont implémentés mais l'utilisateur peut les modifier en fonction du projet. Les filtres portent notamment sur:

o Les propriétés physicochimiques acceptables pour une administration par voie orale comme la règle des 5... Les filtres sélectionnent alors des molécules avec certaines valeurs pour la masse moléculaire, le logP, le nombre de donneurs et d'accepteurs de liaison hydrogène, le nombre de liaison rotables, ...
o Les propriétés relatives à une possible toxicité ou à des interactions off-target, comme les règles de GSK 4/400 et Pfizer 3/75... l'identification de toxicophores.
o Les PAINS (pan assay interference compounds) : ce sont des composés connus affecter les tests biologiques via différents mécanismes.
o L'estimation de la druglikeliness (QED) : la combinaison de plusieurs propriétés physico-chimiques et d'alertes structurales permet l'estimation quantitative de la vraisemblance qu'un composé puisse être un candidat médicament ou une sonde pharmacologique.

Protocole :

· Une préparation des librairies électroniques en amont du filtrage est effectuée pour standardiser l'écriture des composés en fonction des règles à appliquer (ex : utilisation de la forme neutre d'une molécules pour certaines règles, nécessité d'estimer le pKa...).

· Le filtrage des librairies consiste alors en un calcul des différentes propriétés physico-chimiques des composés, une application successive de filtres pour rechercher des alertes structurales, des PAINS..., et au final la génération d'un tableau de résultats, plusieurs visuels pour faciliter l'analyse, et la préparation de plusieurs fichiers contenant les composés acceptés, les composés intermédiaires et les composés rejetés en fonction des paramètres de filtrage sélectionnés par l'utilisateur.

Informations requises

Structure 2D des molécules à filtrer (fichier SDF). Il est aussi possible d'importer les molécules en SMILES via une « utility »

Notes

Le protocole utilisé repose essentiellement sur des logiciels académiques, ainsi que certains composants de logiciels commerciaux développés par ChemAxon.

Références

Lagorce et al., FAF-Drugs4: free ADME-tox filtering computations for chemical biology and early stages drug discovery, Bioinformatics, 2017, 33:3658

Lagorce et al., Pan-assay interference compounds (PAINS) that may not be too painful for chemical biology projects., Drug Discov. Today, 2017, 22:1131.

Lagorce et al., Computational analysis of calculated physicochemical and ADMET properties of protein-protein interaction inhibitors., Sci. Rep., 2017, 7:46277.

Lagorce et al., FAF-Drugs3: a web server for compound property calculation and chemical library design., NAR 2015 Jul 1;43(W1):W200-7.

Demande de projet

Identification de cible(s) et bioprofilage

L'identification de la cible principale d'une touche issue d'un criblage phénotypique reste une entreprise délicate. De même, il peut être intéressant de connaitre les cible secondaires ("off-targets") d'une molécule bioactive d'intérêt. ChemBioFrance propose donc une approche in silico à la prédiction de cibles à partir de la simple structure d'un ligand d'intérêt.

Protocole

Une ciblothèque de 4500 protéines d'intérêt regroupant l'ensemble des principales familles de cibles (RCPGs, récepteurs nucléaires, canaux, kinases, protéases, etc..) est criblée électroniquement selon une méthode propriétaire (Profiler) utilisant différentes machines d'apprentissage (machines à vecteurs support, forêts d'arbres) ciblant chacune un espace biologique bien défini (1). Selon l'état des connaissances actuelle sur la cible et des ligands connus, Profiler établi une liste de cibles potentielles et une prédiction de la constante d'inhibition (Ki) de la molécule pour sa cible.

Appliqué à 189 candidats cliniques, le protocole est capable de retrouver parmi une liste réduite de cibles (environ 20) la cible principale dans 87% des cas. Profiler a aussi été appliqué à l'identification de cibles secondaires, validés expérimentalement par la suite (1).

En utilisant plusieurs jeux de données de profilage de centaines d'inhibiteurs testés sur des centaines de protéines kinases, nous avons développés des modèles statistiques de chémogénomique robustes, appelés aussi protéochimiométrique PCM, permettant de prédire la sélectivité de nouvelles molécules sur un panel de protéines kinases (2). L'outil utilise des descripteurs moléculaire 2D et 3D et prend en compte les conformations, actives et inactives, des protéines kinases. 3 algorithmes d'apprentissage automatique, Naïve Bayes (NB), Support Vector Machines (SVM) and Random Forest (RF) ont été testés.

Informations requises

Nom et structures 2D des molécules actives connues

Notes

Profiler est un logiciel développé au laboratoire d'Innovation Thérapeutique (LIT, UMR 7200 CNRS-Université de Strasbourg).

PCM est un outil développé au sein de l'Institut de Chimie Organique et Analytique (ICOA UMR7311 CNRS-Université d'Orléans).

Références

(1) Meslamani, J., Bhajun, R., Martz, F. and Rognan, D. (2013). Computational profiling of bioactive compounds using a target-dependent composite workflow. J. Chem. Inf. Model., 53, 2322-2333.

(2) Bosc, N., Wroblowski, B., Meyer, C. and Bonnet P. (2017) Prediction of Protein Kinase-Ligand Interactions through 2.5D Kinochemometrics. J. Chem. Inf. Model., 57, 93-101.

Demande de projet

Prédiction de propriétés physicochimiques et d'activités biologiques par QSAR

La prédiction de propriétés physicochimique et d'activités physicochimiques de substances est réalisée par QSAR y compris apprentissage automatique (machine learning) et apprentissage profond (deep learning). L'approche QSAR repose sur une description des structures chimiques par un ensemble de valeurs appelées descripteurs moléculaires. Ces descripteurs moléculaires sont ensuite reliés aux propriétés ou aux activités biologiques d'intérêt à l'aide d'équations mathématiques dont la forme et les paramètres sont déduis par des algorithmes d'apprentissage automatique. L'apprentissage profond, peut être perçu comme une évolution du QSAR de deux façons : (i) il tente de s'affranchir des descripteurs moléculaires en traitant les graphes moléculaires directement et (ii) il permet de cibler des propriétés complexes telles que des spectres ou des images. Dans tous les cas, les modèles sont préparés et validés en suivant des protocoles rigoureux, visant à estimer les performances des modèles et leurs domaines d'application. Les méthodes de deep learning permettent également de générer de nouvelles structures chimiques possédant des activités désirées.

Protocole

Cette prestation vise à livrer au client un modèle pour estimer une propriété physico-chimique ou une activité biologique pour une substance chimique. Ce modèle est caractérisé par ses performances sur des données connues. Les estimations sont délivrées avec une incertitude. Chaque requête soumise au modèle est située par rapport au domaine d'application. En conséquence, une appréciation est délivrée quant au degré de confiance de l'estimation délivrée.

Le modèle peut être livré sous forme d'un ensemble de documents détaillant les moyens de le mettre en œuvre. Ces documents incluent un rapport, une notice de calcul des descripteurs moléculaires employés, les équations mathématiques permettant de calculer la propriété, les incertitudes et le domaine d'applicabilité.

Une autre possibilité est de procéder à l'utilisation des modèles immédiatement dans une étape de criblage. Si les structures sont déjà connues, pour lesquelles la propriété est recherchée, cette solution est certainement la plus appropriée.

Il est aussi possible de livrer un logiciel disposant d'une interface utilisateur graphique pour mettre en œuvre le modèle et mettre en forme un rapport contenant les estimations des propriétés, les incertitudes et le degré de confiance pour chaque estimation retournée.

L'interface utilisateur de ce logiciel peut aussi être fournie sous forme de ligne de commande.

Enfin, ce logiciel peut être fourni sous forme d'un service WEB. Celui-ci peut alors être hébergé par la plate-forme ou par le client lui-même.

Dans le cas d'une livraison logicielle, les opérations de maintenance font l'objet d'un contrat spécifique délimitant les prestations, les coûts et la durée de l'engagement.

Informations requises

Nom et structures 2D des molécules et valeur de la propriété d'intérêt rattachée à celle-ci.

Notes

Les logiciels utilisés sont soit libres, soit développés en interne à ChemBioFrance

QSAR : ISIDA-Fragmentor, ISIDA-Predictor, ISIDA-GTM, ISIDA-SOM

Machine Learning: R, WEKA

Deep learning: Keras Python library

Références

A. Varnek and I. Baskin, Machine Learning Methods for Property Prediction in Chemoinformatics: Quo Vadis ?,J. Chem. Inf. Model. 2012, 52, 1413-1437

F. Ruggiu et al. ISIDA Property-Labelled Fragment Descriptors Mol Inf, 2010, 29, 855 - 868

A. Varnek et al ISIDA - Platform for virtual screening based on fragment and pharmacophoric descriptors, Current Computer-Aided Drug Design, 2008, 4 (3), 191-198

H. Gaspar et al. GTM-Based QSAR Models and Their Applicability Domains. Mol Inf, 2015, 34 (6-7), 348-356

Demande de projet

Visualisation et analyse de données chimiques

Ce service propose une représentation originale des données chimiques, les Cartes Générative Topographiques (Generative Topographic Mapping, GTM). Ces cartes ont les propriétés suivantes :

· Conserver la proximité de données similaires

· Expliquer les données sous la forme d'un modèle probabiliste

· Représenter les données sous forme d'une distribution

· Représenter l'évolution d'une propriété spécifique à travers la carte

· Générer de nouveaux données (par ex., les structures moléculaires), conformes au modèle

Des méthodes classiques sont également disponibles : analyse en composante principales (Principal Components Analysis, PCA), cartes auto-organisatrices (Self-Organizing Maps, SOM). Ces méthodes peuvent être appliquées à tout ensemble de données pouvant être représenté sous forme de tableau sans données manquantes (i.e. sans case vide).

Protocole

La procédure implique une étape intermédiaire de traitement des structures chimiques et de calcul des descripteurs.

Les cartes GTM peuvent être délivrées sous forme d'images, de fichiers permettant de générer ces images et des instructions pour relier ces images aux données initiales. Si des données artificielles (par. Ex., les structures chimiques) sont générées, elles sont fournies sous forme de fichiers.

Il est possible de livrer un logiciel muni d'une interface graphique pour communiquer avec les images générées et faire le lien avec les données qui les ont générées. Par exemple, en sélectionnant un point de l'image ou une région, retrouver les données correspondantes. Ou alors, colorer la carte par la valeur d'une propriété d'intérêt.

Le livrable peut aussi faire l'objet d'un service WEB. Celui-ci peut alors être hébergé par la plate-forme ou par le client lui-même.

Dans le cas d'une livraison logicielle, les opérations de maintenance font l'objet d'un contrat spécifique délimitant les prestations, les coûts et la durée de l'engagement.

Informations requises

Nom et structures 2D des molécules et leurs activités

Notes

Les logiciels utilisés sont soit commerciaux, soit développés en interne à ChemBioFrance:

ISIDA-GTM, ISIDA-SOM, ISIDA-Fragmentor

Références

Klimenko, K. et al. Chemical Space Mapping and Structure-Activity Analysis of the ChEMBL Antiviral Compound Set. J Chem Inf Model, 2016, 56, 1438-1454

Gaspar, H. et al. GTM-Based QSAR Models and Their Applicability Domains. Mol Inf, 2015, 34 (6-7), 348-356

Lin, A. et al. Mapping of the Available Chemical Space versus the Chemical Universe of Lead-Like Compounds. ChemMedChem.,2017, 13(6), 540-554

Sattarov, B. et al. De Novo Molecular Design by Combining Deep Autoencoder Recurrent Neural Networks with Generative Topographic Mapping.J. Chem. Inf. Model., 2019, 59(3), 1182-1196.

Demande de projet

Optimisation de fragments (hit-to-lead)

Le criblage de fragments ou de collections de molécules conduit à l'identification de nombreux hits primaires qui doivent ensuite être optimisés. Cette étape de hit-to-lead représente un goulot d'étranglement majeur dans les projets de découverte de sondes bioactives. Les approches computationnelles basées sur la structure de la protéine cible en présence du composé à optimiser peuvent être utilisées pour guider cette étape et proposer des analogues structuraux de meilleure affinité. Toutefois, il est crucial de prendre en compte la faisabilité de synthétiser efficacement les composés proposés ainsi que leurs propriétés physicochimiques qui doivent être compatibles avec des développements en chimie médicinale.

Nous avons développé une approche intégrée (DOTS), fortement automatisée, permettant d'optimiser rapidement un fragment identifié par criblage expérimentale ou par déconstruction d'un hit. Cette stratégie combine des méthodes in silico (chémoinformatique, modélisation, criblage virtuel) et expérimentales (synthèse et évaluation robotisées des composés).

Protocole

Le protocole DOTS [1,2] se décompose en plusieurs étapes :

i/ le mode de liaison du fragment de référence est identifié par la résolution de la structure 3D du complexe avec la cible par cristallographie et diffraction des rayons X.

ii/ une chimiothèque virtuelle focalisée autour d'un fragment de référence est créée en couplant une forme activée du fragment à divers blocs structuraux disponibles commercialement. Cette étape est réalisée en tenant compte des règles de chimie organique et de chimie médicinale [3]. Tous les composés présents dans la chimiothèque virtuelle peuvent être synthétisés efficacement en une ou deux étapes.

iii/ le logiciel S4MPLE [4-6] est utilisé pour prédire le mode de liaison des composés, en conservant le mode de liaison du fragment de référence. Les composés sont classés en calculant la différence d'énergie entre les formes complexée et libre du ligand à l'aide du champ de force AMBER/GAFF.

iv/ les composés sélectionnés par les approches in silico sont synthétisés à l'aide d'un robot de synthèse en parallèle (Accelerator Synthetizer SLT100).

v/ les composés synthétisés sont ensuite évalués expérimentalement par des approches in vitro.

Informations requises

Structures chimiques des fragments à optimiser.

Notes

Les procédures utilisées pour ces approches hit-to-lead sont développées en interne.

Référence

1. Hoffer L, Voitovich YV, Raux B, Carrasco K, Muller C, Fedorov AY, Derviaux C, Amouric A, Betzi S, Horvath D, et al.: Integrated Strategy for Lead Optimization Based on Fragment Growing: The Diversity-Oriented-Target-Focused-Synthesis Approach. J Med Chem 2018, 61:5719-5732.

2. Hoffer L, Muller C, Roche P, Morelli X: Chemistry-Driven Hit-To-Lead Optimization Guided by Structure-Based Approaches. Mol Inform 2018.

3. Hartenfeller M, Eberle M, Meier P, Nieto-Oberhuber C, Altmann KH, Schneider G, Jacoby E, Renner S: A collection of robust organic synthesis reactions for in silico molecule design. J Chem Inf Model 2011, 51:3093-3098.

4. Hoffer L, Chira C, Marcou G, Varnek A, Horvath D: S4MPLE--Sampler for Multiple Protein-Ligand Entities: Methodology and Rigid-Site Docking Benchmarking. Molecules 2015, 20:8997-9028.

5. Hoffer L, Renaud JP, Horvath D: In silico fragment-based drug discovery: setup and validation of a fragment-to-lead computational protocol using S4MPLE. J Chem Inf Model 2013, 53:836-851.

6. Hoffer L, Horvath D: S4MPLE--sampler for multiple protein-ligand entities: simultaneous docking of several entities. J Chem Inf Model 2013, 53:88-102.

Demande de projet

Prédiction du temps de résidence (TR) de composés

Introduction

Le temps de résidence d'un composé correspond à la durée de vie du complexe composé-récepteur. Le temps de persistance de ce complexe est étroitement lié à son effet pharmacologique. Un temps de résidence long peut expliquer un effet pharmacologique prolongé mais peut également traduire une plus grande toxicité du composé. Le temps de résidence d'un composé constitue un bon indicateur de son efficacité in vivo

Protocole

Deux méthodologies ont été actuellement développées pour prédire les temps de résidence relatifs d'un ensemble de composés.

· Une méthode basée sur des simulations de dynamique moléculaire dirigées. Dans ce protocole, une contrainte est imposée afin de pousser le ligand hors du site actif de son récepteur. La simulation du processus de dissociation du composé est répétée dix fois afin d'obtenir une estimation statistiquement significative de ce processus. Des profils d'énergies libres sont construits à partir de ces simulations, desquels on extrait la valeur moyenne de l'énergie libre de dissociation. L'estimation de temps de résidence du composé est calculée à partir de cette énergie libre de dissociation. L'ensemble des ligands associés à l'estimation de leur temps de résidence est ensuite fourni au client.

· Une méthode basée sur des simulations de dynamique moléculaire ciblée. Dans ce protocole, la contrainte imposée va forcer le ligand à s'éloigner de sa conformation d'origine ce qui a terme va entrainer la sortie du ligand hors de son récepteur. Le processus de simulation est effectué onze fois. Un estimateur du temps de résidence, basé sur la force de contraintes à imposer pour permettre la sortie du ligand, est calculé à partir de ces trajectoires. L'ensemble des ligands associés à la valeur de l'estimateur de temps de résidence est ensuite fourni au client.

Les deux méthodologies ont été validées sur 3 cibles thérapeutiques incluant entre 8 et une vingtaine de molécules ; d'excellentes corrélations ont été obtenues avec les données expérimentales (publication en préparation).

Informations requises

Nom de la cible. Si la structure cristallographique de la cible protéique n'est pas disponible, un modèle par homologie sera construit.

Structures 2D des molécules pour lesquelles le temps de résidence ou le koff sera prédit.

Notes

Les logiciels utilisés sont soit commerciaux, soit développés en interne à ChemBioFrance.

Référence

Aci-Sèche, S. ; Ziada, S. ; Braka, A. ; Arora, R. ; Bonnet, P., Advanced molecular dynamics simulation methods for kinase drug discovery, Future Med. Chem. 2016, 8, 545-566.

Demande de projet

Prestations proposées

Accès à des bases de données moléculaires

Criblage virtuel

Caractérisation et optimisation de peptides interférants.

Conception et Analyse de Chimiothèques focalisées (par ex. inhibiteurs d'interaction protéine-protéine)

Prédiction de propriétés physicochimiques et ADMET

Recherche de motifs chimiques indésirables

Identification de cible(s) et bioprofilage

Prédiction de propriétés physicochimiques et d'activités biologiques par QSAR

Visualisation et analyse de données chimiques

Optimisation de fragments (hit-to-lead)

Prédiction du temps de résidence (TR) de composés