Alle Chemikalien und die zugehörigen experimentellen pKa-Werte, die zum Erstellen und Validieren der Modelle für diese Arbeit verwendet werden, sind in der Zusatzdatei 1 enthalten. Der offene Zugang zu Modellierungsdaten ist für die wissenschaftliche Gemeinschaft äußerst wichtig, um die kontinuierliche Modellverbesserung zu unterstützen und die Modellleistung genau zu bewerten, insbesondere um überhöhte Statistiken aufgrund von Überschneidungen von Chemikalien zwischen Schulungs- und Validierungssätzen zu vermeiden. Diese Arbeit wurde vom Intramural Research Program von NIEHS unterstützt. Technischer Support wurde von ILS im Rahmen des NIEHS-Vertrags HHSN273201500010C bereitgestellt. Das EPA Office of Research and Development finanzierte und verwaltete einen Teil der hier beschriebenen Forschung mit Unterstützung von CMG und AJW. Auf dieser Seite finden Sie eine Liste der Fristen für Ausbildungsvertragsanträge der Unternehmen, damit Sie nachverfolgen können, wann Ihre Zielunternehmen ihre Ausbildungsvertragsfristen haben. Sie sollten auch die Seite “Feiertage”-Termine besuchen. Eine Ausbildungsvertragsabordnung ist eine Ausbildung oder ein Sitzplatz, die ein angehender Rechtsanwalt intern im Rechtsteam eines Mandanten verbringt. Es könnte lokal, national oder im Ausland passieren. Root-mean-squared error (RMSE) wurde mit den Trainingsdaten optimiert, wobei die fünffache Kreuzvalidierung fünfmal wiederholt wurde.
Die sauren und grundlegenden Datensätze wurden separat modelliert. Jeder der drei Datensätze (Optionen 1–3) wurde untersucht und die Leistung für die Testdatensätze mit RMSE und dem Bestimmungskoeffizienten R2 bewertet. Darüber hinaus wurden drei Techniken zur Funktionsreduzierung untersucht, um die Auswirkungen auf die Modellleistung der Verwendung zu bewerten: (1) Daten, bei denen Features (Spalten) aller Nullen und aller Nullen gelöscht wurden, (2) wie zuvor, jedoch mit stark korrelierten Features entfernt wurden, und (3) wie zuvor, jedoch mit Features mit geringer Varianz, die entfernt wurden. Die leistungsstärksten kontinuierlichen SVM-Modelle, die pKa-Werte vorhersagten, und die leistungsstärksten kategorialen SVM- oder kNN-Modelle, die vorhersagten, ob eine Chemikalie eine saure oder grundlegende pKa haben oder amphoter sein würde, wurden in OPERA, einer kostenlosen und Open-Source-Suite von QSAR-Modellen [13, 27, 45] ausgewählt und implementiert. Die globalen und lokalen Anwendbarkeitsdomänen (AD)-Ansätze (AD) von OPERA und das Genauigkeitsschätzungsverfahren wurden auf die sauren und grundlegenden pKa-Vorhersagen angewendet [27]. Der globale AD ist ein boolescher Index, der auf dem Hebelansatz für den gesamten Trainingssatz basiert, während der lokale AD ein kontinuierlicher Index ist, der auf den ähnlichsten chemischen Strukturen aus dem Trainingssatz basiert [46]. Da binäre Fingerabdrücke verwendet wurden, um die Vorhersagemodelle zu erstellen, wurde der Jaccard-Tanimoto-Dissimilaritätsindex als Entfernungsmetrik verwendet, um die AD- und Genauigkeitsschätzungen zu bewerten. Jeder der drei oben beschriebenen Datensätze wurde in einen Schulungssatz aufgeteilt (75%) und einen Testsatz (25%) halbzufällig, um eine ähnliche Verteilung der pKa-Werte beizubehalten. So wurden der Trainings- und Testsatz so konstruiert, dass ein Gleichgewicht zwischen der Anzahl der Replikationen in den beiden Sätzen beibehalten wird, die in jeder Option wie oben beschrieben unterschiedlich verarbeitet wurden.