Merge pull request #305 from mims-harvard/moleculeace

New MPC task and MoleculeACE datasets
mims-harvard · Aug 19, 2024 · 6fbf72f · 6fbf72f
2 parents 0858120 + 17f035f
commit 6fbf72f
Show file tree

Hide file tree

Showing 3 changed files with 45 additions and 0 deletions.
diff --git a/environment.yml b/environment.yml
@@ -26,6 +26,7 @@ dependencies:
     - dgl==1.1.3
     - evaluate==0.4.2
     - gget==0.28.4
+    - moleculeace==3.0.0
     - pydantic==2.6.3
     - gget==0.28.4
     - pydantic==2.6.3

diff --git a/requirements.txt b/requirements.txt
@@ -5,6 +5,7 @@ datasets==2.20.0
 evaluate==0.4.2
 fuzzywuzzy>=0.18.0,<1.0
 huggingface_hub>=0.20.3,<1.0
+moleculeace==3.0.0
 mygene>=3.2.2,<4.0.0
 numpy>=1.26.4,<2.0.0
 openpyxl>=3.0.10,<4.0.0

diff --git a/tdc/single_pred/mpc.py b/tdc/single_pred/mpc.py
@@ -0,0 +1,43 @@
+# Molecular Property Cliff Task
+# https://github.com/bidd-group/MPCD
+
+# -*- coding: utf-8 -*-
+# Author: TDC Team
+# License: MIT
+
+import pandas as pd
+import sys
+import warnings
+
+warnings.filterwarnings("ignore")
+
+from . import single_pred_dataset
+from ..utils import print_sys, fuzzy_search, property_dataset_load
+from ..metadata import dataset_names
+
+
+class MPC(single_pred_dataset.DataLoader):
+
+    def __init__(self, name, path="./data"):
+        self.name = name
+        self.data = None
+
+    def get_data(self):
+        from MoleculeACE import Data, Descriptors  #TODO: support non-MoleculeACE
+        try:
+            self.data = Data(self.name)
+            self.data(Descriptors.SMILES)
+        except:
+            raise Exception(
+                "could not find dataset {}. For list of MoleculeAce datasets see https://github.com/bidd-group/MPCD/tree/main?tab=readme-ov-file#overview-of-the-mpc-benchmark-datasets"
+                .format(self.name))
+        return self.data
+
+    def get_split(self):
+        d = self.get_data()
+        train = pd.concat([d.x_train, d.y_train], axis=1)
+        test = pd.concat([d.x_test, d.y_test], axis=1)
+        return {
+            "train": train,
+            "test": test,
+        }