From 16414ac3fe8c5f5aea5118cf141e5acdda073366 Mon Sep 17 00:00:00 2001
From: Tim O'Donnell <timodonnell@gmail.com>
Date: Mon, 5 Feb 2018 11:40:39 -0500
Subject: [PATCH] Many more models in ensemble

---
 .../models_class1/GENERATE.sh                 |  2 +-
 .../models_class1/generate_hyperparameters.py | 35 ++++++++++---------
 .../models_class1_no_mass_spec/GENERATE.sh    |  2 +-
 3 files changed, 21 insertions(+), 18 deletions(-)

diff --git a/downloads-generation/models_class1/GENERATE.sh b/downloads-generation/models_class1/GENERATE.sh
index 4d4bf210..275e5c1b 100755
--- a/downloads-generation/models_class1/GENERATE.sh
+++ b/downloads-generation/models_class1/GENERATE.sh
@@ -35,7 +35,7 @@ time mhcflurry-class1-train-allele-specific-models \
     --data "$(mhcflurry-downloads path data_curated)/curated_training_data.with_mass_spec.csv.bz2" \
     --hyperparameters hyperparameters.yaml \
     --out-models-dir models \
-    --percent-rank-calibration-num-peptides-per-length 1000000 \
+    --percent-rank-calibration-num-peptides-per-length 100000 \
     --min-measurements-per-allele 75 \
     --num-jobs 32 16
 
diff --git a/downloads-generation/models_class1/generate_hyperparameters.py b/downloads-generation/models_class1/generate_hyperparameters.py
index 995be20b..dcd48aa8 100644
--- a/downloads-generation/models_class1/generate_hyperparameters.py
+++ b/downloads-generation/models_class1/generate_hyperparameters.py
@@ -49,7 +49,7 @@ base_hyperparameters = {
             "kernel_size": 3
         }
     ],
-    "activation": "relu",
+    "activation": "tanh",
     "output_activation": "sigmoid",
     "layer_sizes": [16],
     "dense_layer_l1_regularization": 0.001,
@@ -58,19 +58,22 @@ base_hyperparameters = {
 }
 
 grid = []
-for dense_layer_size in [64, 16]:
-    for num_lc in [0, 1, 2]:
-        for lc_kernel_size in [3, 5]:
-            new = deepcopy(base_hyperparameters)
-            new["layer_sizes"] = [dense_layer_size]
-            (lc_layer,) = new["locally_connected_layers"]
-            lc_layer['kernel_size'] = lc_kernel_size
-            if num_lc == 0:
-                new["locally_connected_layers"] = []
-            elif num_lc == 1:
-                new["locally_connected_layers"] = [lc_layer]
-            elif num_lc == 2:
-                new["locally_connected_layers"] = [lc_layer, deepcopy(lc_layer)]
-            grid.append(new)
+for dense_layer_size in [64, 32, 16]:
+    for l1 in [0.001, 0.01, 0.0]:
+        for num_lc in [0, 1, 2]:
+            for lc_kernel_size in [3, 5]:
+                new = deepcopy(base_hyperparameters)
+                new["layer_sizes"] = [dense_layer_size]
+                new["dense_layer_l1_regularization"] = l1
+                (lc_layer,) = new["locally_connected_layers"]
+                lc_layer['kernel_size'] = lc_kernel_size
+                if num_lc == 0:
+                    new["locally_connected_layers"] = []
+                elif num_lc == 1:
+                    new["locally_connected_layers"] = [lc_layer]
+                elif num_lc == 2:
+                    new["locally_connected_layers"] = [lc_layer, deepcopy(lc_layer)]
+                if not grid or new not in grid:
+                    grid.append(new)
 
-dump(grid, stdout)
\ No newline at end of file
+dump(grid, stdout)
diff --git a/downloads-generation/models_class1_no_mass_spec/GENERATE.sh b/downloads-generation/models_class1_no_mass_spec/GENERATE.sh
index b199cb6b..20b74978 100755
--- a/downloads-generation/models_class1_no_mass_spec/GENERATE.sh
+++ b/downloads-generation/models_class1_no_mass_spec/GENERATE.sh
@@ -35,7 +35,7 @@ time mhcflurry-class1-train-allele-specific-models \
     --data "$(mhcflurry-downloads path data_curated)/curated_training_data.no_mass_spec.csv.bz2" \
     --hyperparameters hyperparameters.yaml \
     --out-models-dir models \
-    --percent-rank-calibration-num-peptides-per-length 1000000 \
+    --percent-rank-calibration-num-peptides-per-length 100000 \
     --min-measurements-per-allele 75 \
     --num-jobs 32 16
 
-- 
GitLab