scikit-learn-contrib · mblondel · Dec 3, 2015 · Dec 3, 2015 · Oct 18, 2016 · Oct 18, 2016
diff --git a/examples/plot_l1_reg.py b/examples/plot_l1_reg.py
@@ -0,0 +1,59 @@
+
+"""
+========================================
+L1 regression: regularization paths
+========================================
+
+Shows that the regularization paths obtained by coordinate descent (penalized)
+and Frank-Wolfe (constrained) are equivalent.
+"""
+print __doc__
+import numpy as np
+import matplotlib.pyplot as plt
+
+from sklearn.datasets import load_diabetes
+from sklearn.model_selection import train_test_split
+
+from lightning.regression import CDRegressor
+from lightning.regression import FWRegressor
+
+diabetes = load_diabetes()
+X, y = diabetes.data, diabetes.target
+
+X_tr, X_te, y_tr, y_te = train_test_split(X, y, train_size=0.75, random_state=0)
+
+plt.figure()
+
+betas = np.logspace(-2, 5, 50)
+alphas = np.logspace(-4, 4, 50)
+
+fw_n_nz = []
+fw_error = []
+cd_n_nz = []
+cd_error = []
+
+for beta in betas:
+ reg = FWRegressor(beta=beta, max_iter=1000, tol=1e-3, verbose=0)
+ reg.fit(X_tr, y_tr)
+ y_pred = reg.predict(X_te)
+ fw_n_nz.append(np.sum(reg.coef_ != 0))
+ fw_error.append(np.sqrt(np.mean((y_te - y_pred) ** 2)))
+
+for alpha in alphas:
+ reg = CDRegressor(alpha=alpha, penalty="l1", max_iter=1000, tol=1e-3,
+ verbose=0)
+ reg.fit(X_tr, y_tr)
+ y_pred = reg.predict(X_te)
+ cd_n_nz.append(np.sum(reg.coef_ != 0))
+ cd_error.append(np.sqrt(np.mean((y_te - y_pred) ** 2)))
+
+plt.plot(fw_n_nz, fw_error, label="Frank-Wolfe", linewidth=3)
+plt.plot(cd_n_nz, cd_error, label="Coordinate Descent", linewidth=3, linestyle="--")
+
+plt.xlabel("Number of non-zero coefficients")
+plt.ylabel("RMSE")
+plt.xlim((0, X_tr.shape[1]))
+#plt.ylim((160, 170))
+plt.legend()
+
+plt.show()
diff --git a/lightning/impl/fw.py b/lightning/impl/fw.py
@@ -0,0 +1,114 @@
+import numpy as np
+import scipy.sparse as sp
+
+from sklearn.base import BaseEstimator, RegressorMixin
+from sklearn.utils.extmath import safe_sparse_dot
+
+
+def _frank_wolfe(w_init, X, y, beta, max_iter=50, tol=1e-3, max_nz=None,
+ verbose=0):
+ """
+ Solve
+
+ 0.5 * ||np.dot(X, w) - y||^2 s.t. ||w||_1 <= beta
+
+ by the Frank-Wolfe method.
+
+ The method can be seen as a greedy coordinate descent: it adds at most one
+ non-zero coefficient per iteration.
+ """
+ n_samples, n_features = X.shape
+
+ if sp.issparse(X):
+ X = X.tocsc()
+
+ w = w_init.copy()
+
+ for it in range(max_iter):
+ y_pred = safe_sparse_dot(X, w)
+ resid = beta * y_pred - y
+ neg_grad = -safe_sparse_dot(X.T, beta * resid)
+
+ atom = np.argmax(np.abs(neg_grad))
+ s = np.sign(neg_grad[atom])
+
+ error = np.dot(resid, resid)
+ dgap = s * neg_grad[atom] - np.dot(w, neg_grad)
+
+ if it == 0:
+ error_init = error
+ dgap_init = dgap
+
+ if verbose:
+ print "iter", it + 1
+ print "duality gap", dgap / dgap_init
+ print "error reduction", error / error_init
+ print "l1 norm", beta * np.sum(np.abs(w))
+ print "n_nz", np.sum(w != 0)
+ print
+
+ # Find optimal step size by exact line search.
+ Xs = s * X[:, atom]
+ if sp.issparse(Xs):
+ Xs_sq = np.dot(Xs.data, Xs.data)
+ else:
+ Xs_sq = np.dot(Xs, Xs)
+ y_pred_sq = np.dot(y_pred, y_pred)
+ b = (Xs - y_pred)
+ gamma = np.dot(resid, y_pred) - safe_sparse_dot(resid, Xs)
+ gamma /= beta * (Xs_sq - 2 * safe_sparse_dot(Xs.T, y_pred) + y_pred_sq)
+ gamma = max(0, min(1, gamma))
+
+ # Update parameters.
+ w *= (1 - gamma)
+ w[atom] += gamma * s
+
+ # Stop if maximum number of non-zero coefficients is reached.
+ if max_nz is not None and np.sum(w != 0) == max_nz:
+ break
+
+ # Stop if desired duality gap tolerance is reached.
+ if dgap / dgap_init <= tol:
+ if verbose:
+ print "Converged"
+ break
+
+ w *= beta
+ return w
+
+
+class FWRegressor(BaseEstimator, RegressorMixin):
+
+ def __init__(self, beta=1.0, max_iter=50, tol=1e-3, max_nz=None, verbose=0):
+ self.beta = beta
+ self.max_iter = max_iter
+ self.tol = tol
+ self.max_nz = max_nz
+ self.verbose = verbose
+
+ def fit(self, X, y):
+ n_features = X.shape[1]
+ coef = np.zeros(n_features)
+ self.coef_ = _frank_wolfe(coef, X, y, beta=self.beta,
+ max_iter=self.max_iter, tol=self.tol,
+ max_nz=self.max_nz, verbose=self.verbose)
+ return self
+
+ def predict(self, X):
+ return safe_sparse_dot(X, self.coef_)
+
+
+if __name__ == '__main__':
+ from sklearn.datasets import load_diabetes
+ from sklearn.preprocessing import StandardScaler
+
+ diabetes = load_diabetes()
+ X, y = diabetes.data, diabetes.target
+ X = StandardScaler().fit_transform(X)
+ #X = sp.csr_matrix(X)
+
+ reg = FWRegressor(beta=100, max_iter=1000, tol=1e-2, verbose=1)
+ reg.fit(X, y)
+ y_pred = reg.predict(X)
+ error = np.mean((y - y_pred) ** 2)
+ print error
diff --git a/lightning/regression.py b/lightning/regression.py
@@ -2,6 +2,7 @@
 from .impl.dual_cd import LinearSVR
 from .impl.primal_cd import CDRegressor
 from .impl.fista import FistaRegressor
+from .impl.fw import FWRegressor
 from .impl.sag import SAGRegressor
 from .impl.sag import SAGARegressor
 from .impl.sdca import SDCARegressor