- Pohon regresi menangkap hubungan nonlinier dengan memecah ruang fitur secara rekursif hingga setiap daun dapat diringkas dengan satu nilai konstan.
- Kualitas split diukur lewat penurunan mean squared error (MSE) pada node anak; semakin besar penurunan, semakin baik pertanyaannya.
- Parameter
max_depth,min_samples_leaf, danccp_alphamembantu menjaga keseimbangan antara ketelitian dan interpretabilitas serta menekan overfitting. - Scatter plot, peta kontur, dan visualisasi pohon memudahkan kita menjelaskan area mana yang berbagi prediksi sama.
1. Gambaran umum #
Serupa dengan klasifikasi, pohon regresi menanyakan pertanyaan sederhana tentang fitur, namun targetnya kini bersifat kontinu. Setiap daun mengeluarkan rata-rata sampel yang masuk, sehingga fungsi yang dihasilkan bersifat konstan per segmen. Pohon yang dalam menangkap detail halus, sedangkan pohon dangkal menjaga tren global.
2. Kriteria pemisahan (reduksi varians) #
Untuk node (t) dengan (n_t) sampel dan rata-rata (\bar{y}_t), impuritasnya didefinisikan sebagai
$$ \mathrm{MSE}(t) = \frac{1}{n_t} \sum_{i \in t} (y_i - \bar{y}_t)^2. $$
Jika (t) dibagi menggunakan fitur (x_j) dan ambang (s), keuntungan yang diperoleh adalah
$$ \Delta = \mathrm{MSE}(t) - \frac{n_L}{n_t} \mathrm{MSE}(t_L) - \frac{n_R}{n_t} \mathrm{MSE}(t_R). $$
Split terbaik adalah yang memaksimalkan (\Delta); ketika tidak ada split yang memberikan keuntungan positif, node berubah menjadi daun.
3. Contoh Python #
Cuplikan pertama melatih pohon dangkal pada sampel sinusoid yang diberi derau untuk menunjukkan bentuk fungsi yang konstan per segmen. Eksperimen kedua menggunakan dua fitur, menghitung (R^2), RMSE, MAE, dan menggambarkan permukaan prediksi serta struktur pohonnya.
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.datasets import make_regression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
rng = np.random.default_rng(42)
X1 = np.sort(5 * rng.random((120, 1)), axis=0)
y1_true = np.sin(X1).ravel()
y1 = y1_true + rng.normal(scale=0.2, size=X1.shape[0])
reg1 = DecisionTreeRegressor(max_depth=3, random_state=0).fit(X1, y1)
y1_pred = reg1.predict(X1)
plt.figure(figsize=(8, 4))
plt.scatter(X1, y1, s=15, c="gray", label="observasi")
plt.plot(X1, y1_true, lw=2, label="sinyal asli")
plt.step(X1.ravel(), y1_pred, where="mid", lw=2, label="prediksi pohon")
plt.xlabel("x")
plt.ylabel("y")
plt.title("Pohon regresi menghasilkan fungsi konstan per segmen")
plt.legend()
plt.grid(alpha=0.3)
plt.show()

X, y = make_regression(n_samples=400, n_features=2, noise=15.0, random_state=777)
reg = DecisionTreeRegressor(max_depth=4, random_state=0).fit(X, y)
r2 = r2_score(y, reg.predict(X))
rmse = mean_squared_error(y, reg.predict(X), squared=False)
mae = mean_absolute_error(y, reg.predict(X))
print(f"R2={r2:.3f} RMSE={rmse:.2f} MAE={mae:.2f}")
x_min, x_max = X[:, 0].min()-1, X[:, 0].max()+1
y_min, y_max = X[:, 1].min()-1, X[:, 1].max()+1
xx, yy = np.meshgrid(
np.linspace(x_min, x_max, 150),
np.linspace(y_min, y_max, 150),
)
zz = reg.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
plt.figure(figsize=(7, 6))
cs = plt.contourf(xx, yy, zz, levels=15, cmap="viridis", alpha=0.8)
plt.colorbar(cs, label="prediksi")
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="viridis", s=20, edgecolor="k", alpha=0.7)
plt.xlabel("x1")
plt.ylabel("x2")
plt.title("Permukaan prediksi pohon regresi")
plt.show()

plt.figure(figsize=(12, 10))
plot_tree(
reg,
filled=True,
feature_names=["x1", "x2"],
rounded=True,
)
plt.title("Struktur pohon regresi yang dipelajari")
plt.show()

4. Referensi #
- Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth.
- scikit-learn developers. (2024). Decision Trees. https://scikit-learn.org/stable/modules/tree.html