Building a Logistic Regression Model

2.8. Building a Logistic Regression Model#

Building a logistic regression model using pandas and sklearn is very similar building a linear regression model. Let’s first look at our dataset. pass_fail.csv

import pandas as pd

data = pd.read_csv("pass_fail.csv")
print(data)

Now we can build our logistic regression model. Instead of importing LinearRegression, we import LogisticRegression.

from sklearn.linear_model import LogisticRegression
import pandas as pd

data = pd.read_csv("pass_fail.csv")
x = data["Time Spent Studying (hours)"].to_numpy()
y = data["Exam Result"].to_numpy()

logistic_reg = LogisticRegression()
logistic_reg.fit(x.reshape(-1, 1), y)

beta0 = logistic_reg.intercept_
beta1 = logistic_reg.coef_[0]
print(beta0)
print(beta1)

We can also visualise our model.

from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Load data
data = pd.read_csv("pass_fail.csv")
x = data["Time Spent Studying (hours)"].to_numpy()
y = data["Exam Result"].to_numpy()

# Build logistic regression model
logistic_reg = LogisticRegression()
logistic_reg.fit(x.reshape(-1, 1), y)

beta0 = logistic_reg.intercept_
beta1 = logistic_reg.coef_[0]

# Create x and y values to visualise the model function
x_model = np.linspace(0, 10, 50)
y_model = 1 / (1 + np.exp(-(beta0 + beta1 * x_model)))

plt.figure(figsize=(4, 4))
plt.scatter(x, y)  # Data
plt.plot(x_model, y_model, color="red")  # Model
plt.xlabel("Amout of Time Spent Studying (hours)")
plt.ylabel("Probability of a Pass")
plt.xlim([0, 10])
plt.ylim([-0.1, 1.1])
plt.tight_layout()
plt.savefig("plot.png")