机器学习是人工智能的一个分支,让计算机通过数据自动学习并改进。
机器学习类型
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
# 加载数据
data = pd.read_csv('dataset.csv')
# 数据预处理
# 处理缺失值
data.fillna(method='ffill', inplace=True)
# 编码分类变量
label_encoder = LabelEncoder()
data['category'] = label_encoder.fit_transform(data['category'])
# 特征和目标变量
X = data.drop('target', axis=1)
y = data['target']
# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
提示: 这是一个重要的概念,需要特别注意理解和掌握。
注意: 这是一个常见的错误点,请避免犯同样的错误。