English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
El proceso de ajuste de los datos con una línea recta se llama regresión. La idea de clasificación de regresión logística es: establecer una fórmula de regresión para la frontera de clasificación basada en los datos existentes.
Se expresa con la fórmula:
I. Método de ascenso de gradiente
Cada iteración, todos los datos participan en el cálculo.
for número de iteraciones:
Entrenamiento
El código siguiente:
import numpy as np import matplotlib.pyplot as plt def loadData(): labelVec = [] dataMat = [] with open('testSet.txt') as f: for line in f.readlines(): dataMat.append([1.0,line.strip().split()[0],line.strip().split()[1]) labelVec.append(line.strip().split()[2]) return dataMat,labelVec def Sigmoid(inX): return 1/(1+np.exp(-inX)) def trainLR(dataMat,labelVec): dataMatrix = np.mat(dataMat).astype(np.float64) lableMatrix = np.mat(labelVec).T.astype(np.float64) m,n = dataMatrix.shape w = np.ones((n,1)) alpha = 0.001 for i in range(500): predict = Sigmoid(dataMatrix*w) error = predict-lableMatrix w = w - alpha*dataMatrix.T*error return w def plotBestFit(wei,data,label): if type(wei).__name__ == 'ndarray': weights = wei else: weights = wei.getA() fig = plt.figure(0) ax = fig.add_subplot(111) xxx = np.arange(-3,3,0.1) yyy = - weights[0]/weights[2] - weights[1]/weights[2]*xxx ax.plot(xxx,yyy) cord1 = [] cord0 = [] for i in range(len(label)): if label[i] == 1: cord1.append(data[i][1:3]) else: cord0.append(data[i][1:3]) cord1 = np.array(cord1) cord0 = np.array(cord0) ax.scatter(cord1[:,0],cord1[:,1],c='red') ax.scatter(cord0[:,0],cord0[:,1],c='green') plt.show() if __name__ == "__main__": data,label = loadData() data = np.array(data).astype(np.float64) label = [int(item) for item in label] weight = trainLR(data,label) plotBestFit(weight,data,label)
II. Método de ascenso de gradiente aleatorio
1.Los parámetros de aprendizaje se ajustan según el número de iteraciones, lo que puede aliviar las fluctuaciones de alta frecuencia de los parámetros.
2.Elegir aleatoriamente muestras para actualizar los parámetros de regresión, lo que puede reducir las fluctuaciones periódicas.
for número de iteraciones:
for cantidad de muestras:
Actualización de la velocidad de aprendizaje
Selección aleatoria de muestras
Entrenamiento
Eliminar este ejemplo del conjunto de muestras
El código siguiente:
import numpy as np import matplotlib.pyplot as plt def loadData(): labelVec = [] dataMat = [] with open('testSet.txt') as f: for line in f.readlines(): dataMat.append([1.0,line.strip().split()[0],line.strip().split()[1]) labelVec.append(line.strip().split()[2]) return dataMat,labelVec def Sigmoid(inX): return 1/(1+np.exp(-inX)) def plotBestFit(wei,data,label): if type(wei).__name__ == 'ndarray': weights = wei else: weights = wei.getA() fig = plt.figure(0) ax = fig.add_subplot(111) xxx = np.arange(-3,3,0.1) yyy = - weights[0]/weights[2] - weights[1]/weights[2]*xxx ax.plot(xxx,yyy) cord1 = [] cord0 = [] for i in range(len(label)): if label[i] == 1: cord1.append(data[i][1:3]) else: cord0.append(data[i][1:3]) cord1 = np.array(cord1) cord0 = np.array(cord0) ax.scatter(cord1[:,0],cord1[:,1],c='red') ax.scatter(cord0[:,0],cord0[:,1],c='green') plt.show() def stocGradAscent(dataMat,labelVec,trainLoop): m,n = np.shape(dataMat) w = np.ones((n,1)) for j in range(trainLoop): dataIndex = range(m) for i in range(m): alpha = 4/(i+j+1) + 0.01 randIndex = int(np.random.uniform(0,len(dataIndex))) predict = Sigmoid(np.dot(dataMat[dataIndex[randIndex]],w)) error = predict - labelVec[dataIndex[randIndex]] w = w - alpha*error*dataMat[dataIndex[randIndex]].reshape(n,1) np.delete(dataIndex,randIndex,0) return w if __name__ == "__main__": data,label = loadData() data = np.array(data).astype(np.float64) label = [int(item) for item in label] weight = stocGradAscent(data,label,300) plotBestFit(weight,data,label)
Tercero, trucos de programación
1.extracción de cadena
Quitar ' \n ', ' \r ', ' \t ', ' ' de la cadena, dividir por el carácter de espacio.
string.strip().split()
2.juzgar tipo
if type(secondTree[value]).__name__ == 'dict':
3.multiplicación
La multiplicación de dos vectores de tipos de matriz de numpy da como resultado aún una matriz
c = a*b c Out[66]: matrix([[ 6.830482])
La multiplicación de dos vectores de tipos de vector da como resultado un array bidimensional
b Out[80]: array([[ 1.], [ 1.], [ 1.]]) a Out[81]: array([1, 2, 3]) a*b Out[82]: array([[ 1., 2., 3.], [ 1., 2., 3.], [ 1., 2., 3.]]) b*a Out[83]: array([[ 1., 2., 3.], [ 1., 2., 3.], [ 1., 2., 3.]])
Esto es todo el contenido de este artículo, espero que ayude a su aprendizaje y que todos apoyen el tutorial de clamor.
Declaración: el contenido de este artículo se ha obtenido de la red, es propiedad del autor original, el contenido se ha contribuido y subido por los usuarios de Internet de manera autónoma, este sitio no posee los derechos de propiedad, no se ha realizado un procesamiento editorial manual y no asume la responsabilidad de las responsabilidades legales relacionadas. Si encuentra contenido sospechoso de infracción de derechos de autor, por favor envíe un correo electrónico a: notice#oldtoolbag.com (al enviar un correo electrónico, por favor reemplace # con @ para denunciar y proporcionar evidencia. Una vez verificada, este sitio eliminará inmediatamente el contenido sospechoso de infracción de derechos de autor.)