Problemas para agregar una capa adicional a la red neuronal en Tensorflow

Jakob Publicado en Dev

Jakob

Estoy tratando de agregar una segunda capa oculta a mi red neuronal, entrenando en el conjunto de datos MNIST. Con solo una simple capa oculta, el entrenamiento funciona bien y la precisión aumenta constantemente.

Cuando trato de agregar la segunda capa, la precisión se bloquea en 0.117 cada vez que comienzo a entrenar. ¿No puedo entender qué estoy haciendo mal aquí?

Intenté agregar sigmoide a mi y sin suerte.

XTrain = XTrain[0:10000,:]
YTrain = YTrain[0:10000]

K = len(set(YTrain))
N = len(YTrain)
M = 12 #Hidden layer units
D = XTrain.shape[1]


tfX = tf.placeholder(tf.float32, [None, D])
tfY = tf.placeholder(tf.float32, [None, K])                    

# HIDDEN LAYER 1
W1 = tf.Variable(tf.random_normal([D,M], stddev=0.01))
b1 = tf.Variable(tf.random_normal([M], stddev=0.01))

# HIDDEN LAYER 2
W2 = tf.Variable(tf.random_normal([M,M], stddev=0.01))
b2 = tf.Variable(tf.random_normal([M], stddev=0.01))

# OUTPUT LAYER 
W3 = tf.Variable(tf.random_normal([M,K], stddev=0.01))
b3 = tf.Variable(tf.random_normal([K], stddev=0.01))

# MODEL
h1 = tf.nn.sigmoid(tf.matmul(tfX, W1) + b1)
h2 = tf.nn.sigmoid(tf.matmul(h1, W2) + b2)
y = tf.matmul(h2,W3) + b3

# Softmax and cross-entropy
cost = tf.reduce_mean(
  tf.nn.softmax_cross_entropy_with_logits_v2(
    labels = tfY,
    logits = y)
)

# Targets One-Hot encoded
T = np.zeros((N,K)) 
for i in range(N):
    T[i,YTrain[i]] = 1

#Gradient descent
train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost)

predict_op = tf.argmax(y, 1)

# Start session and initialize variables
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)

# TRAIN
for i in range(10000):
    sess.run(train_op, feed_dict={tfX: XTrain, tfY: T})
    pred = sess.run(predict_op, feed_dict={tfX: XTrain, tfY: T})
    if i % 20 == 0:
        print("Accuracy:", np.mean(YTrain == pred))

Cuando empiezo a entrenar, la salida se ve así:

Exactitud: 0.0991 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127 Exactitud: 0.1127

Jakob

Yo mismo encontré una solución al problema.

Aparentemente, la inicialización de los pesos no fue correcta. Funciona si cambio la inicialización a:

# HIDDEN LAYER 1
W1 = tf.Variable(tf.random_normal([D,M], stddev=1) / np.sqrt(D))
b1 = tf.Variable(tf.random_normal([M], stddev=1))

# HIDDEN LAYER 2
W2 = tf.Variable(tf.random_normal([M,M], stddev=1) / np.sqrt(M))
b2 = tf.Variable(tf.random_normal([M], stddev=1))

# OUTPUT LAYER 
W3 = tf.Variable(tf.random_normal([M,K], stddev=1) / np.sqrt(M))
b3 = tf.Variable(tf.random_normal([K], stddev=1))

Por qué todavía no estoy muy seguro, agradecería cualquier respuesta y comentario.

Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.

En caso de infracción, por favor [email protected] Eliminar

Editado en2021-01-4

Déjame decir algunas palabras

0Comentarios

Iniciar sesiónRevisión de participación posterior

Anterior:Analizar datos variables en onclicklistener a través de la intención

TOP Lista

Artículos

Problemas para agregar una capa adicional a la red neuronal en Tensorflow

Problemas para agregar una capa adicional a la red neuronal en Tensorflow

¿Cómo ocultar la aplicación web de los robots de búsqueda? (ASP.NET)

Ver todos los comentarios en un video de YouTube

Cómo utilizar HttpClient con cualquier certificado SSL, no importa lo "malo" que es

Redis 세션 저장소와 함께 SpringSessionBackedSessionRegistry 사용

Obtenga todos los comentarios y responda a los comentarios en un solo SQL

WPF pleine largeur DataGridColumn sur la largeur de DataGrid

Modbus Python Schneider PM5300

Today Extension con UICollectionView comportamiento diferente en comparación con la aplicación de vista única

Visualización KNN: cómo dibujar un círculo alrededor de un punto de datos que se conecta a N puntos más cercanos usando R

¿Cómo formatear el valor mínimo y máximo de android-range-seek-bar?

OAuth 2.0 utilizando Spring Security + WSO2 Identity Server

jmeter + Selenium iDE

¿Es una pila LAMJ un entorno posible?

Typescript compiling and changing filenames to lowercase all the time (VS2015)

Le snack-bar ne bouge pas FAB placé à l'intérieur du fragment

Vscode sin intellisense / autocompletado con múltiples proyectos

ElasticSearch: error al obtener bloqueos de nodo

Autocompletar con Java, Redis, elástico de la búsqueda, Mongo

Visual Studio 2012 Unit Test Report

Chartkick histogrammes plusieurs couleurs

使用FailureFolicy将`gcloud beta functions deploy`命令转换为Deployment Manager模板