Pedí un algoritmo para optimizar mi vida. Esto es lo que pasó


Con un límite de cinco, estaría eligiendo una opción aleatoria para aproximadamente una de cada 20 decisiones que tomé con mi algoritmo. Elegí cinco como punto de corte porque parecía una frecuencia razonable para la aleatoriedad ocasional. Para los ambiciosos, existen más procesos de optimización para decidir qué valor de corte usar, o incluso cambiar el valor de corte a medida que continúa el aprendizaje. Lo mejor que puede hacer es probar algunos valores y ver cuál es el más eficaz. Los algoritmos de aprendizaje por refuerzo a veces toman acciones aleatorias porque se basan en experiencias pasadas. Seleccionar siempre la mejor opción pronosticada podría significar perderse una mejor opción que nunca antes se había probado.

Dudaba que este algoritmo realmente mejorara mi vida. Pero el marco de optimización, respaldado por pruebas matemáticas, artículos revisados ​​por pares y miles de millones en ingresos de Silicon Valley, tenía mucho sentido para mí. ¿Cómo, exactamente, se desmoronaría en la práctica?

08:30 am

¿La primera decisión? Si levantarme a las 8:30 como lo había planeado. Apagué mi alarma, abrí el RNG y contuve la respiración mientras giraba y escupía… ¡un 9!

Ahora la gran pregunta: en el pasado, ¿dormir hasta tarde o levantarme a tiempo me ha producido mejores resultados? Mi intuición me gritaba que debía omitir cualquier razonamiento y simplemente dormir, pero por el bien de la justicia, traté de ignorarlo y contar mis recuerdos confusos de las siestas matutinas. La alegría de quedarse en la cama era mayor que la de una mañana tranquila de fin de semana, decidí, siempre que no me perdiera nada importante.

09 a.m

Tenía una reunión de proyecto de grupo por la mañana y algunas lecturas de aprendizaje automático para terminar antes de que comenzara («Aprendizaje profundo bayesiano a través de inferencia de subred», ¿alguien?), así que no pude dormir por mucho tiempo. El RNG me indicó que decidiera en base a la experiencia previa si saltarme la reunión; Opté por asistir. Para decidir si hacer mi lectura, volví a tirar y obtuve un 5, lo que significa que elegiría al azar entre hacer la lectura o saltearla.

Fue una decisión tan pequeña, pero estaba sorprendentemente nerviosa mientras me preparaba para sacar otro número al azar en mi teléfono. Si obtenía un 50 o menos, me saltaba la lectura para honrar el componente de «exploración» del algoritmo de toma de decisiones, pero realmente no quería hacerlo. Aparentemente, eludir la lectura solo es divertido cuando lo haces a propósito.

Presioné el botón GENERAR.

65. Leería después de todo.

11:15

Escribí una lista de opciones sobre cómo pasar la franja de tiempo libre que ahora enfrentaba. Podría caminar a un café distante que quería probar, llamar a casa, comenzar algunas tareas escolares, buscar programas de doctorado para postularme, investigar un agujero de conejo irrelevante en Internet o tomar una siesta. Salió un número alto del RNG: necesitaría tomar una decisión basada en datos sobre qué hacer.

Esta fue la primera decisión del día más complicada que o No, y en el momento en que comencé a dudar sobre cuán «preferible» era cada opción, quedó claro que no tenía forma de hacer una estimación precisa. Cuando un agente de IA que sigue un algoritmo como el mío toma decisiones, los informáticos ya le han dicho qué califica como «preferible». Traducen lo que experimenta el agente en una puntuación de recompensa, que luego la IA trata de maximizar, como «tiempo sobrevivido en un videojuego» o «dinero ganado en el mercado de valores». Sin embargo, las funciones de recompensa pueden ser difíciles de definir. Un robot de limpieza inteligente es un ejemplo clásico. Si le indica al robot que simplemente maximice los pedazos de basura desechados, podría aprender a derribar el bote de basura y guardar la misma basura nuevamente para aumentar su puntaje.



Source link-46