El error humano

Un descuido puede precipitar catástrofes. Por suerte, calcular es divino

 

Todos los días, en todos los aeropuertos de las grandes ciudades, en todas las torres de control, se vive siempre un clima de tensión. Es palpable aún para ellos, ni hablar para ninguno de nosotros que —creo— no tenemos ni idea de lo que sucede en lugares de ese tipo. Las personas que allí trabajan tienen períodos de descanso programados con mucha mayor frecuencia que en otros oficios, tratando de evitar o eliminar los errores típicos de una persona que está fatigada, aunque no lo note. Hay constantes reaseguros y redundancias en los controles por esa misma razón. La idea, obviamente, es tratar de prevenir el error humano. Está muy claro que la seguridad total no existeJustamente, como somos humanos los involucrados, el error y la imperfección son inherentes a nuestra condición. Pero el objetivo es minimizarlos. Aún cuando la mayoría de esas mismas funciones sean desarrolladas por computadoras, hay múltiples sistemas controlándose unos a otros. Y humanos vigilando. O al menos, eso es lo que se supone que tendría que pasar.

De todas formas nosotros, los pasajeros, vemos las torres: están allí. Creo que no hay manera de que una persona se imagine un aeropuerto sin torre. Aún en los pueblos más pequeños, o en los aeropuertos desde donde despegan los aviones más chicos, siempre hay una torre.

Pero en esta oportunidad me quiero referir a otro tipo de centros de control aéreo. Son ‘centros especiales’, que se ocupan de controlar los vuelos de larga distancia durante todo el tiempo que están volando a grandes alturas. Tanto antes (en el momento del despegue hasta superar determinada altura) o después (cuando están a punto de aterrizar), el ‘comando o monitoreo’ de estos aviones corre por cuenta de otro grupo de controladores, y tanto las personas e instrumental se encuentran en otro lugar habitualmente desconectados de los lugares que vemos. Por poner un ejemplo, Estados Unidos es el país que tiene la mayor cantidad de estos centros: son nada más que 21. Se usan en todo el territorio norteamericano y también incluye Alaska. Y ahora, después de tanto prolegómeno, llegó el momento en el que quiero contar un episodio que virtualmente pasó inadvertido pero que pudo haber terminado en un accidente de proporciones difíciles de imaginar. Acompáñeme por acá.

El 14 de septiembre del año 2004, en uno de estos 21 centros se produjo una de ‘esas situaciones típicas y por ende tan temidas’ que ponen a todos los participantes en un estado de ‘locura’, como si súbitamente todos entraran en una película de terror.

Alrededor de las 5 de la tarde hora del Pacífico (en general en la Argentina hay entre cuatro o cinco horas más), la torre instalada en Palmdale, California, perdió contacto súbito con todos los aviones que dependían de ella: ¡todos!

Los seguían viendo en el radar, pero no podían hablar con ellos, no podían comunicarse y por lo tanto, al haber perdido el ‘contacto de voz’… ¡No podían darles instrucciones! En ese momento había más de 400 (cuatrocientos) aviones en la ‘zona’, y decenas de miles de pasajeros en el aire. Si uso la palabra pánico me quedo corto. Pero igual, la uso. Pánico, eso. Por otro lado, había más de 800 aviones que estaban en las puertas de otros aeropuertos, además de los más importantes de Los Ángeles, esperando el turno para salir. Imposible. Todo demorado. Y otros 600 vuelos cancelados. ¿Qué hacer? Por supuesto, todos estos estaban en tierra y el inconveniente era de tipo logístico. Los otros, no, y quizás lo peor de todo es que virtualmente todos ignoraban lo que estaba ‘pasando’.

La desesperación no impidió que varios de los controladores se comunicaran con otros centros de este tipo usando sus teléfonos celulares. El personal adiestrado para manejar este tipo de situaciones debía agregar, a los aviones que ellos ya monitoreaban, todos los que les llegaban desde otro lugar. Pero mientras ponían en práctica todos los planes alternativos, había que convencer a todos los participantes de que no había tiempo para perder, ni nada para discutir. Las pocas personas que tienen el poder de tomar la decisión final, la toman. Y estas decisiones no son opinables: son órdenes, como si estuvieran en un régimen militar.

El problema más severo y quizás el único que importaba en ese momento era que los aviones no chocasen entre ellos. El centro donde se produjo el ‘corte’ estaba a cargo de todos los aviones que volasen por encima de los 13.000 pies (4.000 metros) en un área de 460.000 kilómetros cuadrados que cubría la parte sur de California y porciones de los estados de Arizona, Nevada, Utah, pero sobre todo incluía —además de varios de los aeropuertos de Los Angeles— otro de los aeropuertos más ocupados del mundo: el Aeropuerto Internacional de McCarran. Así dicho es posible que a usted no le diga nada, como no me lo decía a mí. Pero si yo agrego que McCarran es el aeropuerto de Las Vegas, el único aeropuerto internacional del que se valen todos los turistas que arriban por vía aérea, la historia cambia. Por lo tanto, la situación afectaba múltiples aeropuertos de Los Angeles, Phoenix, Salt Lake City, Reno, y también… Las Vegas. La lista es más larga pero creo que a esta altura es totalmente irrelevante. De hecho, aunque estuviera cargo de un solo avión con una sola vida, todo lo demás se transforma en irrelevante.

Por supuesto, así como usted debe haber pensado o estará pensando ahora, en el mismo momento que se interrumpió el control, se activó un sistema alternativo, como era esperable que sucediera.

Pero se produjo otro accidente: el sistema que se hizo cargo estalló y dejó de funcionar a menos de un minuto de empezar a funcionar.

Los aviones pueden decolar y aterrizar usando los equipos que todos tienen para hacerlo en forma automática, sin la intervención humana. Ese no era el problema. El problema residía en la interacción entre ellos. Las torres son las que ordenan el tráfico aéreo y toman las decisiones sobre el orden en el que se producen los aterrizajes (olvidémonos por ahora de los despegues, porque esa parte quedó interrumpida instantáneamente). Pero para aterrizar, hace falta seguir trayectorias, asignación de pistas para eventuales aterrizajes simultáneos, cuidar el combustible de cada máquina, ¡mantener las distancias mínimas entre ellos!, y creo que puedo parar acá: usted se imagina el resto. Pero lo que no es menor es que justamente, cada avión de este porte necesita tener horizontalmente un poco más de 9 kilómetros por lado (cinco millas náuticas) y 2.000 pies en forma vertical, alrededor de 610 metros (tanto hacia arriba como hacia abajo). Por un instante, piense lo que significan estos números: casi 10 kilómetros por lado, en donde no haya ningún otro avión lateralmente y más de seis cuadras para arriba y para abajo.

Es por eso que se hace imprescindible que haya un ‘director de orquesta’, que vea el panorama de todo lo que sucede alrededor. Si un piloto llegara a ver otro avión dentro del volumen permitido es muy posible que ya sea demasiado tarde y si no hay colisión se deba más a un milagro que a la pericia indudable que tienen quienes los manejan. Se me ocurre un diálogo ficticio entre dos pilotos: ‘yo voy para arriba y a la derecha; vos andá para abajo y a la izquierda’.

Si los dos van en la misma dirección, la derecha y la izquierda significa lo mismo, pero si van en sentido contrario, lo que es derecha para usted es izquierda para mí…. Y al revés también. Entonces, ¿si eligen los dos ir para el mismo lado tanto en forma lateral como vertical?

De acuerdo con un reporte que reprodujo el New York Times [1] en su artículo del día siguiente, 15 de septiembre del 2004, se produjeron cinco ‘casi’ colisiones, o ‘casi’ choques. Lo irónico es que justo esa mañana, solo unas horas antes del incidente, George Bush (hijo), en ese momento Presidente de los Estados Unidos, estaba en Las Vegas y salió con el avión presidencial (el Air Force One) sin que se registrara ningún incidente. Pero el accidente tomó estado público en forma inmediata, no solo por lo que le sucedió a todos quienes vieron demorados o cancelados sus vuelos, sino porque todos los periodistas que habían acompañado al Presidente viajaban en un solo avión… y ese avión en particular… no pudo salir.

Otros informes [2] detallan lo que sucedió dentro de la torre. Hamid Ghaffari, el presidente de la Asociación Nacional (norteamericana) de controladores aéreos, explicaba: “Es una situación que no le desearía a ninguno de los trabajadores de la torre: ver como dos aviones están a la misma altura, se dirigen al mismo lugar y en el último instante uno ve que uno de ellos trepa (sic) y el otro desciende”.

Al llegar a este punto, y quizás mucho antes, usted se habrá preguntado: ¿y por qué habría de contar yo un incidente que se produjo hace más de 15 años? ¿Y por qué acá, en este contexto?

Y antes de contestar específicamente, hay algo que se me ocurre que usted ya pensó también: ¿qué habrá pasado para que esa torre tuviera ese tipo de problema? ¿Fue acaso un ataque terrorista? ¿Fue quizás un acto de sabotaje interno? ¿Fue premeditado? ¿O fue verdaderamente un accidente?

Antes de avanzar con el análisis de esas preguntas, sígame por acá y verá que lo que sucedió es verdaderamente increíble. Eso sí: le pido también, que me acompañe con la matemática necesaria para poder entender.

Usted ya sabe, o debe haber escuchado a lo largo de los años, que las computadoras hablan un lenguaje diferente al que utilizamos los humanos en nuestra vida cotidiana. De hecho, ni siquiera los números que usan las computadoras son los mismos que utilizamos todos los días. En principio, una computadora no usa los dígitos del 0 al 9, sino que solamente usa ceros unos. Es lo que se llama escritura binaria.

Estos ceros unos no solamente reemplazan a los dígitos comunes sino que son los que sirven para escribir cualquier instrucción, cualquier palabra, cualquier color, cualquier sonido… ¡todo!

 Una pausa y un pedido:

¡Por favor: no se vaya a perder ahora, porque lo que voy a escribir es muy sencillo! Sólo le pido que me tenga un poquito de paciencia.

En principio, de acuerdo con el informe del propio Ghaffari después de haber visto la ‘grabación’ de lo que había sucedido en el radar, como quien vuelve a ver una película: “Los verdaderos héroes del episodio fueron los sistemas de prevención de colisiones que tienen instalados todos los aviones comerciales. Si el incidente se hubiera producido hace 10 ó 15 años, cuando estos sistemas no existían, no hubiera habido manera de evitar que múltiples aviones se hubieran chocado unos a otros”.

Todo bien (o todo mal, si usted prefiere), pero… ¿qué pasó? El problema se redujo a un error humano, que se hubiera podido evitar completamente. El sistema que se utiliza en todas estas torres requiere que sea ‘reiniciado’, como cuando uno reinicia una computadora después de haber hecho una actualización del sistema operativo, y eso tiene que hacerse inexorablemente cada 30 días. Dentro del sistema de control interno, hay un contador o un cronómetro, pero usado como un timer. ¿Vio el aparatito que quizás usted utiliza para avisarle que la comida está lista, o cuando un horno de micro-ondas llega al punto final? Esos ‘aparatos’ tienen un nombre en inglés (solo porque no se me ocurre cómo llamarlos en castellano): se llaman timers (pronunciados en fonética como ‘taimers’). Cada 30 días hay que reiniciarlos: si usted no lo hace, el timer sigue corriendo unos 20 días más (ahora voy a ser un poco más preciso con las cuentas), pero si pasados esos casi 50 días nadie hizo nada, el aparato ¡se apaga! Así, directamente. Se apaga. ¡Y eso fue lo que pasó! El operario que debería haber re-iniciado el timer a los 30 días, no lo hizo. El timer siguió corriendo, y cuando se agotaron los 50 días, ¡cortó todo!

Esa es la explicación menos técnica. Y seguramente con eso es más que suficiente para entender, al menos por qué pasó. Igualmente me queda una sensación de impotencia pensar que uno (usted, yo, ellos, cualquiera) depende de que UNA PERSONA ‘reinicie’ una computadora. Ahora bien: cuando usted está cocinando un pollo por ejemplo, y lo puso en un horno convencional o en un horno a micro-onda, usted sitúa el timer en, digamos, 15 minutos o en cuatro minutos, es irrelevante. En el caso de la torre, el timer estaba puesto en este número:

4.294.967.295

Es decir, cuatro mil doscientos noventa y cuatro millones, novecientos sesenta y siete mil doscientos noventa y cinco. Ahora la pregunta que yo aspiro a que usted se esté haciendo (o me esté haciendo):

“¿4.294.967.295 qué….? ¿Qué unidades?”

Bueno, en este caso son 4.294.967.295 milisegundos. Esto significan 49 días, 17 horas, 2 minutes y 47.295 segundos hasta llegar a cero. Si alguien reinicia el timer, entonces lo vuelve a poner en ese número y la cuenta regresiva comienza nuevamente. Ahora bien: ¿por qué ese número tan loco? ¿De dónde sale?

Lo que sigue ahora, en estos párrafos finales, siéntase libre de saltearlo porque no le va a agregar nada respecto del motivo por el cual el sistema dejó de funcionar. Pero lo que sí le va a agregar, es que va a entender de dónde sale ese número y por qué se usa (o se usó). Y nosotros lo hemos usado reiteradamente, sin siquiera saber que lo hacíamos. Las computadoras lo hacen. Mientras tanto, yo sigo.

¿Se acuerda que yo le decía al principio de este texto que las computadoras no usan todos los dígitos como nosotros, sino que usan nada más que 0 y 1? ¿Cómo hace entonces una computadora para escribir los números que nosotros conocemos si nada más puede usar ceros unos? Bueno, hace así (acá voy a simplificar un poco, pero si le interesa, hay muchísima literatura escrita al respecto).

Por ejemplo: el número 0 y el número 1 no necesitan nada más, porque se representan a sí mismos: el 0 es el cero y el 1 es el 1.

¿Cómo hacer con el 2? Bien: el 2 se escribe como 10. ¿Ingenioso, no?

¿Y el 3?

El 3 se escribe como 11.

Pero cuando llego al 4, ya no tengo más posibilidades usando ceros y unos y nada más que ‘dos lugares’. Para el 4, necesito agregar un lugar más. Es por eso que se usa el número 100.

Otra vez: ¿no es ingenioso? Claro, ahora necesito de tres lugares: el primero lo uso con el 1 y los dos últimos con ceros.

El 5, se escribe como 101. El 6 se escribe como 110 y el 7 (¿no se anima usted por su cuenta?) se escribe como…. 111.

Y acá se agotan las posibilidades usando nada más que ceros y unos, y tres lugares.

Resumiendo, tengo una forma de escribir los primeros ocho números (incluyendo al cero). Voy a usar dos columnas. La de la izquierda, indica el número que usamos habitualmente. El de la derecha, es la escritura binaria, la que solamente utiliza ceros unos. 

0                                 0

1                                 1

2                                 10

3                                 11

4                                 100

5                                 101

6                                 110

7                                 111

Para escribir el número 8, voy a necesitar cuatro lugares, porque ya agoté todas las posibilidades usando ceros unos, tres lugares. Entonces, efectivamente, el 8 se escribe como 1000. Y escribo algunos más:

9                       1001

10                     1010

11                     1011

12                     1100

13                     1101

14                     1110

15 =                  1111….

Y acá, se vuelve a presentar el mismo problema que antes. Ya agoté todas las posibilidades usando ceros y unos, pero usando hasta cuatro lugares. Para escribir el 16, voy a necesitar un lugar más. Y efectivamente, eso hago:

16                     10000

(ahora son cinco lugares)

Sigo:

17                    10001

18                    10010

19                    10011

20                    10100

21                    10101

22                    10110

23                    10111

24                    11000

25                    11001

26                    11010

27                    11011

28                    11100

29                    11101

30                    11110

31                    11111….. y otra vez, igual que me sucedió más arriba, ahora no puedo seguir.

Para el próximo número, el 32, voy a necesitar ¡un lugar más! Pero usted, si me siguió hasta acá, creo que intuye cuál será la escritura del número 32. Por las dudas, es 100000.

Ya nos acercamos al final. ¿Se imagina cuál será la escritura binaria del número que no entendíamos por qué alguien habría de haberlo elegido? El número que no entendía(mos) era 4.924.967.295.

Justamente, la escritura binaria de  4.924.967.295 es: (la escribo yo)

11 111 111 111 111 111 111 111 111 111 111

Es decir, son 32 números uno. Cuando uno llega acá entonces… ¡la computadora no tiene más lugar! La memoria que necesita usar, o mejor dicho, la que necesitaba usar hasta ese momento, le permitía escribir números de hasta 32 lugares. ¡No había lugar para más!

Cuando llega allí, el sistema se agota y se corta todo. Es esa la razón por la cual se requería que cada 30 días, el timer fuera re-inicializado. Al no haberlo hecho, ¡por un error humano!, el sistema se interrumpió y generó el incidente que pudo haber terminado en una verdadera catástrofe.

Si le interesa el tema (del que claramente yo no soy un experto ni mucho menos) ahora las computadoras tienen 64 lugares para almacenar memoria. Por lo tanto, en lugar de tardar (como en el año 2004) un poco más de 50 días en agotarse, ahora llevaría alrededor de 585 millones de años, por lo cual, hay que re-inicializarlo dos veces cada mil millones de años. Podemos dormir tranquilos.

 

 

 

 

 

[1] El artículo que escribió Matthew L Wald se puede leer acá: https://www.nytimes.com/2004/09/15/politics/air-control-failure-disrupts-traffic.html

[2] Esta nota tiene las opiniones de varios de los controladores aéreos que estaban en ese centro: https://spectrum.ieee.org/aerospace/aviation/lost-radio-contact-leaves-pilots-on-their-own

 

--------------------------------

Para suscribirte con $ 1000/mes al Cohete hace click aquí

Para suscribirte con $ 2500/mes al Cohete hace click aquí

Para suscribirte con $ 5000/mes al Cohete hace click aquí