El investigador James Mickens, del grupo de sistemas distribuidos de Microsoft Research, manifestó una marcada desilusión con la persistente investigación académica en tolerancia a fallos bizantinos (BFT). Mickens compara la experiencia de asistir a una presentación sobre BFT con ver una película soviética deprimente, señalando que los sistemas distribuidos enfrentan fallos constantes en lugar de escenarios teóricos extremos.
El núcleo de la crítica, detallada en un artículo de USENIX de mayo de 2013, reside en la desconexión entre la complejidad de los protocolos BFT y las causas reales de indisponibilidad del servicio. Los presentadores a menudo preguntan cómo construir servicios confiables asumiendo una falta total de confianza, lo que lleva a soluciones excesivamente complejas.
Los diagramas típicos en los documentos BFT ilustran la generación de cantidades astronómicas de mensajes para asegurar la consistencia, lo cual Mickens describe como una cadena autoimpuesta. El autor sugiere que estos protocolos están diseñados para superar fallos maliciosos introducidos en trabajos anteriores, en lugar de abordar problemas prácticos.
Según el análisis, incluso los protocolos BFT más avanzados no pueden garantizar una alta disponibilidad cuando se consideran las fallas humanas cotidianas, como un operador de centro de datos derramando café. La realidad operativa, ejemplificada por el hipotético 'Ted el Operador Mal Pagado', supera los modelos criptográficos y de mensajería.
Además, Mickens señala que cada nuevo protocolo BFT introduce un tipo de consistencia de datos con nombres inescrutables, como la "semi-consistencia asíncrona de triple escritura en año bisiesto". Las explicaciones intuitivas de estos mecanismos fallan porque no reflejan ninguna experiencia de la vida real, a diferencia de las interacciones cotidianas.
Para ilustrar la diferencia, el autor presenta un diálogo simulado de una salida a almorzar que se asemeja al flujo de mensajes de un protocolo BFT, destacando la redundancia y la confusión inherentes a estos sistemas teóricos.
Mickens concluye que la comunidad debería cesar la publicación de trabajos sobre tolerancia a fallos bizantinos, equiparando la dedicación a esta área con una adicción. Si bien el deseo de fiabilidad es fuerte, la adhesión a estos modelos conduce a informes técnicos extensos y poco aplicables a la operación práctica de los centros de datos.
Mickens es investigador en el grupo de sistemas distribuidos de Microsoft en Redmond, centrándose actualmente en aplicaciones web y sistemas de almacenamiento escalables para centros de datos.