Esta semana, Tachyum dijo que mediante el uso de las últimas herramientas de automatización de diseño electrónico (EDA, por sus siglas en inglés) logró exprimir un 50 % más de núcleos en su procesador Prodigy mientras aumentaba el tamaño del troquel en solo un 20 %. El chip de 192 núcleos no parece existir en silicio a partir de ahora y la compañía no compartió cuándo planea comenzar su muestreo o enviar estos procesadores a las partes interesadas.
El año pasado, Tachyum demandó a Cadence por proporcionar IP que no cumplía con sus expectativas y tuvo que cambiar a IP de otro proveedor o proveedores. Debido a esto, también tuvo que cambiar las herramientas de diseño y simulación RTL. La empresa no reveló qué herramientas EDA utiliza para el desarrollo de Prodigy, pero afirma que el nuevo conjunto de programas le permitió modificar varios parámetros, lo que resultó en un aumento del 50 % en el número de núcleos (de 128 a 192), aumento de L2/L3 caché de 128 MB a 192 MB y un salto en SERDES de 64 a 96 por chip. El tamaño del troquel del procesador aumentó de 500 mm2 a 600 mm2, o alrededor de un 20 %.
Tachyum afirma que podría exprimir más de sus núcleos universales dentro del límite de retícula de 858 mm2, el rendimiento de todos los núcleos estaría limitado por el ancho de banda de la memoria, incluso cuando se combinan con 16 canales DDR5 que funcionan a una velocidad de transferencia de datos de 7200 MT/s.
«Hemos logrado mejores resultados y tiempos con nuestras nuevas herramientas de diseño físico EDA», dijo el Dr. Radoslav Danilak, fundador y director ejecutivo de Tachyum. «[…] Si bien no tuvimos más remedio que cambiar las herramientas EDA, nuestro equipo de diseño físico (PD) trabajó arduamente para rehacer el diseño físico y las optimizaciones con el nuevo conjunto de herramientas PD, a medida que nos acercamos a la producción a nivel de volumen».
Prodigy de Tachyum es un procesador versátil con hasta 192 núcleos VLIW únicos de 64 bits que cuentan con dos unidades vectoriales de 1024 bits, una unidad de matriz de 4096 bits, un caché de instrucciones de 64 KB, un caché de datos de 64 KB y un caché L2 de 1 MB. Curiosamente, los cachés L2 no utilizados de otros núcleos se pueden reutilizar como un caché L3 complementario.
Cuando Prodigy ejecuta código nativo, las optimizaciones adecuadas del compilador pueden habilitar el procesamiento fuera de orden de 4 vías (a pesar de que VLIW está destinado a estar en orden). Además, la arquitectura del conjunto de instrucciones de Prodigy permite un paralelismo mejorado a través de «bits venenosos» especializados.
Quizás la peculiaridad más interesante del procesador Prodigy es que puede emular binarios x86, Arm, CUDA y RISC-V sin comprometer el rendimiento, según Tachyum. A pesar de los desafíos anteriores que enfrentaron los procesadores VLIW que emulan el código x86, Tachyum es optimista sobre su rendimiento, incluso si ciertas traducciones pueden causar una caída del 30-40%.