Conozca el intangible mundo del Unicode

La actual versión de Unicode cubre, en teoría, casi todos los sistemas de escritura del mundo, sin embargo las fuentes no soportan todos los caracteres. Por tanto cabe preguntarse ¿cómo deben manejar las empresas Unicode? Por Carsten Luedtge, Compart AG

Publicado el 03 Mar 2017

32398_70

Cuando se trata de codificación de caracteres digitales, salen a la luz diferentes deficiencias; de hecho, la mayoría de las empresas usan Unicode o páginas múltiples de códigos que cubren las letras básicas del alfabeto Latino. Sin embargo los caracteres especiales, otros alfabetos y marcas diacríticas que se usan poco, hacen que nos salgamos de lo habitual.

Por supuesto que esto es un problema ya que los nombres de personas y productos, marcas corporativas y direcciones, etc, que contienen caracteres especiales en ocasiones introducidos de forma diferente o incluso mostrados incorrectamente, dependen del conjunto de caracteres tipográficos en uso.

Así pues se trata de un tema delicado especialmente en la administración pública donde la ortografía incluso puede tener implicaciones legales. Por si fuera poco, en muchos países europeos, en Estados Unidos y Canadá los ciudadanos tienen derecho legalmente a la ortografía exacta de sus nombres y la transcripción a veces causa problemas.

Tomemos como ejemplo el nombre Møller. En compañías cuyo conjunto de caracteres no incluye la letra ø, el nombre puede introducirse como Möller o Moller. Debido a que el nombre está escrito en diferentes formas, una búsqueda en la base de datos del cliente o en el registro civil podría dar lugar a errores.

Unicode: concentrarse en lo que es importante

A primera vista parece que el problema puede ser resuelto con Unicode; después de todo la versión actual de este set de caracteres estándar puede cubrir casi todos los sistemas de escritura del mundo, de hecho la versión actual cuenta con más de 100.000 caracteres. Pero, ¿de qué sirven los más de un millón de puntos de código Unicode disponibles teóricamente si las fuentes utilizadas no los admiten? No es suficiente codificar las letras o los caracteres, está claro que también necesitan ser visualizados.

Muchas fuentes convencionales son bastante limitadas, solamente soportan de 400 a 500 caracteres. Los límites se ponen de manifiesto cuando se considera que las autoridades de Alemania, por ejemplo, ya han acordado el uso regular de 700 letras y símbolos.

Empresas y organizaciones por tanto tienen que enfrentarse a la cuestión de cuántos caracteres Unicode pueden necesitar y cómo van a visualizarse. El caso es que ninguna fuente soporta todos los caracteres Unicode, por no hablar de los 700 mencionados. Mientras, el tema va tomando mayor importancia cuando consideramos que la internacionalización de nuestra sociedad también afecta a la comunicación de los negocios. La misma presión del mercado hace que las empresas estén despertando ante el hecho de que el idioma de los consumidores y clientes es un factor competitivo cada vez más relevante, comenzando por la correcta ortografía de los nombres.

Sin embargo el problema radica en que muchas firmas tienen estructuras de páginas de código obsoletas y dependen del procesamiento basado en página de códigos. Consecuentemente no son capaces de asignar los más de 100 diferentes tipos de letras y símbolos. Las antiguas estructuras TI tienen que ser compatibles con Unicode.

Definir las reglas para usar Unicode

No se puede evitar el estándar Unicode; esto es algo indiscutible. Por otro lado su implementación es otra historia. ¿Cómo pueden empresas y organizaciones convertir sus estructuras TI existentes a Unicode de forma eficaz? En este punto suele reinar la perplejidad y la confusión. Algunos quieren jugar con la seguridad incluyendo todos los caracteres, otros en cambio siguen su intuición cegándose ante las consecuencias de omitir los caracteres Unicode.

También es cierto que con Unicode se necesita limitarse a lo esencial. Por ejemplo el sector público alemán es pionero en este aspecto. Existen normas claramente establecidas sobre los caracteres Unicode a cubrir. En su resolución de abril de 2014, el Consejo Alemán de Planificación TI de federaciones y estados definió un mismo conjunto de caracteres Unicode para registro y transmisión de datos. En él se especifica que los nombres de las personas deben ser almacenados en forma idéntica en todos los registros electrónicos públicos.

El apoyo de especialistas en Output Management

Sectores como la banca o las aseguradoras se están quedando atrás. Algunos no tienen ningún soporte de Unicode, otros han convertido sus aplicaciones al estándar pero realmente no saben cómo trabajar con ello. Lo que falta son reglas precisas para el manejo – los “vigías” por así decirlo. Las asociaciones e instituciones de la industria no tendrán más remedio que reflexionar sobre este tema y dar a conocer sus recomendaciones.

Mientras tanto las empresas necesitan reiniciar y definir sus propias directrices. Pasarán años hasta que la creación de documentos y los sistemas de procesamiento de las compañías estén disponibles para soportar el repertorio de caracteres específicos con un alto nivel de calidad.

Las páginas de código latino por si solas ya no son suficientes. Por otro lado, cuanto mayor sea la cobertura de Unicode, más complicada será. De forma general, afecta a todos los sistemas de procesamiento de documentos – desde la generación, el formateo y la conversión hasta la entrega a través de diferentes canales de comunicación. El mejor consejo es buscar el apoyo de un especialista en gestión y salida de documentos que también esté bien versado en especificaciones de Unicode.

Un breve resumen sobre Unicode

Las páginas de códigos de los ordenadores convencionales sólo cubren un número limitado de caracteres. En las codificaciones de caracteres occidentales, este límite está establecido habitualmente en 128 (7-bit) puntos de código – como en el estándar familiar ASCII – o 256 (8-bit) caracteres, como es el caso de ISO 8859-1 (también conocido como Latin 1) o variantes de EBCDIC. Después de restar los caracteres de control, solamente permanecen 95 elementos para visualizar las letras así como caracteres especiales en ASCII y 191 elementos en los set de caracteres de 8-bit ISO.

El problema con estas codificaciones de caracteres es que la visualización de diferentes idiomas en un mismo texto es difícil, por no decir imposible. Este hecho perjudicó considerablemente el intercambio internacional de datos en los años 80 y 90.
Por eso Unicode fue desarrollado hace 25 años, en buena parte por compañías como Microsoft y Apple con el objetivo que aún persiste de superar la incompatibilidad de las diferentes codificaciones. Al principio, el conjunto de caracteres previo de las páginas de códigos convencionales se amplió desde el original de 256 a 65,636 (256 X 256).

La primera versión, Unicode1.0 (lanzada en 1991), ya cubría más de 50.000 caracteres diferentes e incluía los alfabetos latino, árabe, cirílico, hebreo y griego así como diferentes idiomas “exóticos” como tailandés, laosiano, tamil, malabar y telugu. Unicode 1.0 también incorporó las llamadas escrituras CJK (chino, japonés, coreano), si bien no fue hasta la versión 1.0.1 (en junio de1992).

No obstante surgían limitaciones una y otra vez y ha seguido así durante la continua expansión de Unicode hasta nuestros días. Por ejemplo, la última iteración de Unicode, la versión 9.0, cuenta con 135 sistemas codificados diferentes de escritura. Pero este no acaba la historia. Los caracteres de otros sistemas de escritura irán sumándose continuamente a Unicode y serán gestionados bajo la designación de ISO 10646 como el set de caracteres codificados universales –Universal Coded Character Set– (UCS) de la Organización Internacional para la Estandarización (ISO).

El potencial de desarrollo de Unicode es ilimitado. El trabajo actual se dedica al soporte de emoticonos – que puede parecer una simpleza para algunos, pero en determinadas industrias como las telecomunicaciones, el tema comprensiblemente cuenta con un gran interés.

¿Qué te ha parecido este artículo?

La tua opinione è importante per noi!

C
Redacción Computing

Artículos relacionados

Artículo 1 de 2