OPINIÓN

Los dilemas éticos de los datos en el centro de la inteligencia artificial Generativa



Dirección copiada

Con la promesa de ofrecer una ventaja competitiva a las organizaciones de todo el mundo, la IA Generativa está en boca de todos los directivos de empresa. ¿Qué implica para su organización? ¿Qué planes hay para su uso? Y, ¿con qué rapidez pueden ponerse en marcha?

Publicado el 2 abr 2024

Martyn Ditchburn

CTO de Zscaler



GenAI

Con la promesa de ofrecer una ventaja competitiva a las organizaciones de todo el mundo, la IA Generativa (GenAI) está en boca de todos los directivos de empresa. ¿Qué implica para su organización? ¿Qué planes hay para su uso? Y, ¿con qué rapidez pueden ponerse en marcha?

De momento, gran parte de los debates que han acompañado al auge exponencial de esta tecnología se han centrado en la logística de la recogida de datos. Como tal, se ha relacionado sobre todo con cuestiones de potencia de cálculo, infraestructura, almacenamiento, habilidades, etc.

Pero el avance de la GenAI también suscita una serie de cuestiones más fundamentales en torno a la ética del uso de los datos, haciendo que la conversación evolucione de “cómo lo hacemos” a ” si debemos hacerlo”.

En este artículo, vamos a examinar tres ejemplos de dilemas éticos incipientes en torno a los datos y la GenAI, y a considerar sus implicaciones para las empresas a la hora de diseñar sus estrategias de IA a largo plazo.

¿Qué datos se deben utilizar?

La GenAI, a pesar de todo lo que promete, es tan útil como las fuentes de datos que usen, por lo que las empresas se pueden ver tentadas a utilizar todos los datos a los que tienen acceso. Sin embargo, no es tan sencillo, ya que esto plantea problemas relacionados con la privacidad, la discriminación y la desigualdad.

En términos sencillos de entender, los datos pueden dividirse en dos grandes categorías generales: públicos y privados. Los primeros son mucho más objetivos y susceptibles de polarización que los segundos (uno podría describirse como lo que usted quiere que el mundo vea, el otro como los hechos). Pero aunque los datos privados pudieran ser más valiosos, también son más sensibles y confidenciales.

En teoría, normativas como las de la legislación sobre IA deberían empezar a restringir el uso de datos privados y, por tanto, quitar la capacidad de decisión a las empresas, pero la realidad es que algunos países no distinguen entre los dos tipos. Por eso, es probable que unas disposiciones demasiado estrictas tengan una eficacia limitada y perjudiquen a quienes las apliquen, lo que podría llevar a que sus modelos de GenAI arrojaran conclusiones sesgadas o de menor calidad.

La propiedad intelectual (PI) es un buen ejemplo de esta situación regulatoria: los mercados de los países occidentales tienden a respetar las leyes de PI, mientras que los mercados orientales no, lo que significa que los mercados orientales pueden innovar mucho más rápido que sus homólogos occidentales. Y no son sólo otras compañías las que podrían aprovecharse de esta desigualdad en el uso de los datos: los ciberdelincuentes no van a ceñirse a un uso ético de la IA y a la observancia de las leyes de privacidad cuando se trate de sus ataques, dejando a los que sí lo hacen luchando efectivamente con un brazo atado a la espalda.

Por tanto, ¿qué incentivo podemos ofrecer para que esto sea así?

¿Cuánto tiempo deberíamos conservar nuestros datos?

Los modelos GenAI se entrenan a partir de grandes conjuntos de datos. Cuanto mayor sea el conjunto, mejor será el modelo y más precisas serán sus conclusiones. Pero estos bloques de datos también deben ser estables: si se eliminan datos, se elimina material de aprendizaje, lo que podría cambiar las conclusiones a las que llegue el algoritmo.

Esto es exactamente lo que el RGPD estipula que deben hacer las empresas: conservar los datos solo el tiempo necesario para procesarlos. Entonces, ¿qué pasa si el RGPD le dice que elimine datos antiguos? ¿O si alguien pide que se olviden ejercitando su derecho?

Además de las implicaciones financieras y de sostenibilidad sobre tener que volver a entrenar su modelo GenAI, en el ejemplo de un coche autónomo, la eliminación de datos podría implicar implicaciones de seguridad muy serias. ¿Cómo conciliamos estos dos elementos?

¿Cómo entrenar a la GenAI para evitar el uso de datos confidenciales?

La legislación obliga a las empresas a proteger sus datos, so pena de enfrentarse a importantes multas en caso de no hacerlo. Sin embargo, para proteger sus datos primero tienen que categorizarlos o clasificarlos, para saber con qué están trabajando y qué tratamiento darles.

Hasta aquí todo es muy sencillo, pero dados los grandes volúmenes de datos que las empresas generan a diario, cada vez son más las que recurren a la GenAI para acelerar ese proceso de categorización. Y aquí es donde surge el escollo. Los datos confidenciales deben recibir la clasificación de seguridad más alta posible y, en consecuencia, mantenerse alejados de cualquier motor GenAI.

Pero, ¿cómo se puede entrenar a la IA para que clasifique los datos confidenciales y, por tanto, los evite, sin mostrarle ejemplos de datos confidenciales? Un reciente estudio de Zscaler ha evidenciado que sólo el 46 % de las organizaciones encuestadas en todo el mundo clasifican sus datos en función de su criticidad, lo que sigue siendo un problema acuciante para la mayoría.

Cómo abordar la GenAI teniendo en cuenta estos dilemas

Hay mucho que sopesar, y éstas son sólo tres de las interrogantes a las que se enfrentan las empresas a la hora de decidir su enfoque de GenAI. Por eso, ¿hay que sentarse y esperar a que otros establezcan las reglas? ¿O peor aún, ignorarlas a costa de poder acelerar la implantación de la GenAI?

A la hora de responder a esta pregunta, creo que tenemos mucho que aprender de la forma en que las empresas han evolucionado su enfoque hacia la huella de carbono. Aunque cada vez hay más medidas legislación al respecto, se ha tardado muchos años en llegar hasta aquí, y me imagino que lo mismo ocurrirá con la GenAI.

En el caso de la huella de carbono, las empresas han acabado siendo las que determinan y controlan su estrategia, pero basándose en gran medida en la presión de los clientes. Del mismo modo que los clientes han empezado a modificar sus hábitos de compra para reflejar las “credenciales ecológicas” de una marca, cabe esperar que penalicen a las empresas por el uso poco ético de la IA.

Teniendo esto en cuenta, ¿cómo deben empezar las empresas a gestionar su enfoque GenAI?

  1. Por muy tentador que pueda parecer, hay que mantener los datos públicos y privados totalmente separados y proteger el uso de los datos privados al máximo. Desde el punto de vista de la competitividad, esto puede ser perjudicial, pero desde el punto de vista ético es mucho más peligroso no hacerlo.
  2. Hay que llevar esta separación de los tipos de datos a los motores de IA: considerar la IA privada para las fuentes de datos privadas internamente y no exponer los datos privados a los motores de IA públicos.
  3. Hay que tener en cuenta los prejuicios: hay que descartar cualquier algoritmo de inteligencia artificial que se base en información pública sesgada y no verificar su contenido. Validemos nuestros propios resultados.
  4. La legislación vigente debe ser prioritaria: compruebe que se cumplen las normas del RGPD y las disposiciones sobre el “derecho al olvido”. Esto supondrá plantearse con qué frecuencia debe volver a aplicar el motor de la IA y tenerlo en cuenta en los planes y presupuestos.
  5. Considere la posibilidad de utilizar un modelo de IA ya entrenado o conjuntos de datos sintéticos tanto para estabilizar un modelo como para evitar el problema de la enseñanza confidencial de la clasificación.
  6. Proteja a toda costa los datos privados: no permita que la facilitación de tareas humanas (como la categorización de datos) sea la vía involuntaria para la fuga de datos de IA. A veces la respuesta puede no estar en la GenAI.
  7. Amplíe la protección de sus datos privados a los empleados: establezca directrices para GenAI, incluida la formación sobre qué datos pueden cargarse en las herramientas y sobre su uso seguro.

La necesidad de actuar cuanto antes

La presión sobre las organizaciones -o, más exactamente, sobre sus departamentos de TI y seguridad- es que establezcan sus planteamientos lo antes posible para poder sacar provecho de la GenAI.

En efecto, según nuestro estudio, el 95 % de las empresas ya utiliza herramientas de GenAI de alguna forma, a pesar de los problemas de seguridad que hemos mencionado, y el 51 % espera que el uso que hacen de la GenAI se incremente significativamente de aquí a las Navidades de este año.

Pero para ello necesitan encontrar el modo de hacerlo sin que ello suponga poner en peligro las cuestiones que hemos planteado más arriba. Retomando nuestra comparación con el impacto que supone la huella de carbono, no es necesario tener todas las respuestas para empezar a actuar, pero sí se debe demostrar que, al menos, se intenta hacer lo correcto desde un principio y más adelante.

Artículos relacionados

Artículo 1 de 4