Bioinformática o cómo perder el tren sin darse cuenta

M. Gonzalo Claros

La diversificación de los objetivos de la Bioquímica y la Biología Molecular está conduciendo hacia una importante interdisciplinaridad a través de la interrelación con Biología Celular, Genética, Microbiología, Inmunología, Fisiología, Neuroquímica, Patología, Filosofía de la Naturaleza, Matemáticas, Física, etc. Producto de la interdisciplinaridad y del aumento exponencial de secuencias como consecuencia de los proyectos de secuenciación de genomas, comienza a tomar cuerpo la bioinformática (o biocomputación) como una especialidad independiente. En ella se imbrican conocimientos de biología molecular, bioquímica estructural, matemáticas, física e informática. Su tarea principal es la de estudiar las manipulaciones analíticas que se pueden realizar sobre las secuencias para obtener información biológica útil. Aunque este concepto tiene más de 30 años, el término bioinformática no se acuñó hasta 1991, y en ese momento se refería sólo a publicaciones electrónicas. Además de su carácter interdisciplinario y del aporte de nuevas secuencias, hay otro factor que ha influido notablemente en su desarrollo: la universalización de los ordenadores.

Al principio un bioinformático era alguien que manejaba unos aparatos complicados mediante un lenguaje ininteligible, y que obtenía resultados curiosos. A esta imagen ayudó el que los ordenadores aplicados a la investigación fueran unidad central ("mainframe") que se encontraba aislada de los laboratorios y cuyo uso se limitaba a etapas post-experimentales o de modelización de sistemas biológicos. Por entonces manejar estas máquinas suponía dominar lenguajes de programación de alto nivel, además de manipular un sistema operativo poco intuitivo. Desde que se introdujeron en las universidades a principios de los 60, los biólogos los han ido utilizando cada vez más, de manera que a partir de los años 70 se incrementa enormemente el interés siguiendo el desarrollo de la secuenciación del DNA. Por entonces la bioinformática se empleaba para organizar y manejar datos, y apoyar o asistir tareas experimentales. El cambio más drástico se produjo con la llegada de microordenadores de bajo coste y alto rendimiento a comienzos de los 80: los lenguajes de programación se hicieron más accesibles, los sistemas operativos más intuitivos, y el ordenador empieza a encontrar su espacio físico en los laboratorios, las mesas de trabajo y nuestros hogares. En el último decenio del siglo XX la banalización de Internet y la cantidad de datos relacionados con los análisis in silico de las secuencias ha aumentado drásticamente tanto en volumen como en número de herramientas para el análisis.

Hoy en día, la tarea principal de la bioinformática se ha convertido en proporcionar sentido biológico a los datos, ya que la mera acumulación de los mismos no conlleva un aumento en el conocimiento. Desde los estudiantes que hacen sus tesinas hasta los catedráticos, van a encontrarse en la necesidad de conocer bioinformática para avanzar en sus investigaciones, de igual manera que sabemos metabolismo, citología o las leyes de Mendel. Paradójicamente, la mayoría de los usuarios tienen que "autoformarse" en bioinformática. La mayoría de los bioinformáticos son autodidactas que han migrado desde la biología a la informática, o de la física y las matemáticas a la biología. Esta situación inusitada, impulsada por la rápida evolución que está sufriendo la bioinformática, hace que los típicos análisis y consultas a las bases de datos que poco a poco se van popularizando, empiecen a quedarse obsoletos rápidamente, y que las nuevas técnicas permanezcan sólo en los dominios de los expertos.

Vamos a ver unos ejemplos cotidianos para la mayoría y sobre los que posiblemente no hayamos reparado lo suficiente. En primer lugar, la bibliografía no sólo se consulta en las bibliotecas sino que también mediante bases de datos en CD-ROM o a través de portales de Internet. Las revistas se pueden seguir hojeando en las bibliotecas, pero en lugar de fotocopiar el artículo, podemos imprimir la versión electrónica original (PDF). En segundo lugar, las bases de datos y su consulta también están evolucionando: GeneBank y EMBL no han quedado más que como depositarios de información lineal que no se adapta a los nuevos análisis. Por tanto, se están desarrollando otras que agrupan las secuencias por familias génicas o motivos estructurales. También se desarrollan bases de datos relacionales o inteligentes que integran prácticamente todo tipo de información disponible en cada registro. En este sentido resulta más inteligente buscar secuencias en el servidor SRS o Entrez. Se ha creado un estándar CORBA cuyo fin es poder mezclar bases de datos a pesar de que su estructura interna sea muy distinta. La búsqueda ya no se hace con una secuencia sino con un perfil o un motivo. Ya no se espera la mera obtención de secuencias homólogas, sino que se busca la predicción de la presencia de un gen en la secuencia de DNA, dónde están los intrones y los sitios de unión de factores de transcripción. Si se usan proteínas, se espera predecir su función, su localización celular y su estructura.

Pero no todo son ventajas en el uso de la bioinformática. El principal peligro es que muchos usuarios se han dejado llevar por lo fácil que resulta el empleo de los ordenadores sin examinar realmente si lo que están haciendo puede o no ayudarles en dichas tareas. En otras ocasiones la situación es peor: el ordenador proporciona unos resultados que no se saben manipular, interpretar, o estimar su pertinencia. Por ejemplo, nadie considera significativo que una secuencia TATAT dentro de un marco abierto de lectura determine un posible promotor, pero sin embargo no se tiene en cuenta lo absurdo que resulta buscar sitios de glicosilación en proteínas cloroplastídicas o citoplásmicas ­a pesar de que puedan presentar una secuencia consenso­ o no emplear controles positivos y negativos cuando usamos un programa que nos predice alguna característica. Otro caso menos evidente podría ser la adjudicación de una estructura terciaria a una proteína a partir de un alineamiento mal realizado porque no se ha tenido en cuenta que ciertos dominios estructurales pueden no reflejar homología sobre la secuencia o que donde hay una prolina no puede haber una hélice á.

En resumen, a pesar de que los expertos insistan que "familiarizarse con los recursos disponibles y los métodos [bioinformáticos] fundamentales (...) debe ser una parte esencial de la biología moderna", lo que se suele encontrar son meras iniciativas personales de aficionados a la bioinformática, y para los más afortunados, formación de postgrado. Esta carencia puede acabar siendo un obstáculo "virtual" que haga perder el tren del desarrollo científico a los futuros biólogos. Aquellos que sientan curiosidad por la bioinformática, pueden comenzar por el aula virtual de biología molecular (http://www.nitrogeno.uma.es/bmbq/av/) y visitar los enlaces sobre "Manuales/Enseñanza" y los de "Recursos de Biología Molecular". Nunca es tarde para aprender.

M. Gonzalo Claros es Investigador Contratado en el Departamento de Biología Molecular y Bioquímica de la Universidad de Málaga.