Ads-728

Ads-728

Psicología

Astrofísica

Genética

Neurociencia

» » » Detrás de los libros digitalizados se esconde una mina de oro

La digitalización de libros de Google Books ha generado gran controversia sobre las cuestiones de derechos de autor y la venta de libros; sin embargo, para lingüistas e historiadores de la cultura, este vasto proyecto puede ofrecer un tesoro sin precedentes. 

En un artículo publicado en Science, unos investigadores de la Universidad de Harvard en Cambridge, Massachusetts, y el equipo de Google Books en Mountain View, California, anunciaron una nueva disciplina llamada 'culturomics', que filtra esta abundancia literaria marcando las tendencias de lo que las culturas, a través de la palabra escrita, pueden dar de sí.

Entre los hallazgos descritos en esta colaboración, dirigida por Jean-Baptiste Michel, biólogo de Harvard, es el tamaño de la lengua inglesa (alrededor de un millón de palabras en el año 2000), la típica trayectoria de personas conocidas, y en lo literario, las firmas de la censura, como la impuesta por el gobierno nazi alemán.

"Las posibilidades de esta nueva base de datos, y la capacidad de análisis en tiempo real, es realmente emocionante", comenta Sheila Embleton, lingüista de la Universidad de York en Toronto, Canadá.

“Un análisis cuantitativo de este clase puede revelar patrones de uso del lenguaje y de la relevancia de un tema a un cierto nivel que sería imposible por otros medios", coincide la historiadora Patricia Hudson, de la Universidad de Cardiff, Reino Unido.

"Lo que está realmente bien, es el uso de unas bases de datos enormes, y que tendrán que ser utilizadas de manera cuidadosa, especialmente teniendo en cuenta las explicaciones alternativas y desenredando las diferencias en alternativas", añade Real Skousen, lingüista de la Universidad Brigham Young en Provo, Utah. "No me gusta el término 'culturomics', continua. "Suena demasiado a 'Freakonomics', y ambos términos suenan a su vez, a sociología de aficionados."

La mitad de un billón de palabras

El uso de técnicas estadísticas y computacionales para analizar grandes cantidades de datos en la investigación histórica y lingüística no es nada nuevo, campos conocidos como historia cuantitativa y lingüística cuantitativa ya lo vienen haciendo. Pero lo que se establece como un nuevo trabajo aparte, es el volumen de la base de datos creada por Google Books .

Hasta ahora, Google ha digitalizado más de 15 millones de libros, lo que representa aproximadamente el 12% de todos los que han sido publicados en todos los idiomas. Michel y sus colegas realizaron su análisis de sólo una tercera parte de esta muestra, seleccionada por la buena calidad del reconocimiento óptico de caracteres en la digitalización y la fiabilidad de la información sobre la procedencia de un libro, como la fecha y lugar de publicación.

El conjunto de datos resultante contiene más de 500 mil millones de palabras. Esto va más allá de lo que una sola persona podría leer: un lector rápido, sin pausas para comer ni dormir, necesitaría 80 años para terminar los libros solamente del año 2000.

No todas las cadenas aisladas de caracteres de los textos son palabras reales. Algunas son números, abreviaturas o errores tipográficos. De hecho, el 51% de las cadenas de caracteres del año 1900, y el 31% de 2000, son "no palabras". "Realmente me cuesta creer eso", admite Embleton. "Si esto es verdad, realmente sacudiría algunas de mis ideas fundamentales acerca de Inglés".

Según esto, el idioma Inglés ha crecido más de un 70% durante los últimos 50 años, y se agregan cada año cerca de 8.500 palabras nuevas. Por otra parte, sólo la mitad de las palabras que se utilizan actualmente aparecen documentadas en los diccionarios estándar. "Esta gran cantidad de léxico es difícil de creer, y también sacudiría algunas cimientos", señala Embleton. "Me encantaría ver los datos."

En principio, ya se puede, porque los investigadores han hecho público su base de datos en www.culturomics.org . Esto permitirá a otros a explorar el enorme número de posibles preguntas que sugiere, no sólo sobre el uso de la palabra, sino acerca de la historia cultural. Michel y sus colegas ofrecen dos ejemplos de este tipo con fama y censura.

Dicen que los actores llegan a su pico de fama, según constan las referencias de los nombres, a la edad de 30, mientras que los escritores tardan una década más. "La ciencia es una pobre ruta hacia la fama", añaden. Los físicos y los biólogos que alcanzan la fama sólo lo hacen tarde en la vida, y "aun en su mejor momento, los matemáticos no suelen ser apreciados por el público".

Huellas dactilares del Gran Hermano

Un subconjunto específico de datos de una nación puede mostrar cómo las referencias a ideas, acontecimientos o personas pueden caer fuera de visión debido a la supresión de estado. Por ejemplo, el artista judío Marc Chagall, prácticamente desaparece de los escritos alemanes de 1936-1944 (mientras sigue destacado en los libros de lengua inglesa), y "Trotsky" y "Plaza de Tiananmen" desaparecen de manera similar en ciertos puntos sensibles en el tiempo, de las obras de Rusia y China respectivamente. Los autores también analizan las tendencias en las referencias al feminismo, Dios, dieta y evolución.

"La capacidad, a través de la tecnología moderna, de ver tantas cosas a la vez, abre realmente horizontes", apunta Embleton. Sin embargo, Hudson advierte que hacer un uso efectivo de este recurso requiere habilidad y buen juicio, no sólo cálculos numéricos.

"La forma en que estas pruebas cuantitativas se generan y cómo se interpretan son los factores más importantes para formarse conclusiones. Las evidencias cuantitativas de este tipo siempre deben abordar, convenientemente enmarcadas, cuestiones generales y emplearse junto con la evidencia cualitativa y el razonamiento, o no valdría gran cosa."

  • - Referencia: Nature.com, 16 December 2010, por Philip Ball

,

«
Next
Entrada más reciente
»
Previous
Entrada antigua
Editor del blog Pedro Donaire

Filosofía

Educación

Deporte

Tecnología

Materiales