Humanidades digitales 3: de lo simple a lo complejo

Humanidades Digitales

Como hemos ido señalando Humanidades Digitales implica todo un universo de utilización de recursos digitales en el estudio y transmisión de conocimientos de las humanidades. Tiene pues un doble aspecto: herramientas digitales para universalización de fuentes y estudios digitales y herramientas digitales para el propio estudio de dichas fuentes y estudios. Ello implica una batería de recursos que van de herramientas sencillas (que vamos a usar nosotros como primer paso) a herramientas complejas: desde repositorios hasta procesamiento automático de idiomas, representación de conocimientos formales (ontologías) e inteligencia artificial, pasando por métodos computacionales para explorar una perspectiva espacial y espacio-temporal de los datos movilizados para responder a las preguntas de investigación. en este sentido podemos ir desde una página web, a una revista on-line, pasando a un repositorio para terminar con una geolocalización arquitectónica de elementos histórico como el caso del proyecto Geospatial Humanities que usa web semántica geoespacial.

Nosotros nos conformaremos con lo simple con el fin de ir tomando conciencia de que para investigar no basta con ser un «ratón de biblioteca» del siglo XIX

sino un «ratón de biblioteca» del siglo XXI.

En esta gradación de lo simple a lo complejo en el entorno de herramientas Web (World Wide Web, o www) supone que es algo vivo. Recordemos que la web es un es un conjunto de documentos (webs) interconectados por enlaces de hipertexto, disponibles en Internet que se pueden comunicar a través de la tecnología digital. Se entiende por “hipertexto” la mezcla de textos, gráficos y archivos de todo tipo, en un mismo documento. Como escribe el Dr. Marino Latorre de la Universidad Marcelino Champagnat, a quien sigo en estas líneas, «Web no son sinónimo de Internet; Internet es la red de redes donde reside toda la información, siendo un entorno de aprendizaje abierto, más allá de las instituciones educativas formales. La web es un subconjunto de Internet que contiene información a la que se puede acceder usando un navegador. Tanto el correo electrónico, como facebook, twiter, wikis, blogs, juegos, etc. son parte de Internet, pero no la web».

El primer salto se produce de las Humanities Computing a las Digital Humanities

Humanities Computing (HC)

El origen de las HC va a la par con el desarrollo de la propia tecnología informática, desde la automatización a la computación. El surgimiento de nuevas herramientas de tratamiento de información fue visto como una oportunidad, entonces visionaria, del estudio de las humanidades. En este sentido, podríamos decir que existen varias tareas aplicadas desde la informática a los objetos humanísticos, especialmente los textos, que ya se pudieron realizar desde el inicio, piénsese en el trabajo estructural y de metadatos con los textos mediante la codificación o los sistemas de etiquetados.

En este sentido, el desarrollo de la aplicación de las tecnologías de la computación a las humanidades ha tenido una doble vertiente. Por una parte, han ido acompañando los avances de dichas tecnologías. Por otra parte, simultáneamente, han aprendido a usar, cada vez mejor y de forma más eficiente, dicha tecnología en sus actualizaciones. Pero, a la par que iban acompañando el avance informático e ir profundizando en su aplicación como herramienta al estudio de las humanidades –en nuestro caso la historia de la filosofía, especialmente medieval– su recorrido ha servido también de impulso a la implementación de otros recursos y herramientas en el campo de la tecnología.

Si hoy hablamos de HD y no de HC, no es porque la computación aplicada a las humanidades haya desaparecido, sino porque el desarrollo tecnológico se ha ampliado en sus aspectos epistemológicos, en las herramientas ingenieriles, en los lenguajes formales, en la recreación de nuevos espacios –como el caso de Internet y sus subsistemas–, en la entrada de realidades complejas como la I.A…, que afectan también a la propia cultura de la investigación, tal como hemos señalado en el apartado anterior.

En este sentido, en algunos aspectos, la HC fue sustituida por la HD, por ejemplo, en las transformaciones significativas de la web, que no solo evolucionó en el desarrollo de sus herramientas, sino en los conceptos y en su enfoque multidisciplinar ingenieril y social. Pero en muchos otros aspectos, el hecho de que hablemos del paso de las HC al HD no significa la anulación de la primera frente a la segunda, en el sentido en que, efectivamente, la informática (computación), sigue siendo, lógicamente, básica en el desarrollo de las HD.

Las humanidades computarizadas

Ciertamente el término inglés Humanities Computing (HC), admitiría la traducción al español tanto de “computación en humanidades”, como de “humanidades computarizadas”. En este sentido, me parece pertinente recordar la reflexión de quien era entonces profesor de “Humanities Computing” en el King’s College de Londres, Willard McCarty. En su libro Humanities Computing realizaba un análisis sobre el modo en que la informática contribuye a responder a la cuestión ineludible en las ciencias humanas de plantear cada vez mejores y más desafiantes preguntas. En el desarrollo del trabajo plantea una triple caracterización del desarrollo que han experimentado las relaciones entre la informática (computación) y las humanidades. Según el autor estas han pasado del concepto de “computers and the humanities” (computadoras y humanidades) –es decir, del deseo por parte de algunos humanistas de poder aplicar la herramienta informática a las humanidades–, a la impresión de “computing in the humanities” (computación en las humanidades) –que describe el hecho de la entrada de los humanistas en el mundo informático y su aplicación–, para al fin situarse en las “humanities computing” (humanidades computarizadas) –concepto que describe la situación en la que el investigador en humanidades confía en la informática, si bien sigue siendo algo enigmático–. El investigador en humanidades se pregunta en este contexto cómo se desarrolla el encuentro entre máquina y humanidades, cuestiones en torno al entendimiento de la computación como una máquina, la metodología, la naturaleza del trabajo de la computadora, la epistemología…

En este devenir de la relación entre informática y humanidades, destaca un proceso comunicativo que va del objeto a la herramienta informática, de la herramienta al investigador (que ha diseñado la relación primaria y analiza los datos obtenidos de dicha relación) y del investigador a la comunidad científica, mediante un soporte unidireccional que, aunque diferente, cumple básicamente el mismo cometido comunicativo: el papel, el soporte informático (disco…), por último, la Web en Internet. De este modo, esta etapa viene caracterizada por el desarrollo de herramientas informáticas y la creación de archivos y bases de datos para textos, obras de arte y otros materiales. En base a esta direccionalidad, incluimos en este apartado la primera versión de la Web (1.0).

Si miramos con la perspectiva clásica podríamos decir que el inicio de la HC es reciente. Mirada desde la perspectiva del tiempo actual, especialmente en la línea de historia del mundo computacional, podríamos decir que se sitúa ya en el origen de los tiempos (de la era informática). Y en ese inicio destaca, precisamente, los estudios en historia de la filosofía, más aún de historia de la filosofía medieval, y concretando si cabe: los estudios de historia de la filosofía (y la teología) medieval cristiana.

El protagonista es un referente por todo el mundo conocido, el jesuita Roberto A. Busa y el objeto de estudio, la obra de santo Tomás de Aquino. Roberto A. Busa empezó a barruntar el potencial de análisis computacional de los textos durante la Segunda Guerra Mundial, recién terminada su tesis doctoral sobre la Summa Theologica, al observar las máquinas de automatización de análisis lingüístico de textos escritos. El jesuita quería trabajar sobre el vocabulario de la presencia de la encarnación en las obras del doctor Angélico. Para ello debía estudiar las concordancias en los sustantivos, pero también en las partículas, lo que supone el rastreo de millones de términos. El proyecto de Roberto Busa, consistía, en una primera instancia, en la adaptación de la localización textual computarizada, en el conteo y la comparación de textos. Esa tarea inhumana podía encontrar solución en la utilización de las nuevas técnicas de la ingeniería de la computación a los campos de la concordancia y la lingüística de corpus (Berra, 2012). Con un equipo de cinco personas, desde la alianza con IBM, empezó a reescribir la obra de Tomás de Aquino en tarjetas perforadas, de modo que llegó a generar automáticamente un índice de cada palabra del corpus. La historia exitosa de la persistencia y competencia del padre Busa –que ha dado lugar a más de un artículo (Mounier, 2018)– dio como resultado el Index Thomisticus[1] (11 millones de palabras) publicado en 1972, del que disponemos una edición Web alojada en el Corpus Thomisticum, editada por Eduardo Bernot y Enrique Alarcón y sostenida por la Fundación Tomás de Aquino, la Universidad de Navarra e IBM.

Desde este momento pionero se va fraguando un trabajo centrado en la recogida de datos que componen el texto. El trabajo del equipo de Busa fue clave para toda la labor de codificación, marcando el inicio de la computación lingüística. Siendo precursora la reflexión literaria de los textos de la historia de la filosofía (y la teología) medieval, se sucederán una serie de proyectos que irán implementando la idea original, especialmente aplicados al campo de la filología. Así, en 1963, Roy Wisbey fundó, en Cambridge, el Centro de Computación Literaria y Lingüística (Centre for Literary and Linguistic Computing – LCC) para apoyar su trabajo con textos complejos escritos en lengua alemana. Se inicia una época en la que se desarrolló un trabajo intenso en los centros de computación que revertirá en el estudio de las humanidades. Esta labor crea conciencia entre los humanistas fundándose diferentes sociedades académicas. Entre estas podemos citar, en la década de los setenta del siglo pasado, la Fundación de la Asociación para la Computación Literaria y Lingüística (The Association for Literary and Linguistic Computing – ALLC), en 1973, con el fin de apoyar la aplicación de la computación en el estudio de la lengua y la literatura, siendo el origen de la actual Asociación Europea de Humanidades Digitales (European Association For Digital Humanities – EADH). Cinco años más tarde, en 1978, surge en Boston la Asociación para la Informática y las Humanidades (Association for Computers and The Humanities – ACH), en 1978, que actualmente abre su campo a las HD[2]. Este es un muestreo somero de la actividad societaria que fue animando e impulsando el trabajo de textos usando la herramienta informática.

Para este trabajo de la historia de la filosofía medieval también han resultado básicos los intentos de trabajos sobre bases de datos computarizados, especialmente, en lo que se refiere a la labor lexicográfica del latín medieval, cuyas fuentes son, a menudo, los teólogos de la época. Benoit-Michel Tock subrayaba a principios del presente siglo, en la transición de la Web 1.0 a la Web 2.0, los límites de este trabajo informático, señalando la importancia de la herramienta a la hora de poder agilizar su trabajo. Entonces aún se trataba de explotar las bases de datos en la búsqueda de citas o en el aprovechamiento de repositorios (en la época aún limitados), pero el autor ya barruntaba algunas perspectivas de lo que entonces era aún la orientación de las HC: “nos permiten dar un nuevo enfoque a los textos en los que estamos trabajando. Este nuevo enfoque no sustituye, por supuesto, a ninguno de los métodos tradicionales, sino que se suma a ellos” (Tock, 2001). Esta mentalidad traslucía lo que ha sido uno de los escollos que acontecen en HC y HD, y que es de índole mental y de cultura de investigación y que atañe al hecho de que la forma de pensar e investigar con textos electrónicos está influida por los hábitos de la cultura libresca.

El desafío de esta época era dar un salto más allá de la digitalización o la datación parcial de los documentos. Desafortunadamente, hay muy pocas bases de datos de textos mediolatinos lematizados: ni la Patrología Latina10, ni la Biblioteca Cetedoc de Textos Latinos Cristianos, ni el cd-rom MGH, ni el Thesaurus Diplomaticus, presentan esta herramienta y, en este sentido, no permiten implementar plenamente los requisitos de extracción de conocimientos profundos en los datos de los documentos, de proporcionar un análisis visual y de apoyar eficazmente la investigación de los estudiosos de las humanidades de la historia de la filosofía. Esto no supone el fin, ni mucho menos, sino que abra camino a los nuevos retos que vendrán de la mano de las HD y cuyos primeros pasos se están realizando, como veremos más tarde al hablar del Procesamiento de Lenguaje Natural (PLN).

Si nos centramos en la historia de la filosofía medieval, nos encontramos con diversas herramientas computarizadas que responden a esta fase de desarrollo. Jean Luc Solère ha recopilado las diferentes ediciones electrónicas (portales, basas de datos de autores múltiples y de autores individuales), libros impresos digitalizados y manuscritos en portales y Web sites (formato Web 2.0), disponible desde la SIEPM – Societé International pour l’Étude de la Philosophie Médiévale: en las pestañas Editions y Manuscripts del site Medieval Philosophy Digital Resources.

A pesar de los límites de las HC en el campo del estudio de las humanidades, estas tuvieron y siguen teniendo un papel relevante. Como hemos dicho, las HC no han desaparecido, ahora conviven con otros elementos que han ampliado la informatización, básica en el entorno de la biblioteca digital, mediante el desarrollo de la rama algorítmica, metatextual y representacional, a la digitalización. Pero la computarización como herramienta y como concepto sigue siendo imprescindible. Por otra parte, las HC no solo fueron pioneras, sino que como tales implementaron herramientas que alentaron el trabajo y la simbiosis entre la máquina y el investigador. Su éxito estriba en su evolución intrínseca –en tanto que HC en constante desarrollo– y en su evolución conceptual hacia nuevas formas como las HD. Además, su uso –su potencialidad al principio y su realidad más tarde– animó al mundo académico a su incorporación curricular. Si estamos escribiendo este trabajo ahora, si se realizan máster en HD, si se aumenta el número de cursos y programas de licenciatura en informática para humanidades…, es por el éxito de las HC.


[1] Mantenemos hiperenlaces para la versión online de la revista soportada en OJS.

[2] Esta inclusión de las HC en las HD se ve en su presentación: “ACH aboga y apoya a todos nuestros miembros en su trabajo de humanidades digitales. Humanidades digitales es un término amplio que abarca una amplia gama de dominios temáticos, métodos y comunidades de práctica, incluyendo (pero no limitado a) la investigación asistida por ordenador, la pedagogía y el software; la creación, la conservación y el compromiso de recursos; la informática física; el uso de las tecnologías digitales para escribir, publicar y revisar la erudición; y la investigación humanística en y sobre los objetos y la cultura digitales. ACH reconoce que esta labor es intrínseca e inextricablemente sociopolítica, por lo que aboga por el cambio social mediante el uso de computadoras y tecnologías conexas en el estudio de temas humanísticos”. http://ach.org/about-ach/ [Consulta: 3 de abril de 2020].

En esa evolución de la web desde su creación en 1966 la web ha tenido evoluciones que representamos con una secuencia numérica: 1, 2, 3, 4… Así se ha pasado de una web 1.0 a la 2.0, 3.0 y ahora llega la web 4.0. Podríamos señalar:

  • La web 1.0, fue la primera (apareció hacia 1990) y en ella solo se podía consumir contenido. Se trataba de información a la que se podía acceder, pero sin posibilidad de interactuar; era unidireccional.

La Web 1.0 y 1.5 era la primera etapa de la ejecución de las bibliotecas y repositorios: era el momento de la digitalización. El desarrollo de Google como herramienta, ya en una web con interfaz comunicativa amplió las perspectivas de las HC y de las librerías digitales proyectándolas a la nueva fase de HD. Se trata de la explosión de las bases de datos hacia exhibiciones digitales: nos llegan las ediciones príncipes y fuentes primarias, manuscritos se ponen a disposición, se multiplica el proceso de OCR de textos, podemos mapear conceptos y términos. La Web 1.0 estaba orientada a reunir, compilar, preservar, presentar y comunicar datos. La Web 2.0 ya puede manipular, organizar, combinar, moderar, revisar y editar los datos. Al incluir la participación, permite al usuario operar en la edición de contenidos en línea (de forma on-line), así como trabajar con datos múltiples y mapearlos. Esto supone que no solo somos capaces de generar un Corpus en la red y ponerlo al alcance de todos, sino que podemos trabajar con él: podemos empezar a analizar el corpus, en esta fase, al menos, la sintaxis.

  • La web 2.0, (apareció en 2004) y contiene los foros, los blogs, los comentarios y después las redes sociales. La web 2.0 permite compartir información. Y aquí estamos, de momento la mayor parte de los consumidores.

O’Reilly (2005) señalaba algunos aspectos visibles de este cambio operado de Web 1.0 a la 2.0, en una especie de lluvia de ideas:

Web 1.0                                             Web 2.0

DoubleClick                                       Google AdSense

Ofoto                                                Flickr

Akamai                                               BitTorrent

mp3.com                                             Napster

Britannica Online                               Wikipedia

personal websites                               blogging

evite                                                   upcoming.org and EVDB

domain name speculation                  search engine optimization

page views                                          cost per click

screen scraping                                   web services

publishing                                           participation

content management systems            wikis

directories (taxonomy)                      tagging («folksonomy»)

stickiness                                           syndication

Entender la Web 2.0 es sencillo, al menos en lo que implica para la vida diaria, puesto que, en cierto sentido, la mayoría de nuestras interacciones con la web se encuentran en esta fase de desarrollo. Nuestra generación se siente informatizada, cuando ha llegado a esta fase. Es decir, es la común. No es la actual, no es la que se va haciendo presente en las diversas facetas de la vida, pero es en la que la mayoría de las personas estamos, la que manejamos de forma ya interiorizada.

En este momento de desarrollo de las HD no podemos pensar en una simple bidireccionabilidad comunicativa ni transferencial, sino en una comunidad de trabajo donde los actores de la investigación ya son múltiples y multidisciplinares en cada área de conocimiento, lógicamente en el campo de la historia de la filosofía también: investigadores en humanidades, informáticos, lingüistas, ingenieros, docentes, estudiantes, especialistas en información y documentación, como ya señalamos…

  • La web 3.0 (fue operativa en el 2010) y se asocia a la web semántica, un concepto que se refiere al uso de un lenguaje en la red. Por ejemplo, la búsqueda de contenidos utilizando palabras clave.
  • La web 4.0. empezó en el 2016 y se centra en ofrecer un comportamiento más inteligente y más predictivo, de modo que podamos, con sólo realizar una afirmación o una llamada, poner en marcha un conjunto de acciones que tendrán como resultando aquello que pedimos, deseamos o decimos. (Historia de las web 1.0, 2.0, 3.0 y 4.0. El documento que utilizamos lo puedes descargar Aquí).

Deja un comentario

Diseña un sitio como este con WordPress.com
Comenzar