Cómo buscar en el corpus

El corpus ODE puede ser consultado mediante siete tipos de búsqueda:

Búsqueda simple

La búsqueda simple permite buscar una o más palabras escribiéndolas directamente en la caja de texto CQP Query.

Ejemplo:

Resultado:

La búsqueda simple está configurada para buscar la forma normalizada de la(s) palabra(s) solicitadas, no la forma original del manuscrito. Esto quiere decir que la búsqueda de la casa devuelve resultados escritos originalmente como la casa, la cassa, la ccasa, etc. Si desea buscar la forma original, utilice la búsqueda avanzada o la búsqueda con sintaxis CQP.

Búsqueda avanzada

La búsqueda avanzada permite utilizar campos de búsqueda para realizar búsquedas complejas. Los campos de búsqueda incluyen tanto aspectos textuales (forma transcrita, forma normalizada, lema, etiqueta morfosintáctica...) como aspectos extratextuales (año, título, lugar, tipo textual...). Ambos aspectos pueden ser combinados.

En realidad, la búsqueda avanzada funciona como asistente en la construcción de búsquedas con sintaxis CQP. Por ejemplo, para buscar todas las formas asociadas al lema decir en documentos comprendidos entre 1700 y 1800, el proceso es el siguiente:

1) Rellenar los campos de búsqueda con la información deseada.

2) Hacer clic en Crear query. El asistente construye la búsqueda en sintaxis CQP (Corpus Query Processor)

3) Hacer clic en Buscar. Se obtienen los resultados de la búsqueda

Búsqueda con sintaxis CQP

Junto a la búsqueda avanzada, que constituye una interfaz gráfica para crear consultas en lenguaje CQP, también es posible escribir sintaxis CQP directamente en la caja de texto.

Para ello, es necesario conocer los atributos asociados a los campos de búsqueda en el corpus ODE, que típicamente son estos cinco:

Nombre del campo Descripción Atributo Ejemplo
Forma transcrita Forma original que aparece en el manuscrito form [form="cassa"]
Forma expandida Forma desarrollada en el caso de abreviaturas fform [fform="que"]
Forma normalizada Forma con ortografía normalizada nform [nform="casa"]
Etiqueta POS Etiqueta morfosintáctica basada en el estándar EAGLES pos [pos="N.*"]
Lema Forma lematizada lemma [lemma="decir"]

La búsqueda con sintaxis CQP utiliza un sistema intuitivo de definición de las propiedades de las palabras que se desean encontrar. Las propiedades asociadas a cada palabra (token) se delimitan entre corchetes. Se ofrecen algunos ejemplos de sintaxis CQP a continuación:

Ejemplo Descripción Resultado(s)
[form=".*ito"] Forma transcrita terminada en -ito bonito, abito, merito...
[norm=".*ito"] Forma normalizada terminada en -ito bonito, hábito, mérito...
[nform=".*it(o|a)"] Forma normalizada terminada en -ito o -ita bonito, bonita, mesita...
[nform=".*it(o|a)" & pos="N.*"] Forma normalizada terminada en -ito o -ita y anotada como nombre mesita, papelito
[nform="casa"] [pos="A.*"] Forma ortográfica casa seguida de adjetivo casa bonita
[lemma="haber"] [pos="V.P.*"] Lema haber seguido de participio habiendo comprado
[lemma="haber"] [nform!=".*ado"] Lema haber seguido de forma normalizada que no termine en -ado ha muerto, han sido
[nform="todavía" %ci] Forma normalizada todavía incluyendo casos con mayúscula todavía, Todavía
[fform="reales"] Forma expandida reales rs, rles, res, r

Búsqueda comparada

La búsqueda comparada permite realizar dos o más búsquedas de forma simultánea y resulta de utilidad para comparar resultados. En el cuadro de búsqueda se pueden indicar varias consultas, a las que se le asigna un nombre de consulta y su correspondiente sintaxis CQL. Por ejemplo, para comparar el número de formas transcritas originalmente como mujer y como muger, la consulta es la siguiente:

Al hacer clic en Buscar, el resultado obtenido es el siguiente:

En el menú desplegable Gráfico se puede seleccionar el tipo de visualización (Tabla, Tarta, Barras, Histograma...). En el menú desplegable Descargar se puede seleccionar un formato para descargar el resultado (CSV, PNG, JSON, SVG).

Búsqueda en el mapa

La búsqueda en el mapa permite visualizar los resultados de un búsqueda en un mapa. El proceso es idéntico al de la búsqueda comparada. Usando de nuevo el ejemplo de las formas mujer y muger, el resultado será el siguiente:

También es posible visualizar en el mapa una búsqueda simple. Por ejemplo, para visualizar las zonas geográficas en que se registra la forma normalizada trébedes, la consulta es la siguiente:

Al hacer clic en Buscar, el resultado obtenido es el siguiente (zoom en Andalucía oriental):

Búsqueda genérica

La búsqueda genérica permite encontrar cualquier palabra, ya sea en la cabecera (header) o en el texto (body) del documento electrónico. Se recomienda utilizar este tipo de búsqueda para obtener información externa al contenido textual de los documentos, esto es, information que no es posible recuperar a través de la búsqueda avanzada. Por ejemplo, se pueden obtener todos los documentos localizados en el Archivo Histórico Provincial de Almería introduciendo el nombre de este archivo en la caja de texto:

Al hacer clic en Buscar, se obtiene la lista de documentos:

La búsqueda genérica también es útil para recuperar un tipo determinado de marcación TEI. Es posible, por ejemplo, obtener todos los documentos que contienen palabras marcadas con la etiqueta unclear (i.e. fuente ilegible o incomprensible)

Búsqueda con XPath

La búsqueda con XPath permite encontrar cualquier nodo en la estructura jerárquica de los archivos XML. Este tipo de búsqueda resulta especialmente útil para buscar aspectos relativos a la edición filológica digital, esto es, para recuperar fragmentos de texto que hayan recibido una marcación TEI determinada.

Por ejemplo, se pueden obtener todos los fragmentos de texto que están cancelados en la fuente original. Para ello, basta con escribir en la sección XPath query la expresión //del (i.e. todos los nodos del en cualquier lugar del documento). Se obtendrán así todos los fragmentos de texto que han sido marcados con la etiqueta del, que es la etiqueta utilizada en ODE para marcar pasajes de texto cancelado siguiendo las directrices TEI (cf. texto cancelado en TEI)

De modo análogo, para obtener todos los fragmentos de texto que aparecen escritos por encima de la línea, la consulta deberá hacer mención al nodo add, que es la etiqueta utilizada para marcar texto añadido, y al par atributo/valor place="above", que especifica en ODE el lugar en que aparece dicha adición textual en la fuente original (cf. texto añadido en TEI). En lenguaje XPath, dicha consulta se realizaría con la siguiente expresión: //add[@place="above"]