Lingüística de corpus (Lisa, Mario, Milda) - vitojph/2015lmweb GitHub Wiki

Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden ser textos (lo más común) o muestras orales (generalmente transcritas). Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles fines de uso. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua o su modalidad de la forma más exacta posible y, en cuanto a su uso, preocuparse que su representación sea real. Los córpora tienen similitudes con los textos porque están compuestos por ellos; por otro lado, no son textos en sí, porque, a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin y es, en mayor o menor grado, cohesivo y coherente, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias.

Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la complicación de córpora ha llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general.[1]

La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los córpora se recogen y almacenan de manera electrónica.

Table of Contents

Aplicación de los córpora

Los córpora lingüísticos se utilizan para hacer análisis estadísticos y contrastar hipótesis sobre el área que estudian. Este tipo de córpora cada vez cuenta con más partidarios y gracias al estudio de la lengua que estos córpora ofrecen, algunos postulados lingüísticos que contaban con un gran respaldo dentro de la comunidad lingüística han sido puestos en duda.[2]

Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante. Esta subdisciplina, dado el volumen de datos que maneja, suele asociarse con la lingüística computacional, según esta última se acerca a las aplicaciones del procesamiento de lenguaje natural.

Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el ahora clásico Computational Analysis of Present-Day American English (Análisis computacional del inglés estadounidense de la actualidad), a partir del corpus Brown, una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.

Criterios de clasificación

Grado de generalidad

El grado de generalidad de un corpus depende de la medida en que sus textos han sido seleccionados con respecto a las diversas variedades de una lengua. Los corpora especializados se orientan a una variedad lingüística particular (sublanguage) o a un dominio restringido (lenguaje periodístico, jurídico, médico, etc). Por este motivo tienen el grado mínimo de generalidad. Por otro lado, los textos de los corpora generales pertenecen a diferentes variedades lingüísticas y son seleccionados porque componen el cuadro descriptivo de la lengua en su totalidad. Se trata, por lo tanto, de corpora plurifuncionales que son a menudo usados como recursos de referencia a la hora de estudiar una lengua, por ejemplo como fuente de datos para la elaboración de un diccionario. Frecuentemente los corpora generales se componen o se pueden dividir en varios subcórpora, es decir subconjuntos de textos que pertenecen a una variedad particular.

Tamaño

El tamaño del corpus es determinado por el número de palabras que contiene el mismo corpus en el caso de los corpora de lengua escrita. En cambio, en los corpora de lengua hablada, se tiene en cuenta las horas de grabación. Podemos distinguir corpora cerrados y abiertos. El primero es la versión del corpus estándar tradicional, en el cual la cantidad de los textos y de las palabras viene ya prefijado en la fase inicial del proyecto. Los corpora cerrados son como una especie de fotografía de una lengua a través de los textos seleccionados, pero no son adaptados a seguir los cambios y la evolución que se da en una lengua como con su naturaleza intrínsecamente dinámica. Con el fin de superar este límite, John Sinclair propuso extender la noción tradicional de corpus a instrumento de observación lingüística. Los corpus cuya función es principalmente observar la lengua (monitor corpus) es un conjunto abierto de textos que cambia en el tiempo, ya que va introduciendo textos nuevos seleccionados conforme a los mismos criterios usados para elegir textos anteriores. Este tipo de corpus permite por ejemplo observar el carácter cambiante del léxico de la lengua en cuestión y por lo tanto puede ser usado en contextos lexicográficos como fuente de datos para a los diccionarios actualizados.

Corpus representativo

Un corpus es representativo cuando tiene rasgos de todo el ámbito de la variabilidad y las propiedades de una lengua. Esto significa que un corpus debe proporcionar un modelo de las propiedades lingüísticas del lenguaje analizado de la manera más verosímil posible. De esta manera, debe ser posible aplicar los textos del corpus a una población entera.

Autenticidad

Es otra condición requerida para conseguir un corpus representativo. Los textos auténticos son aquellos que se han creado en condiciones de comunicación natural. Esto es especialmente cierto para el lenguaje hablado. Por ejemplo, los dramas, la poesía, los subtítulos de películas, etc. Son considerados fuentes de córpora no muy auténticas y demasiado específicas. Debido a la influencia inevitable por parte de la lengua de la versión original, en los córpora generales no se recogen las traducciones (sí en los córpora paralelos). Hay más problemas relacionados con la autenticidad, como la prescripción. Las muestras recogidas, por norma general, no se corrigen, no se acortan ni se cambian. Incluso los errores típicos en los periódicos y las revistas de la lengua inglesa se consideran valiosos en cierta manera. Ellos permiten darse cuenta de las regularidades, cómo se infringen las reglas de ortografía u otras normas formales y comprobar la dirección de las tendencias del desarrollo lingüístico.[3]

Equilibrio

Desde el surgimiento de los córpora se ha procurado crearlos de modo equilibrado, compuestos por diversas fuentes y siguiendo criterios claros. Sólo más tarde aparecieron córpora que empleaban todos los textos recogidos (córpora oportunistas). El equilibrio se consigue al establecer las proporciones de diferentes fuentes según ciertos criterios. Los criterios posibles son los siguientes:

  • Elitismo (las fuentes más válidas)
  • Legibilidad (best sellers, periodismo)
  • Indicadores demográficos (mayor variedad de autores)
  • Accesibilidad
En cuanto a la representabilidad, la pregunta esencial es ¿qué es lo que debe reflejar un corpus? No basta sólo con decir que éste debe reflejar el idioma o su variabilidad, porque esta respuesta no es informativa. Por tanto conviene descomponer la representabilidad en cuatro esferas de uso: el habla, la escritura, la audición y la lectura, y, además, tomar en cuenta el número de usuarios de cada esfera. Los córpora oportunistas y representativos a menudo se relacionan como etapas distintas de composición de un único corpus: al principio se crea un corpus representativo y luego, de acuerdo con ciertas proporciones, se seleccionan córpora para un corpus equilibrado.

Tipos de Córpora

La Tipología de los Córpora

Los corpus lingüísticos se pueden dividir dependiendo del tipo de información que recojan.[4] Tipológicamente los córpora pueden ser subdivididos según

  • el canal comunicativo (córpora escritos y orales);
  • su forma de presentación y almacenamiento (textuales y multimodales, los últimos consistiendo en grabaciones del sonido, imagen y sus correspondientes transcripciones);
  • el número de lenguas representadas (mono-/bi- y multilingües, córpora paralelos);
  • la anotación de la lengua (no anotados y anotados morfológicamente, fonéticamente y sintácticamente);
  • el alcance (córpora generales y especializados);
  • su carácter de enfoque temporal sobre la lengua (sincrónicos y diacrónicos);[5]
    • El grado de finalización (finitos (estáticos) y continuos (dinámicos)).
Cabe mencionar que los distintos tipos de corpus no son exclusivos, puede darse el caso de que un único corpus reúna las características de dos de los tipos de corpus mencionados más abajo. A continuación aparecen algunos tipos explicados:

Corpus general

Contiene una gran variedad de ejemplos orales y escritos de la lengua que han sido producidos por gente de diversas edades, regiones y clases sociales. Un conocido ejemplo de este tipo de corpus es el British National Corpus.

Corpus especializado

Aunque existe polémica sobre si es necesario saber de antemano quién y cómo va a utilizar el corpus, cada vez es más notable la tendencia de crear córpora de tipo general y finalidades diversas, y no córpora especializados. Los últimos son de tamaño reducido, representan un área específica de la lengua y se codifican (se anotan) acudiendo directamente a las necesidades de investigadores particulares. Los compiladores de los córpora siguen “la póliza del texto limpio”: la versión original del corpus no se codifica, no se contamina con marcado de ningún tipo para que las necesidades de unos investigadores no obstruyan el trabajo de otros. Por tanto los córpora especializados y anotados normalmente se presentan como versiones separadas de los córpora globales.

Corpus sincrónico y corpus diacrónico

El corpus sincrónico contiene ejemplos lingüísticos recogidos en un único momento, es decir, en un tiempo determinado. Un ejemplo podría ser el corpus lingüístico del español de principios del siglo XIX. El corpus diacrónico recoge textos de diferentes épocas, como lo son por ejemplo los diferentes siglos. Se usa para ver como palabras desaparecen, están introducidas o cambian de significado.

Córpora finitos y continuos

Los córpora finitos enseñan el estado de la lengua en un momento dado. Son útiles cuando se comparan con otros córpora similares pero creados en otro momento en el tiempo o para otra lengua o dialecto. En los córpora continuos se puede aplicar filtros que recojan hechos lingüísticos nuevos. Normalmente están compuestos de textos enteros y no sus fragmentos y por eso no equilibrados. Sin embargo, la extensión de los mismos compensa el desequilibrio.

Corpora mono-/ bi- y multilingües

Córpora multilingües permiten investigaciones sobre una lengua, mientras que corpora bi- o multilingües recogen ejemplos de más de una lengua. De los córpora multilingües se diferencian tres diferentes subtipos:

Corpora comparativos

Son córpora en los cuales los textos de las diferentes lenguas son comparables en tamaño y contenido, pero donde no todas las lenguas son apuntadas necesariamente con la misma precisión.

Corpora paralelos

Son córpora con los mismos textos en todas las lenguas anotadas. Un corpus paralelo famoso es la Biblia en todos los idiomas en los que está traducida.

Corpora alineados

Son córpora paralelos en los que no todas las lenguas tienen los mismos textos, sino que donde está anotado qué fragmento del texto corresponde a qué fragmento del texto en el otro idioma. Estas anotaciones se encuentran o a nivel de párrafo o bien a nivel de frases.

Corpus hablado

Además del corpus escrito, existen también los córpora hablados que recogen diálogos, entrevistas, conferencias etc. En la mayoría de los casos, los fragmentos hablados van acompañados de transcripciones ortográficas o fonéticas.

La transcripción ortográfica más conocida es la subtitulación de películas, mientras que la transcripción fonética usa el alfabeto fonético.

Los corpora hablados dependen de la situación en la que se habla: ruidos de fondo, errores a la hora de habla, vacilaciones y otros fenómenos hablados juegan un papel en el transcripto, tanto como volumen y entonación.

Corpus estudiantil

Son conjuntos de datos producidos por estudiantes de lenguas extranjeras, como por ejemplo ensayos o exámenes escritos.

Treebanks

(Del inglés: 'banco de arbol') Corpus con annotaciones sintácticas. Se usan para la investigación y la instalación de programas de descomposición.

Véase También

Categoría:Lingüística computacional Categoría:Lingüística Categoría:Análisis del discurso

Referencias

Enlaces Externos

⚠️ **GitHub.com Fallback** ⚠️