NÚMERO 358 - 22/05/2017
CUTUDC / Novidades
Un equipo formado por expertos do CITiUS (Universidade de Santiago de Compostela), da empresa galega Imaxin∣Software e do IXA Nlp Group da Universidade do País Vasco creou un mapa mediante computación que cuantifica as distancias entre 44 idiomas de Europa. A rede de nodos resultante evidenciou que o galego escrito ten como máis próximo o castelán, mentres que o portugués ten como língua escrita máis próxima o galego. O inglés sitúase como núcleo do mapa. Pablo Gamallo, un dos seus autores, explícanos o modelo aplicado e os seus resultados.
Canto de preto ou de
lonxe está o galego doutras linguas? Agora
podemos comprobalo visualmente nun mapa que
mostra as distancias entre case todos os
idiomas de Europa, creado por Pablo Gamallo, do
Centro Singular de Investigación en
Tecnoloxías da Información (CiTIUS) da
Universidade de Santiago de Compostela; José
Ramom Pichel, da empresa galega Imaxin∣Software;
Iñaki Alegria, do
IXA Nlp Group da Universidade do País
Vasco, e a lingüísta Marta Muñoz González,
revisora das coleccións de textos.
Os investigadores construíron unha rede de
nodos, cada un dos cales representa unha
lingua, conectados por arcos que marcan as
distancias entre os distintos pares de idiomas.
Esa rede construída sobre a base das distancias
lingüísticas representa o mapa actual de
similitudes e diverxencias entre as principais
linguas de Europa. Así o explican os seus
autores nun artigo que se publica na revista
científica Physica A co título
'From language identification to language
distance' (volume 484, 15 outubro 2017,
páxinas 152–162).
En concreto, os autores do experimento mediron
entre pares as distancias cuantitativas de 44
idiomas europeos, incluído o galego, para crear
un mapa de rede actualizado das linguas do
continente que visualiza o preto e lonxe que
están unhas doutras.
A diferenza doutros traballos de lingüística
histórica (ou lingüística diacrónica), neste
traballo a distancia das linguas non se
calculou a partir de listas predefinidas de
vocabulario estable e universal, senón de
corpus textuais que conteñen unha gran
variedade de fenómenos lingüísticos, incluíndo
préstamos e palabras estranxeiras. Polo tanto,
explican os autores do novo método, "a
distancia lingüística que definimos ten a
intención de medir as interaccións entre
linguaxes desde unha perspectiva sincrónica",
para o cal a representación máis axeitada dos
datos "non é unha árbore xerárquica, senón unha
rede que mostra as interaccións das linguas",
describen os investigadores, que crearon así
unha rede visual das relacións entre os
distintos idiomas.
Para visualizar as redes lingüísticas
utilizouse Cytoscape, un software de código
aberto deseñado para simular reaccións
bioquímicas e interaccións moleculares, xa que,
clarifican os investigadores, "as linguas son
atraídas e disociadas de maneira similar a como
as moléculas interactúan entre si".
O mapa de rede resultante mostra que "os grupos
de linguas que teñen distancias curtas e varios
arcos internos (só compartidos polos nodos do
grupo) tenden a formar unha familia ou
subfamilia de idiomas", apuntan os autores.
Entre o máis salientable, identifcaron as
linguas romances e as eslavas como "os dous
grupos con maior cohesión interna", é dicir,
"aqueles que teñen máis ligazóns internas e
distancias máis curtas". Con todo, na rede das
linguas europeas as romances teñen unha
posición central, xa que "os seus elementos
están máis conectados a nodos externos cós
idiomas eslavos", matizan os científicos.
Esta centralidade da familia romance explícase
polo feito de que "a maioría das linguas
tomaron prestados morfemas e unidades léxicas
do latín no pasado, e moitos neoloxismos do
inglés hoxe en día", clarifican os responsábeis
do estudo, que engaden: "Obsérvese que unha
parte significativa do vocabulario en inglés
(aproximadamente o 56%) provén de linguas
romances, unha parte destes préstamos provén
directamente do latín (15%) e outra parte do
francés (41%). Isto fai que o inglés sexa unha
lingua especial entre as linguas románicas e
xermánicas. Ademais, ten moitas interaccións
con outros idiomas de diferentes familias. O
inglés resulta ser o núcleo do mapa, xa que é o
nodo con máis conexións a diferentes sub-áreas
da rede".
Os investigadores tamén destacan outros casos
interesantes, como o do maltés, que "é un
idioma árabe escrito en alfabeto latino,
interconectado tanto co inglés, o outro idioma
nacional en Malta, e o italiano, probablemente
debido á súa proximidade xeográfica e
cultural". Ou o do eúscaro, "lingua non
indoeuropea falada entre España e Francia" e
que "é identificado pola nosa medida de
distancia como o idioma máis próximo ao
xeorxiano (de todos os xeitos a distancia é
bastante alta)", explícase no artigo publicado
na revista científica Physica A. Tamñen
son salientables o casos do polaco e dos dous
idiomas bálticos (lituano e letón), que "aínda
que pertenzan á familia eslava, están moi lonxe
do núcleo das linguas eslavas".
A rede tamén mostra que "todos os idiomas,
indoeuropeos ou non indoeuropeos, están
dalgunha maneira relacionados cos membros da
familia das linguas románicas ou co inglés".
Con todo, os autores do mapa advirten de que
non pretenden "probar a existencia de familias
de linguas e relacións históricas", senón "máis
ben mostrar a existencia de vínculos fortes e a
interacción actual desde unha perspectiva
sincrónica".
Para afondar un pouco máis en como se creou
este mapa de rede das linguas europeas e os
resultados acadados, falamos con Pablo Gamallo,
investigador no CITiUS.
- Como e por que se fixo este mapa das
distancias entre as linguas europeas?
- O objectivo principal do trabalho é proponher
uma nova medida quantitativa que calcula a
distância lingüística entre duas línguas
qualquer. Por exemplo, qual é a distância entre
o galego e o português, entre o euskera e o
galego, e entre o catalão e o moldavo? A
distância calcula-se utilizando grandes
quantidades de texto escrito nas diferentes
línguas, criando modelos estatísticos para cada
língua em função desses textos, e comparando os
modelos com a nossa medida matemática da
distância linguística. O mapa ou rede de nodos
é só uma visualização do resultado de calcular
as distâncias entre 44 línguas europeias.
Queríamos aplicar a nossa medida estatística a
um caso real: as línguas de Europa na
actualidade.
- Como se construíu?
- O mapa de nodos visualiza as distâncias
linguísticas actuais entre 44 línguas
europeias. O mapa é uma rede. Os nodos são as
línguas (mais concretamente os modelos
matemáticos de cada língua) e os arcos são as
distâncias entre esses modelos. A visualização
foi feita com um software pensado para
visualizar as interações moleculares no campo
da bioinformática. No nosso casso, as moléculas
são línguas e as suas interações as distâncias
que as separam e as unem. E do mesmo jeito que
a interação molecular pode formar famílias de
proteínas, as línguas agrupam-se em famílias.
Estas agrupações podem observar-se facilmente
no mapa que construimos.
- Que ten de novidoso?
- Hai outros estudos dentro do âmbito que se
conhece como filogenética linguística que
proponhem comparar línguas em base a listas
multilíngues de palavras. Por exemplo, comparam
como se escreve e se pronuncia a palavra "eu"
em diferentes línguas ("I", "yo", "io", "je",
"ich", etc.). Dada uma lista deste tipo e uma
medida quantitativa, duas línguas são
consideradas semelhantes se hai similitudes em
muitas das palavras da lista. No nosso trabalho
não utilizamos listas artificialmente criadas,
senã textos reais com os que construimos os
modelos matemáticos. Essa é a novidade.
Utilizamos duas grandes colecções de textos:
páginas extraídas de internet em diferentes
línguas, e as traduções da Bíblia. Todos os
textos foram normalizados a um alfabeto comum
para serem comparáveis.
- Que utilidade e aplicacións pode ter?
- Pode ter uma utilidade puramente filológica
em linguística histórica. Nestes momentos, José
Ramom Pichel está aplicando a medida matemática
a textos de diferentes épocas do galego, do
português e do castelhano, para observar como
foram evoluindo as distâncias entre estas
línguas ou variantes ao longo dos séculos.
Pode ter aplicações mais tecnológicas. Por
exemplo, pode servir para ajudar a escolher o
tradutor automático mais ajeitado entre duas
línguas. Existem muitos tipos de estratégias na
tradução automática, algumas melhor adaptadas a
línguas próximas e outras a línguas mais
afastadas. Se temos um número que quantifica a
distância entre qualquer par de línguas ou
variedades, um metatradutor poderá escolher o
tipo de tradutor que melhor funcione para o par
que escolhamos.
- Que é o máis salientable para vós do mapa
resultante?
- Pessoalmente, chamou-me a atenção a
proximidade entre o euskera e o georgiano, uma
língua não indoeuropeia do Cáucaso, da família
kartveliana. Existe uma velha teoria que liga o
euskera com o georgiano. É uma conjectura mui
discutível entre os filólogos. Nessa teoría,
fala-se dum substrato pre-indoeuropeu que
dominaria o continente antes das invassões
indoeuropeias, sendo o euskera e o georgiano
dous restos desse substrato. O nosso modelo
achega estas duas línguas. Não demostra nada,
mas é certo que pode ser uma nova evidência a
favor desta teoria e que pode ser usada polos
filólogos que a apoiam para fortalezê-la um
pouco mais.
Chama tamém a atenção a enorme latinização do
inglês e mesmo do euskera, o primeiro por
influência do francês (a sua língua mais
próxima no nosso modelo), e o segundo por
influência do castelhano e do latim.
Por último, o nosso modelo não conecta o
húngaro com o resto de línguas urálicas
europeias: finês e estonio. Neste caso, o
modelo afasta-se da classificação mais
habitual, mesmo se existem estudos que ponhem
em dúvida esta ligação.
- E o máis salientable da situación da
lingua galega neste mapa de distancias?
- O galego escrito tem como língua mais próxima
o castelhano, enquanto que o português tem como
língua escrita mais próxima o galego. O galego
escrito com a norma actual situa-se portanto
entre o português e o castelhano. Isto não é
mais que uma foto do uso actual dum tipo de
galego. Queremos fazer muitos mais experimentos
com diferentes variedades do galego, do
português e do castelhano. Por agora, os
experimentos foram feitos com uma língua
escrita normalizada. Queremos tamém fazê-los
para a língua oral com modelos fonéticos.
Galicia Confidencial
Quen somos | Contacto | Axuda
cutudc.com, 2009. Publicado baixo licencia Creative Commons DHTML Menu By Milonic JavaScript