Esti xueves presentábase un proyectu perimportante pal usu del asturianu nel campu de les nueves tecnoloxíes. Trátase del proyectu de Traductor Automáticu Castellanu-Asturianu-Castellanu, fechu sobre la base del proyectu Eslema, que sentamara nel añu 2004 ente los departamentos de Filoloxía Española ya Informática de la Universidá d’Uviéu, cola coordinación de Xelu Neira Álvarez nes xeres informátiques y Xulio Viejo Fernández nes llingüístiques. Na Entrevista de la selmana falamos con Xulio Viejo pa conocer tolos detalles dun proyectu que permite la torna de testos de cualesquier tipu de forma automática y de páxines web al asturianu en tiempu real, ente otres aplicaciones. Toa una revolución nel usu de la llingua asturiana.
-¿Cómo ñaz el grupu Eslema y con qué oxetivos?
-Eslema ñació como proyectu dinvestigación nel añu 2004. El nuesu interés yera básicamente lestudiu llingüísticu y filolóxicu, tratábase de dotar a la investigación asturianística duna base empírica mui amplia de datos llingüísticos (un corpus) forníu con una serie daplicaciones que permitieren la estracción y el manexu rápidu y fácil dun gran volume dinformación y, de camín daprender de los procedimientos de computación informática panovar el propiu estudiu llingüísticu. La nuesa idea yera llograr un corpus dixital que recoyera tou tipu de tipoloxíes testuales del asturianu, dende la llingua oral coloquial hastal rexistru escritu de distintes époques históriques, amás dunes ferramientes básiques de tratamientu de la información. Desque se llograra eso, siempres se tuvo na mente la posibilidá de dir avanzando dende esa base na creación de tecnoloxía llingüística, más orientada al usu social de la llingua.
-La primer iniciativa dEslema foi esi Corpus Xeneral de la Llingua Asturiana del que mos fala, ¿qué ye esactamente y qué utilidaes tien?
-Un corpus ye una colección de testos en formatu dixital que permitel tratamientu automatizáu de la información. Por eso, un corpus llingüísticu nun ye una simple colección de testos, requier dunos procedimientos de marcación del tipu de datos pelos quinteresa investigar y que faigan posible esi tratamientu coles ferramientes aparentes. El corpus Eslema ye un corpus mui ambiciosamente concebíu y mui humildemente desarrolláu pola consabida falta de medios. Puede dicise que ta en construcción permanente. De momentu, hai namás una parte visible de testos escritos actuales (hasta 10.000.000 de palabres, que nun ta mal pa esti tipu de corpus) a la que puede accedese pentemedies dun buscador. En reserva tenemos un ampliu ya importante corpus oral, de grabaciones daudio, quesperamos aplicar en proyectos dinvestigación internacionales nos que yá tamos implicaos. Amás, tenemos desenrrollaes ferramientes como, amás del buscador, lematizadores y analizadores gramaticales. La so utilidá, como dixi, van dende lestudiu llingüísticu y filolóxicu con mui diverses orientaciones, al desarrollu de tecnoloxíes del llinguaxe, casu del traductor, correctores, etc
-El proyectu resultó ser bien importante, yá que consiguió la financiación de la Dirección Xeneral d’Investigación del Ministeriu d’Educación y Ciencia al cargu del Plan Nacional de I+D de 2005, pese a tar acutaes este ayudes pa les llingües oficiales del estáu, ¿sorprendió-yos?
-Presentemos el proyectu porque creyíemos nél y amás diseñóse duna manera que cuasi lu dexaba blindáu con toes eses coses que davezu gusten a los xestores de les polítiques dinvestigación: interdisciplinariedá, internacionalidá, collaboración con empreses, posibilidá de tresferencia de tecnoloxía y, pal ramu, al serviciu del patrimoniu cultural y la so preservación. La vulnerabilidá yera de toes formes esencial, porque la llinia de financiación orientada al desarrollu de tecnoloxíes llingüístiques, como usté diz, namás se contempla pa les llingües oficiales del estáu. Sicasí, daquién en Madrid consideró quel proyectu pagaba la pena y que lasturianu tamién tenía derechu a esti tipu davances. Foi un pequeñu trunfu moral, más que nada, porque en realidál presupuestu concedíu foi más bien escasu; pero polo menos, amás dánimos, valiónos pa dar un primer, y creo quimportante, emburrión al proyectu.
-¿Cuálos fueron los pasos que tuvieron de dar pa llegar a tener un traductor automáticu castellán-asturianu/asturianu-castellán?
-El disponer dun corpus altamente representativu dun estáu de llingua y unos procedimientos de lematización, análisis y marcaxe ye una base evidentemente mui importante pa cualaquier iniciativa desti tipu. Dende ahí, fízose un trabayu mui discretu, escuru y poco visible y con poca continuidá por culpa de les mentaes estrenchures económiques, que díbemos arromendando como podíemos coles ayudes añales de la conseyería a los estudios sobre asturianu. Gracies tamién a la collaboración desinteresada destudiantes dInformática y Filoloxía, a poco ya poco, foi llográndose pal proyectu una conformanza cada vez más aparente que yá dexaba pensar seriamente na posibilidá del desarrollu daplicaciones comol traductor. Lemburrión decisivu diónoslu’l contactu col equipu de la Universidá de Vigo que desarrollaral traductor gallegu dientro del consorciu Opentrad y que, pela so parte, empobinónos a la matriz del proyectu: la comunidá Apertium, coordinada dende la Universidá dAlacant que punxo al nuesu serviciu non yál so motor de traducción automática (de software llibre) sinón lasesoramientu que precisáramos, duna manera absolutamente arrogante. Nesi puntu, lo único que faltaba yera ponese a trabayar.
Con too y con ello, Eslema nun podía faese cargu del proyectu, porque nun disponíemos del presupuestu necesariu pa pagar el trabayu de los becarios en condiciones dignes, de manera quen 2007 ofrecimos a la Conseyería de Cultura la posibilidá de quella llevare alantre la iniciativa, poniendo a la so disposición la pequeña infraestructura del proyectu a cambiu dasumir los gastos de contratación destes persones al traviés de la Universidá y de garantizar el carácter públicu del traductor, en réxime de software llibre. Como aquél foi añu electoral y hubo cambiu na administración, el proyectu del traductor retardóse un poco pero finalmente echó a andar a finales de 2008 gracies a la collaboración suscrita ente la Conseyería de Cultura y el Vicerrectoráu dInvestigación de la Universidá, que permitió les contrataciones de les persones que realmente tan desarrollando la ferramienta, cuatro mozos acabante llicenciase y con una mínima esperiencia en llingüística computacional asturiana: María Fernanda García, Daniel Vicente Quílez, Arsenio Coto y Roberto Hinojal.
-¿Hasta qué puntu son correctes les tornes que fai esta aplicación, qué errores se pueden atopar tovía y cuálos son mui difíciles de correxir?
-Una ferramienta como esta tien un gran defectu y una gran virtú: el defectu ye que ye imperfecta por definición; la virtú que puede dir ameyorándose indefinidamente. Nel so estáu actual, ha dempezar per considerase que ye una ferramienta provisional, lliteralmente a medio faer (queda casi un añu de trabayu). Amás, nin siquiera la entamamos cola fase de desambiguación, que ye ónde se solucionen los problemes puntuales típicos de la traducción automática: sinonimies, homonimies, males contestualizaciones, etc Y la parte asturianu-castellanu nun la empezamos siquier. Actualmente, aparte derros humanos puros y duros que pudiéremos cometer los que trabayamos nello duna o otra forma, y de la mentada cuestión de la desambiguación, lo quhai son básicamente carencies de vocabulariu y de formulación de riegles. Les primeres son, evidentemente, importantes, pero poco preocupantes: yel llabor típicu de machaca nel quamás podemos dir avanzando a mui bon ritmu a partir precisamente del tratamientu de corpus. Dequí a un añu eso contamos dexalo prácticamente planchao.
La formulación de regles gramaticales ye la parte más delicada, porque ye fundamental secuenciales debidamente y que nun interfieran unes coles otres y bloquien el sistema. Aparte deso, hai niveles a los que ye lliteralmente imposible llegar: casos típicos de la nuesa gramática, comol neutru, el per/por o los clíticos nun pueden tratase con una perfección absoluta; nestos casos lo que debemos procurar ye más bien reducir estadísticamentel númberu derros virtualmente posible. En tou casu, lusuariu tamién tien que saber usar la ferramienta: meter testos correctos, tanto ortográfica como tipográficamente (por casu, evitar dobles espaciaos o codificaciones estrañes) y, si quier da-y un usu profesional a la so traducción, revisar dempués el testu resultante. Si la traducción nun ye impecable, polo menos la máquina conviertel procesu nuna pura revisión que permite trabayar el testu con más detalle.
-Tengo entendío quusaron la versión castellana de Lorixe de les especies de Charles Darwin pa probar el traductor
-Probamos con tolo que se nos pon a tiru: prensa dixital, testos privaos o, como yel casu, exemplares de llibros que garrábemos de biblioteques dixitales. Como nun primer momentu contábemos con 2009 como fecha de presentación, pensemos que la obra de Darwin, nel so doble centenariu, yera una idea guapa. Amás yera una manera dafirmanos públicamente, dende lasturianu, nos valores humanísticos de la ciencia y frente a tou tipu doscurantismu. Foi emocionante cargar les sos quinientes páxines nel traductor y ver como en menos de mediu minutu lu devolvía nun asturianu bastante resultón.
-La páxina permite amás navegar peles webs en castellán, nuna torna inmediata al asturianu introduciendo una dirección na web dEslema, ¿van esistir aplicaciones pa añadir esti traductor al navegador y facer esta torna automáticamente?
-Incorporamos esa función na nuesa ferramienta pa facilita-y la traducción de webs al usuariu. Si funciona nel nuesu servidor, nun creo quhaya nengún problema pa que col tiempu andando funcione nos ordenadores personales colos navegadores propios. En realidá, esti tipu de desarrollos nun son problema del nuesu equipu, que trabaya únicamente la cuestión llingüística. Ye una aportación personal del nuesu informáticu, Daniel Vicente Quílez, que polo demás meyora otres ferramientes asemeyaes que pueden vese perhí.
-¿Qué va suponer na so opinión la posibilidá dusar Eslema pa la presencia de la llingua asturiana na rede?
-Desquel traductor asturianu funcione socialmente, lasturianu va pasar a tener na internet el mesmu nivel de funcionalidá quel castellán. Y si se desarrollen otros pares de traducción (inglés, francés) esa funcionalidá va dir medrando esponencialmente. Presta pensar quuna comunidá de fala a la que se-y suponen unos 300.000 falantes, nuna población mayormente avieyao y ensin alfabetizar nesta llingua, resulta que puede acceder, nasturianu, a unos 10 millones de webs, ente elles instituciones internacionales, prensa con actualizaciones informatives al minutu, universidaes, centros dinvestigación punteros, ociu, etc Ya inversamente, cualquier sitiu web nasturianu, les nueses biblioteques dixitales, etc faise accesible dende tolos requexos del mundu. Si se piensa fríamente ye un cambiu de paradigma radical pal asturianu dientro de la sociedá global, non sólo a efectos prácticos de comunicación, sinón también, na mio opinión, nel tipu de planteamientos y reflexones que tenemos que faer sobre la llingua y lo que representa. Nun pon fin a los nuesos problemes, nin tanto, pero sí cambia unes cuantes regles de xuegu.
-Na páxina pueden vese tamién versiones un daqué menos remataes de tornes del y al inglés, euskera o catalán, ente otres llingües, ¿va siguir trabayándose nesi camín?
-Les versiones que colgamos actualmente na páxina son puramente testimoniales, mui básiques, pero marquen un camín pel que se puede siguir. Ye abondo pensar que con mui poco trabayu sobre elles, nun desmerecen muncho dotros traductores que pueden vese per ehí.
-¿De qué plazos tamos falando?
-La fase actual de trabayu acaba nesti añu. De más allá nun sé qué dicir, nin siquiera creo que me toque dicir nada, porque nin depende de min nin tengo un especial empeñu en siguir dedicándome a estes coses que, en realidá, salen del ámbitu de la mio competencia profesional: nun soi informáticu. Ser, sí yera interesante siguir con esti tipu de desenrrollos, tanto de pares de traducción como daplicaciones complementaries.
-El proyectu ta abiertu a les suxerencies y correcciones de los usuarios, ¿va caltenese a lo llargol tiempu un caltenimientu y actualiación del proyectu?
-Lo dicho enantes: el mio horizonte acaba en 2010 y pa entós cuento quel traductor castellán-asturianu-castellán va quedar básicamente plancháu, polo menos pa les tipoloxíes testuales más comunes. Si hai daquién dispuestu a siguir nello dende esa fecha, yera la cuenta, y tamién disponer de financiación pa ello, porque nun ye un trabayu que se faiga en ratos llibres y pide bien de dedicación y profesionalidá. Sicasí, cuando planteamos desarrollar esto como software llibre la idea nun yera solo facilitar laccesu social a la ferramienta, sinón prever precisamente estes cuestiones poniéndola a la llibre disposición de tolos sos potenciales desarrolladores, independientemente de tou posible apoyu institucional o empresarial. Nesti sen, teníemos na mente dar un pequeñu cursín formativu sobre Apertium a xente interesao en desarrollar nuevos pares. Yá veremos.
-Pero Eslema nun ye namás un tornador, permite amás la l’analís morfolóxicu y sintácticu de frases, oraciones y testos n’asturianu estándar, ¿qué utilidá tien esta opción?
-Hai aquí dos coses distintes. Per un sitiu, xuncida al corpus, tenemos na nuesa web una ferramienta danálisis gramatical que tamos mirando dadaptar pa que lusuariu se mande della nos sos estudios llingüísticos. Ye una cosa pa filólogos, básicamente, que puede aplicase depués a la marcación de corpus o pal desarrollu dutilidaes comol traductor, correctores, diccionarios, Y otra cosa ye, venceyada al propiu traductor (na opción traductor avanzáu) una serie de funciones que-y permiten igualmente analizar morfosintácticamentel testu traducíu pa siguir asinal mesmu procesu de traducción y poder detectar onde tal fallu, cuando esti se produz.
-Nel futuru y según anuncien na páxina, cualesquier interesáu va poder echar un gabitu nel desenvolvimientu del analizador coles sos observaciones y suxerencies, rexistrándose na web, ¿cómo va funcionar esti sistema de collaboración?
-Nel mesmu traductor dase un enllaz a un formulariu onde lusuariu puede notificanos pallabres que falten, errates, suxerencies propies de traducción, etc El conxuntu de suxerencies cárguense nuna tabla que revisamos continuamente y atendemos na midida de lo posible. De toes formes, nun podemos garantizar que vamos faer casu a toles recomendaciones, y menos si cuerrel riesgu de colapsar la máquina.
-La presentación dEslema cuntó con una significativa representación de la Universidá dUviéu y la Conseyería de Cultura (el Rector y la Conseyera, ¿espeya esto un importante apoyu al proyectu per parte destes instituciones?
-Tien que tenese en cuenta quEslema y el proyectu de Traductor son propiamente iniciatives distintes. Eslema ye un proyectu de la Universidá dUviéu que nel so momentu sactivó gracies a una ayuda del Ministeriu y que sentó una mínima base de llingüística computacional asturiana que nun había. El Traductor, que ye lo que se presenta, yá ye una llínea de trabayu derivada que foi asumida dafechu pola Conseyería de Cultura que ye la que financia la contratación de les cuatro persones que lu faen posible. La Universidá pela so parte asume un papel non menos esencial, por cuantes pon de la so parte tola infraestructura necesaria pal desenvolvimientu del trabayu (y ente ello, el pequeñu patrimoniu científico-técnicu dEslema), la coordinación y supervisión del mesmu, y, lo que me paez fundamental, da-y un sentíu formativu realmente importante a esos contratos al traviés del Vicerrectoráu dInvestigación. Lapoyu de les dos partes, en tou casu, ye decisivu. El traductor ye posible en bona midida pol enfotu personal de Consuelo Vega en sacar alantre esta ferramienta con tol potencial normalizador quofrez. Si ye ladministración universitaria, el Vicerrectoráu dInvestigación ye la entidá que fai posibles les contrataciones de personal necesaries pal desenvolvimientu del proyectu y la que realiza tola xestión burocrática y económica del día a día. Amás dello, el proyectu foi acoyíu pol másimu interés pol equipu rectoral de Vicente Gotor como un dispositivu clave nes sos midíes de normalización llingüística dientro de la institución.