Portada Entrevista de la selmana Xulio Viejo: “Foi emocionante cargar nel traductor ‘L’orixe de les especies’ de Darwim y velu en pocos segundos nun asturianu bastante resultón”

Xulio Viejo: “Foi emocionante cargar nel traductor ‘L’orixe de les especies’ de Darwim y velu en pocos segundos nun asturianu bastante resultón”

by asturnet

Esti xueves presentábase un proyectu perimportante pal usu del asturianu nel campu de les nueves tecnoloxíes. Trátase del proyectu de Traductor Automáticu Castellanu-Asturianu-Castellanu, fechu sobre la base del proyectu “Eslema”, que s’entamara nel añu 2004 ente los departamentos de Filoloxía Española ya Informática de la Universidá d’Uviéu, cola coordinación de Xelu Neira Álvarez nes xeres informátiques y Xulio Viejo Fernández nes llingüístiques. Na “Entrevista de la selmana” falamos con Xulio Viejo pa conocer tolos detalles d’un proyectu que permite la torna de testos de cualesquier tipu de forma automática y de páxines web al asturianu en tiempu real, ente otres aplicaciones. Toa una revolución nel usu de la llingua asturiana.

-¿Cómo ñaz el grupu Eslema y con qué oxetivos?

-Eslema ñació como proyectu d’investigación nel añu 2004. El nuesu interés yera básicamente l’estudiu llingüísticu y filolóxicu, tratábase de dotar a la investigación asturianística d’una base empírica mui amplia de datos llingüísticos (un corpus) forníu con una serie d’aplicaciones que permitieren la estracción y el manexu rápidu y fácil d’un gran volume d’información y, de camín d’aprender de los procedimientos de computación informática p’anovar el propiu estudiu llingüísticu. La nuesa idea yera llograr un corpus dixital que recoyera tou tipu de tipoloxíes testuales del asturianu, dende la llingua oral coloquial hasta’l rexistru escritu de distintes époques históriques, amás d’unes ferramientes básiques de tratamientu de la información. Desque se llograra eso, siempres se tuvo na mente la posibilidá de dir avanzando dende esa base na creación de tecnoloxía llingüística, más orientada al usu social de la llingua.

-La primer iniciativa d’Eslema foi esi Corpus Xeneral de la Llingua Asturiana del que mos fala, ¿qué ye esactamente y qué utilidaes tien?

-Un corpus ye una colección de testos en formatu dixital que permite’l tratamientu automatizáu de la información. Por eso, un corpus llingüísticu nun ye una simple colección de testos, requier d’unos procedimientos de marcación del tipu de datos pelos qu’interesa investigar y que faigan posible esi tratamientu coles ferramientes aparentes. El corpus Eslema ye un corpus mui ambiciosamente concebíu y mui humildemente desarrolláu pola consabida falta de medios. Puede dicise que ta en construcción permanente. De momentu, hai namás una parte visible de testos escritos actuales (hasta 10.000.000 de palabres, que nun ta mal pa esti tipu de corpus) a la que puede accedese pentemedies d’un buscador. En reserva tenemos un ampliu ya importante corpus oral, de grabaciones d’audio, qu’esperamos aplicar en proyectos d’investigación internacionales nos que yá tamos implicaos. Amás, tenemos desenrrollaes ferramientes como, amás del buscador, lematizadores y analizadores gramaticales. La so utilidá, como dixi, van dende l’estudiu llingüísticu y filolóxicu con mui diverses orientaciones, al desarrollu de tecnoloxíes del llinguaxe, casu del traductor, correctores, etc…

-El proyectu resultó ser bien importante, yá que consiguió la financiación de la Dirección Xeneral d’Investigación del Ministeriu d’Educación y Ciencia al cargu del Plan Nacional de I+D de 2005, pese a tar acutaes este ayudes pa les llingües oficiales del estáu, ¿sorprendió-yos?

-Presentemos el proyectu porque creyíemos nél y amás diseñóse d’una manera que cuasi lu dexaba blindáu con toes eses coses que davezu gusten a los xestores de les polítiques d’investigación: interdisciplinariedá, internacionalidá, collaboración con empreses, posibilidá de tresferencia de tecnoloxía y, pal ramu, al serviciu del patrimoniu cultural y la so preservación. La vulnerabilidá yera de toes formes esencial, porque la llinia de financiación orientada al desarrollu de tecnoloxíes llingüístiques, como usté diz, namás se contempla pa les llingües oficiales del estáu. Sicasí, daquién en Madrid consideró que’l proyectu pagaba la pena y que l’asturianu tamién tenía derechu a esti tipu d’avances. Foi un pequeñu trunfu moral, más que nada, porque en realidá’l presupuestu concedíu foi más bien escasu; pero polo menos, amás d’ánimos, valiónos pa dar un primer, y creo qu’importante, emburrión al proyectu.

-¿Cuálos fueron los pasos que tuvieron de dar pa llegar a tener un traductor automáticu castellán-asturianu/asturianu-castellán?

-El disponer d’un corpus altamente representativu d’un estáu de llingua y unos procedimientos de lematización, análisis y marcaxe ye una base evidentemente mui importante pa cualaquier iniciativa d’esti tipu. Dende ahí, fízose un trabayu mui discretu, escuru y poco visible y con poca continuidá por culpa de les mentaes estrenchures económiques, que díbemos arromendando como podíemos coles ayudes añales de la conseyería a los estudios sobre asturianu. Gracies tamién a la collaboración desinteresada d’estudiantes d’Informática y Filoloxía, a poco ya poco, foi llográndose pal proyectu una conformanza cada vez más aparente que yá dexaba pensar seriamente na posibilidá del desarrollu d’aplicaciones como’l traductor. L’emburrión decisivu diónoslu’l contactu col equipu de la Universidá de Vigo que desarrollara’l traductor gallegu dientro del consorciu Opentrad y que, pela so parte, empobinónos a la matriz del proyectu: la comunidá Apertium, coordinada dende la Universidá d’Alacant que punxo al nuesu serviciu non yá’l so motor de traducción automática (de software llibre) sinón l’asesoramientu que precisáramos, d’una manera absolutamente arrogante. Nesi puntu, lo único que faltaba yera ponese a trabayar.

Con too y con ello, Eslema nun podía faese cargu del proyectu, porque nun disponíemos del presupuestu necesariu pa pagar el trabayu de los becarios en condiciones dignes, de manera qu’en 2007 ofrecimos a la Conseyería de Cultura la posibilidá de qu’ella llevare alantre la iniciativa, poniendo a la so disposición la pequeña infraestructura del proyectu a cambiu d’asumir los gastos de contratación d’estes persones al traviés de la Universidá y de garantizar el carácter públicu del traductor, en réxime de software llibre. Como aquél foi añu electoral y hubo cambiu na administración, el proyectu del traductor retardóse un poco pero finalmente echó a andar a finales de 2008 gracies a la collaboración suscrita ente la Conseyería de Cultura y el Vicerrectoráu d’Investigación de la Universidá, que permitió les contrataciones de les persones que realmente tan desarrollando la ferramienta, cuatro mozos acabante llicenciase y con una mínima esperiencia en llingüística computacional asturiana: María Fernanda García, Daniel Vicente Quílez, Arsenio Coto y Roberto Hinojal.

-¿Hasta qué puntu son correctes les tornes que fai esta aplicación, qué errores se pueden atopar tovía y cuálos son mui difíciles de correxir?

-Una ferramienta como esta tien un gran defectu y una gran virtú: el defectu ye que ye imperfecta por definición; la virtú que puede dir ameyorándose indefinidamente. Nel so estáu actual, ha d’empezar per considerase que ye una ferramienta provisional, lliteralmente a medio faer (queda casi un añu de trabayu). Amás, nin siquiera la entamamos cola fase de desambiguación, que ye ónde se solucionen los problemes puntuales típicos de la traducción automática: sinonimies, homonimies, males contestualizaciones, etc… Y la parte asturianu-castellanu nun la empezamos siquier. Actualmente, aparte d’erros humanos puros y duros que pudiéremos cometer los que trabayamos nello d’una o otra forma, y de la mentada cuestión de la desambiguación, lo qu’hai son básicamente carencies de vocabulariu y de formulación de riegles. Les primeres son, evidentemente, importantes, pero poco preocupantes: ye’l llabor típicu de “machaca” nel qu’amás podemos dir avanzando a mui bon ritmu a partir precisamente del tratamientu de corpus. D’equí a un añu eso contamos dexalo prácticamente planchao.

La formulación de regles gramaticales ye la parte más delicada, porque ye fundamental secuenciales debidamente y que nun interfieran unes coles otres y bloquien el sistema. Aparte d’eso, hai niveles a los que ye lliteralmente imposible llegar: casos típicos de la nuesa gramática, como’l neutru, el per/por o los clíticos nun pueden tratase con una perfección absoluta; nestos casos lo que debemos procurar ye más bien reducir estadísticamente’l númberu d’erros virtualmente posible. En tou casu, l’usuariu tamién tien que saber usar la ferramienta: meter testos correctos, tanto ortográfica como tipográficamente (por casu, evitar dobles espaciaos o codificaciones estrañes) y, si quier da-y un usu profesional a la so traducción, revisar dempués el testu resultante. Si la traducción nun ye impecable, polo menos la máquina convierte’l procesu nuna pura revisión que permite trabayar el testu con más detalle.

-Tengo entendío qu’usaron la versión castellana de “L’orixe de les especies” de Charles Darwin pa probar el traductor…

-Probamos con tolo que se nos pon a tiru: prensa dixital, testos privaos o, como ye’l casu, exemplares de llibros que garrábemos de biblioteques dixitales. Como nun primer momentu contábemos con 2009 como fecha de presentación, pensemos que la obra de Darwin, nel so doble centenariu, yera una idea guapa. Amás yera una manera d’afirmanos públicamente, dende l’asturianu, nos valores humanísticos de la ciencia y frente a tou tipu d’oscurantismu. Foi emocionante cargar les sos quinientes páxines nel traductor y ver como en menos de mediu minutu lu devolvía nun asturianu bastante resultón.

-La páxina permite amás navegar peles webs en castellán, nuna torna inmediata al asturianu introduciendo una dirección na web d’Eslema, ¿van esistir aplicaciones pa añadir esti traductor al navegador y facer esta torna automáticamente?

-Incorporamos esa función na nuesa ferramienta pa facilita-y la traducción de webs al usuariu. Si funciona nel nuesu servidor, nun creo qu’haya nengún problema pa que col tiempu andando funcione nos ordenadores personales colos navegadores propios. En realidá, esti tipu de desarrollos nun son problema del nuesu equipu, que trabaya únicamente la cuestión llingüística. Ye una aportación personal del nuesu informáticu, Daniel Vicente Quílez, que polo demás meyora otres ferramientes asemeyaes que pueden vese perhí.

-¿Qué va suponer na so opinión la posibilidá d’usar Eslema pa la presencia de la llingua asturiana na rede?

-Desque’l traductor asturianu funcione socialmente, l’asturianu va pasar a tener na internet el mesmu nivel de funcionalidá que’l castellán. Y si se desarrollen otros pares de traducción (inglés, francés) esa funcionalidá va dir medrando esponencialmente. Presta pensar qu’una comunidá de fala a la que se-y suponen unos 300.000 falantes, nuna población mayormente avieyao y ensin alfabetizar nesta llingua, resulta que puede acceder, n’asturianu, a unos 10 millones de webs, ente elles instituciones internacionales, prensa con actualizaciones informatives al minutu, universidaes, centros d’investigación punteros, ociu, etc… Ya inversamente, cualquier sitiu web n’asturianu, les nueses biblioteques dixitales, etc… faise accesible dende tolos requexos del mundu. Si se piensa fríamente ye un cambiu de paradigma radical pal asturianu dientro de la sociedá global, non sólo a efectos prácticos de comunicación, sinón también, na mio opinión, nel tipu de planteamientos y reflexones que tenemos que faer sobre la llingua y lo que representa. Nun pon fin a los nuesos problemes, nin tanto, pero sí cambia unes cuantes regles de xuegu.

-Na páxina pueden vese tamién versiones un daqué menos remataes de tornes del y al inglés, euskera o catalán, ente otres llingües, ¿va siguir trabayándose nesi camín?

-Les versiones que colgamos actualmente na páxina son puramente testimoniales, mui básiques, pero marquen un camín pel que se puede siguir. Ye abondo pensar que con mui poco trabayu sobre elles, nun desmerecen muncho d’otros traductores que pueden vese per ehí.

-¿De qué plazos tamos falando?

-La fase actual de trabayu acaba nesti añu. De más allá nun sé qué dicir, nin siquiera creo que me toque dicir nada, porque nin depende de min nin tengo un especial empeñu en siguir dedicándome a estes coses que, en realidá, salen del ámbitu de la mio competencia profesional: nun soi informáticu. Ser, sí yera interesante siguir con esti tipu de desenrrollos, tanto de pares de traducción como d’aplicaciones complementaries.

-El proyectu ta abiertu a les suxerencies y correcciones de los usuarios, ¿va caltenese a lo llargo’l tiempu un caltenimientu y actualiación del proyectu?

-Lo dicho enantes: el mio horizonte acaba en 2010 y pa entós cuento que’l traductor castellán-asturianu-castellán va quedar básicamente plancháu, polo menos pa les tipoloxíes testuales más comunes. Si hai daquién dispuestu a siguir nello dende esa fecha, yera la cuenta, y tamién disponer de financiación pa ello, porque nun ye un trabayu que se faiga en ratos llibres y pide bien de dedicación y profesionalidá. Sicasí, cuando planteamos desarrollar esto como software llibre la idea nun yera solo facilitar l’accesu social a la ferramienta, sinón prever precisamente estes cuestiones poniéndola a la llibre disposición de tolos sos potenciales desarrolladores, independientemente de tou posible apoyu institucional o empresarial. Nesti sen, teníemos na mente dar un pequeñu cursín formativu sobre Apertium a xente interesao en desarrollar nuevos pares. Yá veremos.

-Pero Eslema nun ye namás un tornador, permite amás la l’analís morfolóxicu y sintácticu de frases, oraciones y testos n’asturianu estándar, ¿qué utilidá tien esta opción?

-Hai aquí dos coses distintes. Per un sitiu, xuncida al corpus, tenemos na nuesa web una ferramienta d’análisis gramatical que tamos mirando d’adaptar pa que l’usuariu se mande d’ella nos sos estudios llingüísticos. Ye una cosa pa filólogos, básicamente, que puede aplicase depués a la marcación de corpus o pal desarrollu d’utilidaes como’l traductor, correctores, diccionarios, … Y otra cosa ye, venceyada al propiu traductor (na opción “traductor avanzáu”) una serie de funciones que-y permiten igualmente analizar morfosintácticamente’l testu traducíu pa siguir asina’l mesmu procesu de traducción y poder detectar onde ta’l fallu, cuando esti se produz.

-Nel futuru y según anuncien na páxina, cualesquier interesáu va poder echar un gabitu nel desenvolvimientu del analizador coles sos observaciones y suxerencies, rexistrándose na web, ¿cómo va funcionar esti sistema de collaboración?

-Nel mesmu traductor dase un enllaz a un formulariu onde l’usuariu puede notificanos pallabres que falten, errates, suxerencies propies de traducción, etc… El conxuntu de suxerencies cárguense nuna tabla que revisamos continuamente y atendemos na midida de lo posible. De toes formes, nun podemos garantizar que vamos faer casu a toles recomendaciones, y menos si cuerre’l riesgu de colapsar la máquina.

-La presentación d’Eslema cuntó con una significativa representación de la Universidá d’Uviéu y la Conseyería de Cultura (el Rector y la Conseyera, ¿espeya esto un importante apoyu al proyectu per parte d’estes instituciones?

-Tien que tenese en cuenta qu’Eslema y el proyectu de Traductor son propiamente iniciatives distintes. Eslema ye un proyectu de la Universidá d’Uviéu que nel so momentu s’activó gracies a una ayuda del Ministeriu y que sentó una mínima base de llingüística computacional asturiana que nun había. El Traductor, que ye lo que se presenta, yá ye una llínea de trabayu derivada que foi asumida dafechu pola Conseyería de Cultura que ye la que financia la contratación de les cuatro persones que lu faen posible. La Universidá pela so parte asume un papel non menos esencial, por cuantes pon de la so parte tola infraestructura necesaria pal desenvolvimientu del trabayu (y ente ello, el pequeñu patrimoniu científico-técnicu d’Eslema), la coordinación y supervisión del mesmu, y, lo que me paez fundamental, da-y un sentíu formativu realmente importante a esos contratos al traviés del Vicerrectoráu d’Investigación. L’apoyu de les dos partes, en tou casu, ye decisivu. El traductor ye posible en bona midida pol enfotu personal de Consuelo Vega en sacar alantre esta ferramienta con tol potencial normalizador qu’ofrez. Si ye l’administración universitaria, el Vicerrectoráu d’Investigación ye la entidá que fai posibles les contrataciones de personal necesaries pal desenvolvimientu del proyectu y la que realiza tola xestión burocrática y económica del día a día. Amás d’ello, el proyectu foi acoyíu pol másimu interés pol equipu rectoral de Vicente Gotor como un dispositivu clave nes sos midíes de normalización llingüística dientro de la institución.

Tamién te podria gustar