En el segundo capítulo vamos a analizar las plataformas y aplicaciones para la traducción digitial asistidas por AI, entre ellas Google Translator y Microsoft Translator. También veremos los desarrollos de las empresas Chinas como Baidu Fanyi,Sogou Fanyi, Youdao Fanyi y 讯飞听见 últimas dos que permiten además agregar subtítulos en tiempo real.
Métodos de traducción estadísticos
A menudo nos encontramos con situaciones en las que debemos usar el idioma inglés para poder comunicarnos, especialmente a la hora de viajar al exterior,lo cual representa un desafío para aquellos que no son muy fluidos en el idioma. Muchos de los que viajaban a China por negocios, decidían contratar a un traductor, pero la evolución de la tecnología ha generado canales alternativos y de excelente calidad, aunque no fue así en un principio.
Las primeras versiones de los traductores digitales no eran muy precisas, por ejemplo veamos la siguiente frase: “我说了算” ——wo shuo le suan. Si la traducimos caracter por caracter obtendremos “Yo dije calcular” cuando en realidad significa: “Yo tengo la última palabra”.
Entonces, ¿a que se debían esas impresiciones? Debido aque los primitivos métodos de traducción eran estadísticos, las frases se descomponían en palabras simples y luego se traducían una a una para convertir la oración al idioma de destino.
Estos sistemas de traducción estadísticos han atravesado distintas fases de desarrollo y podemos identificar tres tipos. El primero se basa en el concepto de palabra, se descompone una oración completa en palabras simples, se traduce una a una y se arma la nueva oración en el idioma a convertir. Este es el método más directo y en consecuencia algunas frases pueden resultar graciosas o sin sentido, como la que mencionamos en el párrafo anterior.
El Segundo método mejora el anterior, ya que combina las palabras simples en frases cortas, y puede asi traducir algunas frases comunes o dichos populares, mejorando la precisión.
El tercer y último método de traducción se basa en el análisis sintáctico, descomponiendo la oración en sujeto, predicado, objeto, atributo, adverbio y complemento que luego se reemplazan para generar una oración en el idioma a traducir. Sin embargo, aunque este es el más avanzado de los métodos estadísticos y se ha trabajado varios años para mejorarlo, no se han alcanzado las expectativas de los usuarios.
Las redes neuronales y el uso de AI
En septiembre de 2016, Google lanzó al mercado el primer traductor digital que usa redes neuronales, logrando una traducción inteligente que volvió a generar el interés de las personas al uso de esta tecnología. Los errores de traducción de palabras simples se redujeron un 50%, los de vocabulario un 17% y los gramaticales un 19%.
Con este resultado, el método de redes neuronales parece ser equivalente a la traducción humana. Este nuevo sistema de traducción digital ha permitido una traducción mas precisa y comprensible entre ambos idiomas, ya que si volvemos a la frase 我说了算,ahora el Google Translator nos va a devolver “Yo tengo la última palabra.”
Por otra parte el motor de traducción de Microsoft, también ha logrado un gran avance que se ve reflejado en la traducción de reportes de noticias. Sabemos que estos textos contienen temas de la sociedad, noticias de deportes, que incluyen un vocabulario muy natural lo cual representa una limitación para los traductores digitales, sin embargo en este aspecto Microsoft Translator ha logrado un nivel muy elevado y comparable con la traducción de una traductor humano calificado.
En el traductor digital de Microsoft, su inteligencia artificial refleja dos tecnologías, una es la dualidad de aprendizaje, ya que traducir de idioma chino a ingles y viceversa, es una estructura simétrica que les permite retroalimentarse mutuamente. Por otra parte, el uso de redes neuronales le permite al traductor digital aprender de manera contínua a través de las sucesivas traducciones que realiza e incluso refinar la traducción a partir de los reportes de noticias, alcanzando una alta calidad.
Aqui comparamos las traducciones de otras dos aplicaciones Chinas, Sogou y Youdao:
Las soluciones desarrolladas en China
Existen además muchos desarrollos de traductores chinos que utilizan Inteligencia Artificial, por ejemplo Youdao. Esta aplicación permite además traducir audio, y usar la cámara del cell para traducir el texto capturado en una imágen. Desde la web de Youdao, se puede subir un video y el algoritmo extrae el audio para traducir en tiempo real.
Pero los traductores no solo se limitan a traducir texto, tambien manejan audio y video. Vamos a ver algunas funcionalidades para insertar subtítulos en tiempo real. Para que aquellas películas o videos producidos en China pueda alcanzar una audiencia internacional es necesario agregar subtítulos, lo cual representa un enorme esfuerzo si quien lo hace es un grupo de personas.
La plataforma de videos de Youtube cuenta con un Sistema de subtitulado automático que le permite agregar texto al billón de videos disponibles en su site. Desde el año 2009 que Youtube comenzó a implementar el subtitulado automático en sus videos. En ese entonces, ellos utilizaron la tecnología de reconocimiento de voz, aunque solamente aplicó a idioma inglés y la calidad era relativamente baja.
Sin embargo a partir de la incorporación de Inteligencia Artificial aplicado al reconocimiento de voz, la calidad de los subtítulos ha mejorado sustancialmente. El uso de esta tecnología ha permitido además la traducción de los subtítulos en tiempo real y a varios idiomas. De esta forma podemos compartir nuestros videos en la web y agregar subtítulos en el idioma original o traducirlos para ampliar la audiencia, todo de forma automática y con una calidad comparativamente elevada.
Para ello desde Daily sugerimos el uso de estas dos aplicaciones (solo en idioma chino)
Les dejamos un video que muestra como el motor de AI de Youdao ha agregado los subtítulos en inglés y chino de forma automática:
Fuente del artículo: Webinar AI profesor 陈斌——北大 hacer click aquí.
Texto original en idioma Chino, extraido con el uso de 讯飞听见 con un 95% de precisión, solo tuvimos que hacer pequeños ajustes:
Hi,欢迎回来。我们继续来看看我们身边的人工智能,这一次我们讨论的话题是人工智能的机器翻译,那么在这一节当中,我们会介绍谷歌的翻译的智能化以及微软公司的机器翻译,还有国内的一些翻译的软件,以及最后这个机器翻译在我们实时的视频字幕里头,它的应用是什么样的?
那么首先我们来讨论一下机器翻译,我们在生活和工作当中都少不了要接触到很多的英文,尤其是当你出国旅旅行的时候,那么更多地会看到这些英文,那么这个我相信对于英文不是特别流利的朋友来讲,是一个挑战。
那么这样,以前我们需要借助我们的翻译者,那么现在我们就可以借助机器翻译来为你传送这些信息。当然了在以前的时代,这个翻译有时候也会闹笑话,尤其是机器翻译,比如说我们这句话叫“我说了算”,但如果说你把汉语逐字的进行替换的话,那么我们就看到一个很奇怪的英文,”我I说said算”那么算calculation他以为是计算的意思,所以这个实际上也体现了我们人工人类的自然语言的丰富多彩的多样性.
那么为什么会出现这样的笑话呢?因为旧时候的翻译的方法主要是基于统计的机器翻译,这种的方法它把两种语言当中同义的句子都切分成词,然后根据词来进行匹配,这样才能够把英文变成了中文,或者说反过来把中文变成英文。那么所以所有的这些结论都是机器通过统计数据来得出来的。
那么对于统计的机器翻译的来说,还有经过它的不同的发展阶段,有不同的类型:第一个类型是基于词,我们把一段完整的句子分解成一个一个的最小的单词,然后在进行单词的替换,当然这个是最直接的想法,当然也会是最直接闹笑话的想法。刚才我们看到了,我说了算,基于词的翻译的这种产物。
那么第二种就会把词他更进一步把词进一步地组合成短语,那么这种包含了几个单词的这种短语,就能够更加的表达一些成语或者说一些常见的用法,所以它能够提高一些准确性。
那么最后是一个基于句法的翻译,那么在这种翻译的技术里面,它是对于一个句子来进行一个句法的分析,把主谓宾定状补把它都分解出来,然后再用相同的其他语言当中的句子来去替换它。所以最后基于句法的规则的翻译是基于统计机器翻译的一个最高的阶段,当然我们还会有其他很多的辅助的技术加进去,加进去。但是人们发现经过了多年的努力之后,这种方法它仍然效果没有达到预期那么理想。
正当人们陷入了一个很失望的状态的时候,那么在2016年的9月,谷歌公司宣布了用神经网络进行机器翻译的产品,那么这种的智能翻译可以说是一种一个强大的颠覆,使人们对于机器翻译又重拾起很多的信心,它能够使得这个单词的错误减少50%,词汇错误减少17%,而语法的错误也能够减少到减少原来的19%。
那么整个的结果看起来它是相当于逼近于人工的翻译的,那么这种全新的机器学习的翻译系统,就在我们的谷歌的Traslator这个产品里头全面启用中文翻译英文,那么这个翻译的结果就更加的通顺流畅。 同样是我说了算,这一句它再也不回到原来的笑话,而是翻译的比较精确的叫做I have the final say。就是说最后是由我来说了。说话我说了算的。那么对于一些新闻的这种翻译,也是能够做的非常的接近。人工翻译的这种成果。
当然除了谷歌公司,那么微软公司它的机器翻译的产品也人工智能的产品也得到了很大的进展,他们的进展主要体现在通用的新闻报道的翻译上。我们知道新闻报道,包括社会的事件,包括体育的新闻,这些报道它体现了人的自然语言的一些有一些限制的这种自然语言。那么在在这些报道之上,微软的机器翻译系统的基本上能够达到和人工翻译媲美的这种水平。那么所以我们可以说微软的这种翻译系统,他是第一个。在新闻报道的翻译质量和准确率方面,都可以比肩人工翻译的一个翻译系统。
那么在微软的机器翻译当中,他的人工智能体现在他提出了两个技术,一个是对偶学习,那么他们认为说中文翻译成英文,和英文翻译成中文,这两个任务它存在着某种对称和对偶的结构,所以这两个任务可以相互的提供反馈的信息,来互相提高。所以再进一步他推出了推敲网络,在神经网络之上,在一个翻译的任务完成之后,它机器可以继续学习,反复的继续的进行推敲,而且它能够基于前一阶段的翻译结果来进行对新闻报道翻译结果进行润色,以达到更高质量的结果。
当然我们国内也有很多智能翻译的产品,比如说像有道翻译官,他能够做语音对讲翻译,也可以通过手机的摄像头拍照,然后对识别文字进行翻译。比如说网易的见外,它可以在视频当中提取语音来进行实时的翻译。
那么最后我们看看机器翻译的一个很典型的应用,就是实时的视频字幕。我们知道很多的外文的电影或者影视作品,要让中国的一般的观众要能要看得懂的话,那么就必须要加上字母。那么通常都是有字幕组,他付出了辛勤的劳动去进行人工的翻译。
那么但是在我们说最大的视频分享网站Youtube,他就出现了自动的字幕,也就是说不需要人工去进行添加字幕了。那么在YouTube超过10亿个的线上影片的字幕都是由系统自动产生的。
那么实际上Youtube从2009年开始,它就已经启动了自动字幕,那么当时它是用语音识别的技术来生成英文字幕,但是仅仅是生成英文的字幕,而且生存的质量还不是那么的高。那么随着人工智能的语音识别技术发展之后,那么在Youtube上自动英文字幕,就大幅度的提高了识别的准确率。那么而且在机器翻译技术的支持和发展之下,它可以把识别的英文字幕当中的英文进行实时的翻译成中文、法文、西班牙文等等的所有的这些非英文的字幕。
这样我们在视频共享网站上就能够看到并不需要人工来操作,就可能看到各种语言的这种字幕。而且我们可以看到这些字幕的产生的质量还是相当的高的。