miércoles, 22 de junio de 2011

¿De dónde vienen los niños?

- De París, supongo. Al menos eso se ha dicho siempre.

- Ya, claro. ¿Y los vídeos? ¿Ya sabe usted de dónde vienen los vídeos?

- Aaah, me pregunta por el trabajo. Qué bien traído, es usted muy astuto. Pues en ello ando, caballero.

- Cuénteme, cuénteme sus progresos.

- Pues estos días he estado mirando qué información puedo aprovechar para averiguar dónde fueron grabados los vídeos. Para empezar, he hecho un análisis del idioma en que están escritos el título, la descripción y los comentarios de cada vídeo.

- ¿A qué se refiere?

- Sí, mire por ejemplo este vídeo elegido al azar. Como ve, el vídeo suele tener un título (en este caso "Viaje por MADRID de Jon Urbieta"), una descripción ("Viaje realizado en el puente de Diciembre") y una serie de comentarios hechos por otros usuarios.

- Ya veo.

- La idea en la que ando trabajando es averiguar si el idioma en el que está escrito ese texto me da una pista de dónde está grabado el vídeo.

- Mmmm ... astuto, taimado, diría. Pero oiga, el tal Jontxu que ha colgado el vídeo este de Madrid, puede irse a Tailandia y colgar otro vídeo grabado allí, y escribirlo todo en castellano, con lo que su teoría se va al garete.

- Cierto, por eso le digo que es un análisis, puede que sirva o puede que no. Se trata de averiguarlo, como un primer paso.

- Pero oiga, ¿no es un coñazo tener que leerse todos los textos que acompañan a los vídeos estos?

- Sí, lo es, pero no lo hago yo, sino el ordenador. Recuerde que se trata de diseñar un sistema automático. Ahora mismo dispongo de todo el texto de un montón de vídeos, obtenido automáticamente sin ningún esfuerzo por mi parte.

- Es que ustedes los jóvenes, lo que quieren.

- Ya le digo.

- ¿Y cómo averigua en qué idioma está el texto?

- Pues de una manera muy sencilla. Seguramente no es la mejor, pero funciona razonablemente bien.

- Cuente, que me tiene sobre ascuas.

- Mire, de momento intento distinguir entre seis idiomas: español, inglés, francés, alemán, portugués e italiano. Lo que hago es ... mire, casi mejor no se lo cuento, no sea que me lean los de Google y me roben la idea.

- Hace bien, hombre prevenido vale por dos.

- Resumiendo, que he detectado en qué idioma está escrito el texto de cada vídeo, y luego he mirado en qué parte del planeta están grabados los vídeos cuyo texto está en cada uno de los seis idiomas que le digo.

- Ahá. ¿Y?

- Pues mire, en este mapa pongo una crucecita en cada punto de la Tierra donde hay un vídeo "en inglés":



- Caramba, están por todo el mundo.

- Exacto. Eso quiere decir que el hecho de que un vídeo sea en inglés no indica que esté grabado en una zona geográfica concreta. Para el español pasa algo parecido.

- Curioso.

- Pero mire qué pasa con el alemán:



- Oh, están casi todos los vídeos en una zona muy limitada.

- Ahí, ahí. La idea es que si detecto que el vídeo está en alemán, puedo tener una primera idea aproximada de la región en la que ha podido ser grabado.

- Interesante.

- Pero ya le digo, es una idea muy preliminar, tendré que hacer más experimentos para averiguar si puede servir para algo o no.

- Caramba, es usted un joven espabilado y de muslos bien torneados.

- ...

2 comentarios:

Anónimo dijo...

On the dialog nowadays research explaining for all the publics with high level reasonings. ;) bona revetlla!!

marta dijo...

Te han mirado los muslos????????