miércoles, 20 de julio de 2011

Háblame del mar, marinero

- ¿Disculpe?

- Que me hable de su trabajo, jovenzuelo

- Aaaah, por un momento había pensado que se había convertido en la Pantoja de Puerto Rico

- ¿Y eso?

- ¿Ve? Lo que le decía ...

- ¿Cómo?

- Nada, déjelo, cosas mías. Pues el trabajo bien, mejorando, porque ha habido unos días chungos

- ¿Cómo así?

- Pues nada, que estoy aprendiendo a lidiar con conjuntos de datos enormes, y los problemas que eso supone

- ¿Qué problemas?

- Para que se haga una idea, cuando hice la tesis trabajé, como mucho, con conjuntos de datos formados por 10000 objetos. Pues aquí estoy trabajando con millones de objetos (vídeos, en este caso)

- ¿Y eso qué supone?

- Pues básicamente que la manera de abordar los problemas tiene que cambiar radicalmente. Cuantos más datos tienes, más le cuesta al ordenador procesarlos. Diseñar un sistema que tiene que procesar millones de datos con la misma filosofía que si tuviera que procesar unos pocos miles es comprar un billete hacia el fracaso

- Qué poético. ¿Y le ha pasado eso a usted?

- Pues sí. Digamos que después de tener al ordenador procesando datos sin parar durante cuatro días, le ha dado un patatús. Y eso que es una señora máquina: procesador de 64 bits, 8 GB de RAM, 2 TB de disco ... Un pepinazo

- Mmmm, me gusta cómo suena esa palabra en su boca

- ¿Perdón?

- Nada, nada, cosas mías. Así que todo el trabajo de cuatro días a la basura, ¿no?

- Pues sí. A la puta basura. Suerte que le he comentado mis problemas a un compañero, y entre los dos hemos encontrado una solución alternativa mucho más eficiente. La he desarrollado y mañana la probaremos, pero confío en que funcionará

- Estupendo

- Pues sí, creo que puedo decir que me ha quedado la mar de bien. Distancias geodésicas a mí, ¡¡ja!!

- Oiga, oiga, que desde que está en Londres le noto un poquito subidito. A ver si nos relajamos, ¿eh?

- Y espere a que aprenda a conducir por la izquierda sin chocarme con nadie, entonces no me va aguantar ni Rita la Cantaora de lo chulito que me voy a poner

- Pues ya se puede ir olvidando de mí ...

- Perdone, la verdad es que llevaba unos días un poco agobiado y me he quitado un peso de encima. Disculpe si le ha parecido que se me habían subido los humos

- Disculpas aceptadas. Y si tiene un exceso de humos, yo le podría ampliar el escape con mucho gusto ...

- ...

2 comentarios:

Lluís Formiga dijo...

Y en que se basa la técnica?

XaviS dijo...

Submostrejar (com vam parlar) el dataset no és fàcil, perque necessites que la mostra garanteixi una cobertura geogràfica decent (treballo amb coordenades geogràfiques, crec que ja ho saps). Per mirar de garantir-la vaig prendre una mostra prou gran, però encara era massa gran per a clusteritzar-la jeràrquicament (la nostra idea era mapejar els vídeos a etiquetar sobre aquests clusters). Ara el que fem és fer una cerca "online", sense un clustering previ. Ja t'ho explicaré amb més detall, no cal avorrir a la penya, jejeje