el porder de google

En Google nos son fanáticos sobre la organización de la información del mundo. Como resultado de ello, nos gastamos un montón de tiempo para encontrar mejores maneras de ordenar la información MapReduce usando, un componente clave de nuestro software de infraestructura que nos permite ejecutar varios procesos simultáneamente. MapReduce es una solución perfecta para muchos de los cálculos corremos a diario, debido en gran parte a su sencillez, aplicabilidad a una amplia gama de mundo real tareas de computación, y la traducción natural altamente escalable para implementaciones distribuidas que aprovechar el poder de miles de ordenadores . En nuestra clasificación de los experimentos que han seguido las normas de una norma terabyte (TB) tipo de referencia. Normalizada de experimentos nos ayudan a comprender y comparar las prestaciones de diferentes tecnologías y también añadir un espíritu competitivo. Usted puede pensar de ella como un evento olímpico para los cálculos. Empujando los límites de estos tipos de programas, aprendemos acerca de las limitaciones de las tecnologías actuales, así como las lecciones útiles en el diseño de la próxima generación de plataformas informáticas. Esto, a su vez, debe ayudar a todo el mundo tienen un acceso más rápido a información de mejor calidad. Estamos muy emocionados de anunciar estuvimos en condiciones de tipo 1 TB (almacenada en el sistema de archivos de Google de 10 millones de 100-byte sin registros en los archivos de texto) en 1000 ordenadores en 68 segundos. En comparación, el anterior registro de clasificación de 1 TB es 209 segundos en 910 equipos. A veces es necesario ordenar más de un terabyte, de modo que tenía curiosidad de saber lo que sucede cuando usted más suerte y le dio un petabyte (PB) a intentarlo. Uno es un petabyte mil terabytes, o, para poner esta cantidad en perspectiva, es 12 veces la cantidad de datos archivados web en los EE.UU. Biblioteca del Congreso de mayo de 2008. En comparación, considere la posibilidad de que el tamaño total de datos procesados por todas las instancias de MapReduce en Google se 20PB en promedio por día en enero de 2008. Se tardó seis horas y dos minutos para ordenar 1PB (10 billones 100-byte registros) en 4000 ordenadores. No somos conscientes de cualquier otro experimento de clasificación en esta escala y son obviamente muy emocionados de ser capaces de procesar tantos datos con tanta rapidez. Una pregunta interesante surgió mientras ejecuta experimentos en esa escala: ¿Dónde poner 1PB ordenada de datos? Fuimos por escrito a 48.000 unidades de disco duro (no aprovechar plenamente la capacidad de estos discos, aunque), y cada vez que ejecutamos nuestra especie, por lo menos uno de nuestros discos conseguido romper (esto no es en absoluto sorprendente habida cuenta de la duración de la prueba, el número de discos implicados, y la esperanza de vida de los discos duros). Para asegurarse de que mantiene nuestro ordenada petabyte caja de seguridad, hemos pedido a los Sistema de archivos de Google para escribir tres copias de cada archivo a tres diferentes discos. Mejoró significativamente el manejo de la llamada "rezagados" (partes de computación que van más lento de lo esperado) fue una técnica de software clave que ayudaron a ordenar 1PB. Y, por supuesto, hay muchos otros factores que contribuyeron al resultado. Vamos a estar discutiendo todo esto y más en una próxima publicación. Y también puedes ver el vídeo de nuestra reciente Mesa Redonda de Tecnología de la serie. http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html