Für alle, die mal wissen wollen, in welchen Dimensionen Google rechnet, kann sich in diesem
Artikel über die “Google I/O”-Conference erleuchten lassen. Highlights sind:
Dean seemingly thinks clusters of 1,800 servers are pretty routine, if not exactly ho-hum.
Oder auch:
In each cluster’s first year, it’s typical that 1,000 individual machine failures will occur; thousands of hard drive failures will occur; one power distribution unit will fail, bringing down 500 to 1,000 machines for about 6 hours; 20 racks will fail, each time causing 40 to 80 machines to vanish from the network; 5 racks will “go wonky,” with half their network packets missing in action; and the cluster will have to be rewired once, affecting 5 percent of the machines at any given moment over a 2-day span, Dean said. And there’s about a 50 percent chance that the cluster will overheat, taking down most of the servers in less than 5 minutes and taking 1 to 2 days to recover.
Diese Ausfälle sind jedoch - zumindest auf Storageebene - kein Problem für Google, denn ihr eigenes verteiltes Dateisystem GFS hat für solche Fälle eine feine Fehlerbehandlung:
GFS stores each chunk of data, typically 64MB in size, on at least three machines called chunkservers; master servers are responsible for backing up data to a new area if a chunkserver failure occurs. “Machine failures are handled entirely by the GFS system, at least at the storage level,” Dean said.
Und wenn man genügend Rechner abnimmt (laut nicht von Google autorisierten Schätzungen mehrere hunderttausend Rechner), dann baut Intel auch spezielle Mainboards, so daß die Probleme, die mit konventionellen 19-Zoll-Racks einhergehen, durch speziell gebaute Racks umgangen werden können. Das ist allerdings keine Magie, denn andere machen das auch so (1&1, soweit ich mich erinnere, hatte vor Jahren komplett eigene Gehäuse, um die Rechnerdichte auf mehr als 1 Server pro HE zu bringen).
Ich denke, wir werden noch ein bißchen üben müssen, bis wir in diese Größenordnung vorstoßen.
(via
fefe)