Naar content

MIT-professor verlegt de grenzen van computing met het grootste cluster dat ooit is gemaakt in de openbare cloud

Door met Google Compute Engine de L-Functions and Modular Forms Database (LMFDB) te beheren, breekt theoreticus op het gebied van numerieke getaltheorie en hoofdonderzoeker Andrew V. Sutherland van MIT zijn eigen high-performance computingrecord, door 580.000 cores te gebruiken.

Loop een gemiddelde wiskundefilosofieles binnen en je hoort mensen praten over 'objecten'. Objecten zijn eigenlijk alles waarop je wiskunde kunt uitvoeren, zoals getallen en functies, of de resultaten van wiskundige berekeningen, zoals curves. De L-Functions and Modular Forms Database (LMFDB) is een uitgebreide atlas van objecten en de verbindingen ertussen. LMFDB is een samenwerkingsprogramma tussen internationale onderzoekers. Het wordt aangestuurd door een internationaal team van onderzoekers op universiteiten in Europa en Noord-Amerika, waaronder MIT.

Je hele visie op onderzoek verandert wanneer een vraag binnen enkele uren in plaats van maanden wordt beantwoord.

Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT

Gegevens delen met andere onderzoekers

LMFDB brengt wetenschap vooruit, omdat onderzoekers veel eenvoudiger gegevens over objecten kunnen delen met natuurkunde-, informatica- en wiskundeonderzoekers over de hele wereld. Sommige berekeningen waarmee de objecten worden gemaakt, zijn zo complex dat slechts een paar mensen op de wereld deze kunnen uitvoeren. Andere berekeningen zijn zo groot, dat ze het beste maar één keer moeten worden uitgevoerd, omdat ze zo veel tijd en geld kosten.

Het team dat LMFDB uitvoerde, had een cloudservice nodig die voldeed aan de groeiende opslagvereisten. Om een voorbeeld te geven: het heeft bijna 1000 jaar aan rekentijd gekost om de objecten in LMFDB te maken. Buiten het grote opslagprobleem was er het probleem van de schaal. LMFDB is voor iedereen beschikbaar via lmfdb.org, dus het project moest kunnen worden geschaald om de ontelbare zoekopdrachten aan te kunnen die er dagelijks in werden uitgevoerd. Daarnaast is LMFDB een samenwerkingsproject. Daarom had het team een systeem nodig dat mensen in verschillende landen eenvoudig konden gebruiken.

Concentreren op onderzoek, niet op infrastructuur

Het LMFDB-team vergeleek verschillende cloudoplossingen. Uiteindelijk kozen ze voor Google Cloud omdat dit goede prestaties levert, automatisch kan worden geschaald, eenvoudig is in het gebruik en betrouwbaar is.

Een van de hoofdonderzoekers van LMFDB en een van degenen die besloten welke oplossing zou worden aangeschaft, is Andrew V. Sutherland, wiskundeprofessor, theoreticus op het gebied van numerieke getaltheorie en hoofdonderzoeker bij MIT.

"We zijn wiskundigen. We willen ons concentreren op ons onderzoek en ons geen zorgen hoeven te maken over problemen met de hardware of het schalen van de website", zegt Sutherland.

Sutherland en de rest van het LMFDB-team besloten de webservers te hosten op Google Compute Engine (GCE) en Google Persistent Disk en mirrorden MongoDB-databases om een halve terabyte aan online gegevens en drie terabytes aan gegevens die minder vaak nodig waren, op te slaan. Met deze installatie kan LMFDB hun onderzoek schalen en berekeningen en wiskundige objecten snel ophalen wanneer de onderzoekers deze nodig hebben. LMFDB gebruikt ook een aantal Google Cloud-tools waarmee onderzoekers over de hele wereld eenvoudiger kunnen samenwerken aan het beheer van de database. Ze gebruiken bijvoorbeeld Google Stackdriver, Google Cloud Console en Google Cloud Load Balancing.

Sutherland had een bijzonder complexe berekening die hij moest uitvoeren en opslaan in LMFDB. De berekening was zo enorm, dat er veel meer rekenkracht nodig was dan ooit eerder was gebruikt in de openbare cloud. Sutherland koos voor GCE en voerde 580.000 cores uit op verwijderbare virtuele machines: het grootste high-performance computercluster dat ooit in de openbare cloud is uitgevoerd.

De berekening kwam met 70.000 verschillende curves terug, elk met een eigen invoer in de LMFDB. Het vinden van slechts één van die curves is al een enorm complexe taak, waarvoor veel berekeningen zijn vereist. "Het is alsof je een speld zoekt in een hooiberg met vijftien dimensies", zegt Sutherland.

Voordat Sutherland GCE ging gebruiken om de berekeningen uit te voeren, deed hij dit op zijn eigen computer met 64 cores, wat veel te lang duurde. Zijn enige alternatief was om rekentijd aan te vragen op de clusters van MIT, maar dit was moeilijk te krijgen en werkte maar met een beperkt aantal softwareconfiguraties. Met GCE kan hij zo veel cores gebruiken als hij nodig heeft, de juiste besturingssystemen, bibliotheken en apps installeren en de omgeving updaten wanneer hij wil.

Dankzij de schaalbaarheid die LMFDB heeft met Google Cloud, kan iedereen, van student tot onderzoeker, eenvoudig zoeken en bladeren in de LMFDB-content via een webinterface. Sutherland geeft bijvoorbeeld les over elliptische curves en zijn studenten gebruiken LMFDB om hun huiswerk te maken.

Geld besparen bij het uitvoeren van enorme berekeningen

Veel onderzoekers en onderwijsinstellingen hebben een beperkt budget. Met Google Cloud kunnen ze echter grote berekeningen uitvoeren voor een redelijke prijs. Met de verwijderbare virtuele machines van GCE die Sutherland gebruikt, kan hij de kosten laag houden, maar toch zeer complexe berekeningen uitvoeren. Deze volledig uitgeruste machines kosten tot 80 procent minder dan de reguliere alternatieven, omdat ze kunnen worden onderbroken door GCE. Onderbrekingen van de berekeningen hebben geen grote gevolgen voor de prestaties. Gemiddeld wordt slechts twee tot drie procent van de instanties onderbroken in elk uur aan berekeningen, en deze worden automatisch opnieuw gestart door een script totdat alle berekeningen klaar zijn. Er gaat dus weinig tijd verloren. Door deze kleine onderbrekingen voor lief te nemen, kan Sutherland enorme berekeningen uitvoeren tegen lage kosten en praktisch zonder vertragingen.

We brengen de wiskunde van de 21e eeuw in kaart

Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT

Meld je hier aan voor onder andere updates, inzichten en bronnen.