Case study

Solynta

wat kunnen wij voor je doen

“Op het moment dat je tegen een deadline aan zit te werken, genoeg rekenkracht tot jouw beschikking hebben kan dat nét even sneller een nieuw ras op de markt zijn en dat is natuurlijk van levensbelang. Cambrian, met alles wat er in de wereld te koop is in cloud computing, is een hele waardevolle partner.”

De klant
Solynta is een aardappelveredelingsbedrijf met een unieke hybride veredelingstechniek; daarmee maakt Solynta het mogelijk om aardappels te telen vanuit zaden in plaats van uit pootaardappelen, zoals nu de standaard is. Om een hectare te telen heb je 25 gram zaad nodig in plaats van 2500 kilo pootgoed.
De uitdaging

De innovaties van Solynta leunen op het werk van bioinformatici die het DNA en de genen van aardappelplanten analyseren. De bioinformatici verwerken zeer grote hoeveelheden data en staan voortdurend voor twee uitdagingen. Ten eerste zijn de gegevensvolumes zodanig dat gegevens niet op hun werkstation of op traditionele servers kunnen opgeslagen worden. Een dataopslag infrastructuur moet worden gebouwd, onderhouden en tegelijkertijd opgeschaald naar steeds grotere formaten. De tweede uitdaging is dat de verwerking van deze gegevens in bursts gebeurt. Wanneer “jobs” moeten draaien, wil je de verwerkingstijden minimaliseren om wachttijden van de bioinformatici te minimaliseren. Idealiter zou je voor elke berekening de juiste machine willen hebben, maar de juiste inrichting verschilt per analyse en dataset. Zelfs als je een machine koopt die aan alle deze vereisten voldoet, is dat economisch niet rendabel aangezien de machine niet constant benut wordt.

Een ander soort uitdaging die naar voren is gekomen, naarmate Solynta groeit, is dat andere Solynta gebruikersgegevens willen consumeren die door de bioinformatici zijn gegenereerd. Hiervoor hebben de bio-informatici binnen Solynta applicaties voor interne consumptie gebouwd. Het ontwikkelen, implementeren en onderhouden van software introduceert een nieuw type complexiteit voor bioinformatica onderzoekers. Er komt veel bij kijken bij het bouwen en onderhouden van een software repository. Het compileren van code, beheren van software dependencies, inrichten van de infrastructuren inzetten van software kost veel tijd. Dit is niet de kerncompetentie van bioinformatica wetenschappers en al deze complexiteit begint behoorlijk wat tijd van de onderzoekers te eisen. Daarnaast is het ook een oorzaak van constante onderbrekingen en continue context wisselingen voor hen.

De oplossing

Genomics gegevens zijn naar een data-lake in AWS verplaatst met Amazon S3 voor gegevensopslag. Het data-lake biedt oneindig schaalbare opslag met rijke functionaliteit die intelligente tiering en back-ups mogelijk maakt. De verwerking van gegevens is verplaatst naar containers met daarin alle tooling die door de bioinformatici wordt gebruikt. Het aanmaken van een container in AWS is gescript zodat een onderzoeker de grootte van een container kan selecteren en de container binnen enkele minuten automatisch kan laten bouwen. Zodra een berekening is voltooid, wordt de container vernietigd.

De applicaties die door bioinformatici zijn gebouwd voor breder gebruik binnen Solynta, zijn gemigreerd naar een CICD-pijplijn. Nadat een nieuwe versie van de software in de software repository is vastgelegd, wordt een nieuwe versie van de applicatie gebouwd in een container, inclusief alle vereiste software dependencies en toegang tot S3 of databases zoals mySQL die op de AWS RDS-service draaien. Daarnaast wordt SAML2-integratie met OKTA inbegrepen om veilige toegang tot de applicaties te garanderen. Ten slotte worden de applicatie containers beheerd door de AWS Fargate containerbeheer service. Met Fargate is blauw-groene deployment out-of-the-box beschikbaar en wordt de gezondheid van de containers continu gemonitord.

De resultaten

Het opslaan van genomics gegevens op een platform met onbeperkte capaciteit waar je alleen betaalt voor wat je gebruikt, bespaart tijd en biedt veiligheid en gemoedsrust. Data kunnen verwerken met schaalbare rekencapaciteit, die afhankelijk is van de analyse en dataset, en tegelijkertijd alleen betalen voor wat je gebruikt, houdt wachttijden tot een minimum en versnelt innovatie. Bovendien geeft het scripten en beheren van de infrastructuur, door middel van code, vrijheid van handelen aan de bioinformatici en stelt hen in staat om onafhankelijk van de Cambrian cloud engineers te werken.

Op het gebied van softwareontwikkeling is al het zware werk geautomatiseerd. Elke toepassing draait in geïsoleerde containers, waardoor dependency conflicten worden geëlimineerd. Het bouwen en implementeren van nieuwe versies is volledig geautomatiseerd en zelfs het risico dat een niet-functionerende versie online wordt gebracht, wordt beperkt door het gebruik van blauw-groene deployments. Deze verbeteringen besparen de wetenschappers aanzienlijke veel tijd en zorgen tegelijkertijd voor veiligheid en hoge beschikbaarheid van de applicaties voor de gebruikers.

Onze partners
Scroll naar top