Achtergrond
Project MinE is in 2014 begonnen, met het doel om gedetailleerde genetische gegevens te verzamelen (‘whole genome sequencing’) bij minstens 15.000 patiënten met ALS en 7.500 gezonde controle personen. Sinds die tijd is het gelukt om, mede door grote crowdfunding projecten, om tot meer dan 10.500 DNA profielen te komen, ongeveer 50% van het beoogde doel. Zelfs met deze 50% is er in Project MinE de afgelopen jaren al een aantal belangrijke mijlpalen bereikt:
De recente ontdekkingen betekenen dat inmiddels bij ongeveer 15% van alle patiënten een oorzakelijke genetische afwijking gevonden kan worden. Dit is cruciaal, omdat er een drastische verandering gaande als het gaat om het vinden van nieuwe therapieën. De afgelopen 150 jaar (in 1866 is ALS voor het eerst beschreven in de wetenschappelijke literatuur) is er gezocht naar nieuwe medicijnen met een ‘trial and error’ benadering, waarbij stoffen zijn gekozen zonder dat er veel harde aanwijzingen vooraf waren dat dit effect zou hebben. Dat heeft helaas geleid tot vele negatieve medicijnonderzoeken.
De laatste jaren wordt het mogelijk om DNA-afwijkingen gericht te behandelen. Het meeste bekende, en succesvolle voorbeeld is dat van spinale spieratrofie op de kinderleeftijd (SMA), dat ook een aandoening van de motorische zenuwcellen is. Binnen ALS zijn er nu concrete ontwikkelingen gaande voor patiënten met een SOD1 of een C9orf72 mutatie. De hoop is uiteraard dat alle genetische afwijkingen bij patiënten met ALS ooit gericht behandeld kunnen gaan worden. Om dit te bereiken moet Project MinE doorgaan, ook tot na 2019. Daarvoor is nu het Project MinE Beyond NL 2 gestart.
Doelen Project MinE Beyond NL 2
De belangrijkste doelen voor dit Project MinE Beyond NL 2 zijn: 1. Het systematisch verzamelen van externe whole genome sequencing data van ALS-patiënten en controles, wetende dat de grote crowdfunding acties van enkele jaren geleden zich niet zomaar doen herhalen. Dit is een grote uitdaging omdat er veel barrières zijn m.b.t. wet- en regelgeving, en ook technisch (grote data transfers) en analytisch (batch effecten). Het personeel dat wordt opgevoerd in deze aanvraag heeft hiermee veel ervaring en expertise.
2. Whole genome sequencing data komt in 2 vormen: de ruwe, grote data en een kleinere versie. Het laatste wordt door de meeste Project MinE partners gebruikt en is prima te hanteren op een gewoon computer cluster. De ruwe, grote data (.bam files) moeten op een supercomputer verwerkt worden. Het ALS Centrum in Utrecht is met name geïnteresseerd in deze data, aangezien hiermee gezocht kan worden naar specifieke genetische variatie zoals ‘repeat expansions’ en ‘structural variations’, wat niet met de kleine data variant kan. Ook C9orf72, de belangrijkste genetische afwijkingen bij ALS, is zo’n ‘repeat expansie’. Het personeel dat wordt opgevoerd in deze aanvraag heeft hier de unieke expertise.
3. Project MinE wordt gecoördineerd vanuit het ALS Centrum Utrecht. Dit betekent dat het ALS Centrum bijeenkomsten organiseert waar partners gegevens en ervaringen uitwisselen, de hosting en het onderhoud verzorgt van de website en de publieke databrowser, en de logistiek rond betalingen en opsturen van DNA-monsters voor het sequencen coördineert. Dit zal ook nodig zijn na 2019, en de kosten die hiermee gemoeid zijn, maken deel uit van deze aanvraag.
Een van de doelen voor het eerste jaar is om de DNA-profielen van externe partijen te downloaden naar de supercomputer van SURFsara. In januari hebben we daarom verschillende gesprekken georganiseerd met vertegenwoordigers van andere (grootschalige) DNA-projecten in de Verenigde Staten, SURFsara, Amazon web-services, en de Directie Informatietechnologie van het UMC Utrecht. Deze gesprekken zijn nog gaande, maar er is bijna een overeenkomst bereikt. In de tussentijd gaat het downloaden van gegevens van externe partijen door en heeft het totale aantal DNA-sequenties nu 35.838 bereikt (21.204 daarvan hebben al een kwaliteitscontrole gehad).
Een ander belangrijk doel is om de externe gegevens te integreren met de DNA-profielen van Project MinE. Deze integratie vereist enorm veel computerkracht, omdat alle data van zowel Project MinE als de externe profielen opnieuw moeten worden verwerkt. De verwerking hiervan ligt op schema (ongeveer ~70% van alle MinE profielen is nu verwerkt (zie ook figuur 1)). De verwerking van de externe data gaat van start zodra de eerdergenoemde gesprekken zijn afgerond. Door de integratie van de DNA-profielen kunnen we straks analyses doen van de volledige 3 miljard DNA-letters van elk profiel.
Ondertussen hebben we ook aanzienlijke voortgang geboekt met de integratie van “exome” data. “Exome”-data bevat alleen de 40 miljoen letters van het DNA waarvan de kans het grootst is dat ze afwijkingen bevatten met een hoge impact. Doordat de kosten voor “exome”-datasets daardoor goedkoper zijn, hebben we al data verzameld van ~50.000 mensen uit verschillende andere studies in Europa, Noord-Amerika, Azië en Australië.
Zoals we verwachtten, waren er tussen deze datasets behoorlijke verschillen in resolutie en kwaliteit. Het oplossen van deze verschillen is essentieel om te zorgen dat alle DNA-profielen ook echt vergelijkbaar zijn (waardoor “valse ontdekkingen” worden voorkomen). We hebben hiervoor nieuwe procedures geïmplementeerd en hebben nu een hoogwaardige integratie bereikt van 10.507 ALS-patiënten en 25.040 controles. Genetische analyses van deze gegevens zijn aan de gang.
Het tweede jaar van dit project heeft twee belangrijke doelstellingen die beide enorme hoeveelheden data nodig hebben en daarom een enorme computerkracht vergen. Beide doelstelling liggen nog op schema.
Het harmonisatieproces waarbij de data van externe DNA-databanken wordt opgeschoond en gestandaardiseerd zodat het vergeleken kan worden met de data uit Project MinE, loopt op schema. De grootste stap in het hele proces (het opnieuw ‘uitlijnen’ van de MinE genomen) wordt aan het einde van de maand afgerond. Daarnaast zijn 50.000 DNA profielen van de UKBiobank naar SURFsara geüpload en staan deze klaar voor integratie.
We zijn ook begonnen om de DNA-profielen voor te bereiden van >30.000 individuen die zijn geanalyseerd door verschillende projecten in de Verenigde Staten. In deze data zitten naast veel aanvullende profielen van ALS-patiënten, ook de zeer noodzakelijke profielen van controlepersonen.
De integratie van de enorme dataset uit de VS heeft verschillende technische en infrastructurele uitdagingen aan het licht gebracht. Deze uitdagingen hebben we onlangs opgelost. De belangrijkste stap daarin was de ontwikkeling van een cloud-based berekeningstool die noodzakelijke informatie tegen minimale kosten kon extraheren uit de dataset. Deze tool is ontwikkeld binnen een pilot-project geïnitieerd door SURF. Dankzij de berekeningstool ligt de verwerking van de data uit de Verenigde Staten nog steeds op schema.
MinE has now harmonized 14,620 whole genome and 7,815 whole exome data alignment files under the functional equivalence pipeline (Figure 1a). This includes data generated both by the MinE consortium and other collaborators in the field of ALS research. These numbers include new data, extending the final target sample size described in the figure of our previous progress report by 12,497 additional subjects.
New data are predominantly exome sequencing of ALS patients obtained from other sequencing projects (cohort WXS in figure 1), but also include almost 4,000 genomes generated by the NYGC ALS sequencing consortium (cohort US-2 in figure 1). As already described in our previous progress report, MinE previously secured access to additional sequencing datasets for large numbers of healthy controls, including 30,000 whole genomes and 50,000 whole exomes. These large external control cohorts also remain in place with no need for additional reharmonization by MinE.
The next phase of the project, “variant calling”, is where the identification of individual DNA changes is performed. This phase has been completed for 12,822/ 14,620 genomes and 7,806/7,815 exomes harmonized by MinE (Figure 1b). This phase has also been completed for all 50,000 external control exomes and ~30% of the external control genomes. Quality control analyses of all generated data identified a small percentage of samples (<0.5%) where errors occurred and a second round of data reprocessing was needed.
Pilot checks of the final data integration phase completed as expected for tested subsets of samples. A new compute environment, “SPIDER”, is now being piloted for analysis of MinE data files. This environment also exists within the security of the SURFsara supercomputing facility at Amsterdam, but aims to facilitate additional use of MinE data files by simplifying the level of technical expertise required.
Figure 1: MinE Beyond NL2 progress update for Q3, 2021. A) Harmonization of “alignment” data files has now been completed for 22,435 samples. B) Variant calling, which refers to the identification of DNA sequence changes, has been completed for 20,628 samples.
Project MinE is dankzij het project ‘Project Mine Beyond NL 2’ uitgegroeid tot een unieke internationale samenwerking van 20 landen. Het project wordt gecoördineerd vanuit het ALS Centrum Nederland en heeft mogelijk gemaakt dat alle genetische informatie toegankelijk is via SURFsara, de supercomputer in Amsterdam die groot genoeg is om alle gegevens die verzameld worden op te slaan.
De analyse van deze gegevens heeft een aantal belangrijke inzichten opgeleverd tot en met 2022: