Beschrijving
Deze thesis situeert zich in het onderzoek naar de genetische diversiteit in kandidaatgenen van de MAX pathway die de plantenarchitectuur controleren in Lolium perenne. Voorafgaand aan de thesis werd voor L. perenne een Next Generation Sequenering (NGS) transcriptoomdataset van 14 verschillende genotypes opgesteld. Uit deze dataset moeten Single Nucleotide Polymorfismen (SNPs) en Deletie/Insertie Polymorfismen (DIPs) worden geselecteerd voor gebruik als moleculaire merkers in associatie genetica. Eerst werden orthologen van 8 kandidaatgenen in de MAX pathway (MAX1, MAX2, MAX3, MAX4, TCP1, TCP2, TCP3 en D14) geselecteerd in het L. perenne transcriptoom via fylogenetische analyse. Deze kandidaatgenen worden gebruikt als trainingset om bio-informatica procedures en parameters op punt te stellen, en een eerste indicatie te geven van de genetische diversiteit in de L. perenne transcriptoomset. Vervolgens werden fragmenten van deze kandidaatgenen PCR-geamplificeerd, gekloneerd en Sanger-gesequeneerd in de 14 NGS genotypes, en de allelische varianten geanalyseerd voor SNPs en DIPs. Deze dataset werd gebruikt voor de validatie van de in silico gereconstrueerde transcriptsequenties uit de NGS-dataset en de evalutie van de parameters voor automatische SNP-identificatie.
Analyse van de allelische diversiteit in de kandidaatgenen toont een hoge graad van nucleotidendiversiteit. Voor MAX1 en MAX4 worden een aantal unieke allelen gevonden die sterk afwijken van de major allelen en daarmee sterk bijdragen aan de SNP-dichtheid per gen. De SNP-dichtheden variëren van 2,84/100 bp (MAX4) tot 8,39/100 bp (MAX1) gemeten tussen alle allelen over de gehele gensequentie (intron+exon); of van 1,10/100 bp (MAX4) tot 4,0/100 bp (MAX3), gemeten enkel tussen major allelen in exonsequenties. Inserties/deleties worden enkel in introns of UTR?s gevonden en met lagere frequentie (0,06/100bp (MAX1) tot 0,39/100bp (MAX4) voor major allelen).
Het gebruik van standaard (stringente) read mapping en SNP-detectie parameters leidde tot het splitsen van allelen tijdens CAP3-clustering, en relatief hoge percentages vals negatieve SNPs. Dit toont aan dat de hoge graad van allelische diversiteit in L. perenne genen vraagt om een verlaging van de stringentie om de verschillende allelen te kunnen aligneren tijdens clustering, om reads correct te mappen en SNPs te identificeren. Een verlaging van de stringentie maakt het echter tegelijkertijd ook moeilijker om paralogen van allelen te onderscheiden, hetgeen kan leiden tot vals positieve SNPs.
De hoge dichtheid van SNPs kan daarnaast interfereren met het ontwerpen of uitvoeren van moleculaire (genotyperings) testen omdat bij SNP-analysen primer/probe bindingsplaatsen vrij moeten zijn van flankerende SNPs. Deze thesis illustreert de relatie tussen allelische diversiteit en het effect van parameters voor bio-informatica procedures (de novo assembly, clustering, read mapping, SNP-identificatie) en legt daarmee de basis voor automatische SNP-identificatie in het complete L. perenne transcriptoom.
Periode | 2010 → 2011 |
---|---|
Gehouden op | Hogeschool Gent, departement Toegepaste Ingenieurs Wetenschappen, België |