Home - florianhiemer/BachelorArbeit GitHub Wiki

Oktober

class: AnalyseAssembly

Die Main-Methode benötigt den File-Namen und das Thelomer-Motiv nach dem gesucht werden soll. Beim Motiv ist die Anzahl der Treffer abhängig von der Anzahl der Wiederholungen (Anzahl nochmal überdenken !).

checkTelomere

Die Methode durchläuft die Datei und ruft für jedes Contig die Methode "searchTelomere" auf. Die Sequenz wird jeweils nur für ein Contig in einem StringBuffer gespeichert und danach aus Effizienzgründen wieder gelöscht.

searchTelomere

Die Methode bekommt die Contig-Sequenz und das Muster für die Telomere. Die Sequenz wird auf das Muster hin überprüft. Liegt das Muster am Ende der Sequenz (bis zu 3000bp von den Enden)(3000 willkürlich gewählt!), dann wird der Startpunkt und die dazugehörige ID in einem Hash abgespeichert.

Oktober

Herausfiltern von Mitochondrialer DNA von Armilliaria:

Finden von nah verwandtem Organismus, dessen Mitoch. DNA bekannt ist:

Topologie finden:

mit http://www.indexfungorum.org/Names/NamesRecord.asp?RecordID=119294 nach Herkunft von Armillaria suchen
mit http://tolweb.org/Agaricales/20551 den Stammbaum/Topologie tree gesucht (Ende bei physalacriaceae)

Für nah verwandte Organismen habe ich keine Mitoch. DNA gefunden. -> Verwendung von Cryptococcus neoformans (Familie: Basidiomycota)

Mitochondriale DNA von Cryptocc. finden:

GenBank: http://www.ncbi.nlm.nih.gov/nuccore/CP003834.1

RefSeq: http://www.ncbi.nlm.nih.gov/nuccore/NC_018792.1

Mit Blast das Assembly von Armillaria nach Übereinstimmung mit der mitoch. DNA von Crypt. suchen

Einrichten von Blast:

./bashrc editieren bzw. in die Console eingeben: export PATH=$PATH:/home/florian/Desktop/Bachelorarbeit/Code/ncbi-blast-2.2.28+/bin

-beim ausführen zuvor bash eingeben!

-Datenbank (das Assembly von Armillaria) erstellen: makeblastdb -in file-name -out my_db -dbtype nucl

-Ausführen: blastn -query sequence.fasta -db my_db

Bestimmung der Telomer-Sequenz von Armillaria:

Alle bekannten Fungi- Motive der Motiv-Liste für Telomer-Sequenzen wurden ausprobiert. Motiv von Cryptococcus neoformans ergab beste Treffer (Stimmt mit den oben genannten Überlegungen überein)
Evtl. mit Repeat Masker und Tandem Repeat Finder nach Motiv suchen (siehe Composition and organization of active centromere sequences in complex genomes)

TandemRepeatFinder:

Assembly (besser wäre wohl reads) mit TandemRepeatFinder laufen lassen. Konsensus Sequenzen herausfinden und das Programm mit allen Motiven laufen lassen und schauen welches die meisten Treffer findet.

Installieren von trf: sudo mv trf407b.linux64 /usr/local/bin

ausführen mit standard Eingabe: trf407b.linux64 yoursequence.txt 2 7 7 80 10 50 500 -f -d -m

Konsensus Sequenz aus TRF meist zu lang und zu viele versch. Ergebnisse (vorerst nicht weiter untersucht)

Finden von AT-reichen Regionen (für Centromere):

class: GCcontent

Durchsucht mit einem Window den GC-Gehalt von jeder Sequenz. Starke Abweichungen vom Standard (>85%) werden gespeichert (ID-> (Position -> value)) Dadurch soll das cen2 Motiv für Centromere gefunden werden

- 25.Oktober

IDEE für Telomere

Telomere sind Gen arm -> GC-Gehalt bestimmen, da Gene meist höheren GC-Gehalt besitzen -> dann evtl. Gene prediction -> schauen welche Bereiche Gen-arm (signifikant ? was wenn mitten im Assembly eine Gen arme Region liegt ?) -> vll. Gene prediction zu aufwändig und nur Coding potential bestimmen

Qualität der Ausgangsdaten Die Assemblies von Yeast und Arabidopsis werden mit den RefSeq-Daten verglichen Die Assemblies wurden mit Hilfe von Mauve, einem Whole-Genome-Aligner aligniert und dann geprüft, welche Contigs zu welchem Chromosom gehören und ob die vorhergesagten Telomer-Regionen sich auch tatsächlich am Rand der Chromosomen befinden, bzw. dort bekannte Telomer-Regionen liegen. Vor allem wurde auch geschaut, was der Grund für nicht vorhergesagte Telomer-Regionen ist. Bei Hefe kommt es beispielsweise vor, dass in den RefSeq-Daten bei einem Chromosom sowohl am Anfang als auch am Ende keine Telomer-Region vorhanden ist und man diese somit mit der Vorhersagemethode nicht finden kann. Ebenso kommt es vor, dass eine Region in den RefSeq-Daten nicht vorhanden ist, aber im Assembly schon und umgekehrt. In den Hefe Daten kann man jedoch, bis auf obige Ausnahme jedes Chromosom mit mind. einem Motiv (Am Anfang oder am Ende) bestimmen. (Genaue Ergebnisse siehe "QualityCheckAssemblyYeast" und "QualityCheckArabidopsis")

Telomer-Motiv

Das Telomer-Motiv wird sowohl auf dem Vorwärts, als auch auch dem Reverse-Strang gebildet. Ist das Motiv TTTAGGG, dann muss man um das Motiv am anderen Ende des Chromosoms zu erhalten, sowohl das Gegenstück nehmen (AAATCCC) als auch dieses dann invertieren/Richtung ändern (CCCTAAA) (reverse Komplement).

Anzahl Wiederholungen des Motivs: evtl. abhängig von Anzahl der Contigs machen, je mehr Contigs, desto länger das Motiv um signifikante Treffer zu erzielen, da bei vielen kürzeren Contigs die Kontrolle, ob das Motiv am Ende des Assemblies liegt nicht viel Wirkung zeigt.

Telomer-Vorhersage

Contigs bei denen das Motiv nur einmal gefunden wurde sind nicht so signifikant wie mit vielen Treffern (siehe auch "QualityCheckArabidopsis". Evtl. aber hierbei auch die Länge überprüfen (vll. ist der Treffer sehr lang und somit doch signifikant, hierbei auch die Wahl der Wiederholungen wichtig). -> Vorhersage mit allen Treffern und "signifikanten" Treffern machen

Wenn zu viele Contigs vorhergesagt wurden, dann vergleichen ob die Contigs evtl. eine zu hohe Ähnlichkeit haben, da diese evtl. von PacBio getrennt wurden

- 3.November

Centromer:

Methode erstellt, mit der man point-CENs finden kann. Es wird zunächst nach Bereichen mit sehr hohem AT-Gehalt gesucht (ca. 84bp lang und AT-Gehalt von >80/90%). Wird ein solcher Bereich gefunden, wird getestet ob sich das CEN1-Motiv in der direkten Umgebung davor befindet und das CEN2-Motiv in der Umgebung danach.

Centromere sehr unterschiedlich (z.B. point CENs und regional CENs), schwierig vorherzusagen Man kann mit point CENs gute Ergebnisse bei der Vorhersage erzielen (bei Yeast waren es glaube ich einmal 15 und einmal 17 Treffer), jedoch funktioniert diese Vorhersage nur für sehr nah verwandte Organismen (Saccharomyces) und somit nicht hilfreich für eine allgemeine Methode.

mit bekannten kinetochore Proteinen suchen "When 55 S. cerevisiae kinetochore proteins (including the CBF3 subunits discussed above) were used in PSI-BLAST queries to search 14 fully annotated fungal genomes (Addi- tional data file 1), 41 were found to have orthologs in organ- isms with both point and regional CENs " Problem: kommen evtl. öfters in einem Chromosom vor ?

wahrscheinlich schwer zu finden: " In fact, specific DNA sequences are probably dispensable for centromere func- tion in most eukaryotes, as kinetochore proteins in diverse organisms can assemble on non-centromeric sequences [2,12-16]. In humans, these ‘neocentromeres’ have been found through karyotype analysis and can arise at many different loci [17]. In some animals and plants, individual chromosomes - or even the entire chromosome com- plement - may lack high-copy tandem repeat arrays [2,13,15,16] and in rare cases centromere repeat sequences differ between chromosomes "

"No conserved motif has been found for centromere DNA except in small clades "

"As our survey is the broadest phylogenetic analysis of tandem repeats to date, we asked if candidate centromere DNAs from 282 species shared common characteristics. Our analyses showed that this was not the case."

Evtl. Vorgehen wie bei "Comparative analysis of tandem repeats from hundreds of species reveals unique insights into centromere evolution": TandemRepeatFinder, dann clustern und so signifikante Repeats herausfinden, die wahrscheinlich im Centromer vorkommen. Im Supplement gibt´s eine Liste von Repeats, aber nur für Pflanzen und Tiere

-10.November

Als Telomere vorhergesagte Sequenzen in eigenes File geschrieben (eigene Methode unter Sonstiges geschrieben), Blasten der Sequenzen gegeneinander, um gleiche/sehr ähnliche Sequenzen zu finden

DB erstellen für erste TelomerSequenz mit: makeblastdb -in TelomerSequences1.fasta -out db1_Armillaria -dbtype nucl

Dann gegeneinander blasten mit: blastn -query TelomerSequences1.fasta -db db1_Armillaria > outBlastTelomer1_Armillaria.txt

Ergebnisse von Armillaria: Es gibt bei beiden Motiven eine Sequenz, die nahezu komplett in einem anderen Assembly enthalten ist. (genaue Werte siehe Block)

Yeast: 1.Motiv: kein contig ist komplett in einem anderen Contig bzw. hat große Ähnlichkeit. (ähnlichstes Ergebnis: ca 15000bp in einem ca. 35000bp langem Stück)

2.Motiv: gleiches Ergebnis wie oben (ähnlichstes: ca 7000bp bei einem ca. 23000bp Stück)

Arabidopsis: 1.Motiv: keine Treffer, nur kleine Schnippsel sind in anderen Contigs enthalten (max. 5000bp bei einer Länge von mehreren Mio bp)

2.Motiv: keine signifikanten Treffer in anderen Contigs

-17.November

Erstellung einer Pipeline nach dem Prinzip von (Comparative analysis of tandem repeats from hundreds of species reveals unique insights into centromere evolution)

Die Pipeline verwendet Fasta-Dateien. Da für Yeast keine Fasta Datei vorhanden war, musste zunächst aus der fastq eine fasta Datei erstellt werden.

Yeast-File: fastq-datei in fasta-datei gewandelt bzw. eine fasta-datei erstellt mit prinseq_lite (http://prinseq.sourceforge.net): $ perl prinseq-lite.pl -fastq file_in.fastq -out_format 1 -out_good file_out

Prinzip der Pipeline:

Alle TandemRepeats in den Reads/Assembly finden
Diese Clustern um Konsensus-Sequenzen zu finden
Signifikante Cluster auswählen (die längsten Sequenzen sind wahrscheinlich im Centromer, bzw. auf read-Ebene sind die am häufigsten auftretenden Sequenzen wahrscheinlich die der Centromere)
Schauen wie oft diese Cluster im Assembly auftreten

Schritte der Pipeline:

Suchen nach TandemRepeats (entweder im Assembly oder in den Reals) mit TRF: Parameter wie im oben genannten Paper

Match = 1 Mismatch = 1 Indel = 2 Probability of match = 80 Probability of indel = 5 Min score = 200 Max period = 2000

ergibt: trf408b.linux64 Pfad/file 1 1 2 80 5 200 2000 -f -d -m (für pipeline eher ohne -f und -m)

Die Ausgabe wird in ein eigenes Verzeichnis gespeichert (Pipeline_Output/TandemRepeatFinder)

Parsen von TRF:

Der Output von TRF wird mit trf_parser geparst (parser nicht von mir). Der Parser wurde für meine Zwecke etwas geändert und schreibt nur noch alle gefundenen Sequenzen mit Pseudoheader heraus

Clustern der Tandem-Sequenzen Dafür wird usearch verwendet. Es wird mit einer Identity von 0.85 geclustert. Die Ausgabe davon sind Konsensus-Sequenzen mit der Angabe wie viele Sequenzen zu einem Cluster zusammengefügt wurden. Die Dateien werden im Verzeichnis (Pipeline_Output/Cluster) gespeichert. Zur weiteren Verarbeitung wird die Datei consout.fasta verwendet. Aufbau: header mit Anzahl an verwendeten Sequenzen und dann die Consensussequenz
Filtern des Outputs: Dazu wurden einige Scripte geschrieben.

filter_cluster.pl: wie bei Paper warden von der Cluster Datei diejenigen Sequenzen verwendet, deren Cluster aus mind. 2 Sequenzen gebildet wurden und dessen Länge mind. 50bp beträgt: From the output of TRF, we we only kept tandem repeats that contained a minimum of 2 repeats (TRF will identity tandems from less than 2 complete repeats), and which had a minimum length of 50 bp.
fasta1line.pl (http://wiki.bioinformatics.ucdavis.edu/index.php/Sort_sequence_in_fasta_format_by_their_length ): schreibt für die leichtere Weiterverarbeitung die fasta-Sequenzen in eine Zeile
sort_by_length.pl: sortiert die Sequenzen nach ihrer Länge, da wie oben beschrieben wird, davon ausgegangen wird, dass die längste Sequenz / unter den längsten Sequenzen die Centromer-Sequenz enthalten ist
sort_by_number.pl: sortiert die Sequenzen nach der Anzahl von Sequenzen aus denen das Cluster gebildet wurde. Im Cluster aus vielen Sequenzen womöglich die Centromer-Sequenz
takeFirst-n-Sequences.pl: nimmt die ersten n-Sequenzen und schreibt sie in ein neues File. (in unserem Fall die ersten 50 Sequenzen)

Die gefilterten Konsensus-Sequenzen werden geblastet (standardeinstellung von blast ermöglicht es die Sequenz sowohl forward als auch Reverse zu suchen. Output wird zur leichteren Weiterverarbeitung in Tabellenform im Verzeichnis (Pipeline_Output/Blast) gespeichert

Mit analyseBlast.jar wird der Output verarbeitet. Es wird Pro Cluster-Sequenz die Treffer im Assembly gespeichert und in einer Datei gespeichert. Ebenso wird gespeichert wie oft in einem Contig die Sequenz gefunden wurde. Dies dient zur weiteren Verarbeitung. Wie gut war der Treffer ? Wie weit am Rand ? evtl. dadurch nur 0.5 zählen ... ?

- 24.November

Pipeline:

command line um die Statistik der Blastergebnisse zusammenzufassen (in Results_). Erste Spalte zeigt die Häufigkeit, zweite Spalte die Vorhergesagte Chromosomenanzahl/in wie vielen Contigs ein TandemRepeat gefunden wurde.
In der Pipeline wird nun auch ohne vorheriges Clustern mit der Konsensus-Sequenz aus TRF gesucht. Ebenso wird mit der kompletten Repeat-Sequenz aus TRF gesucht.

AnalyseBlast.jar nun erweitert:

mit readAssembly: wird das Assembly (Fasta-Sequenzen müssen in einer Zeile stehen) eingelesen und zu jedem Header die Länge der Sequenz abgespeichert
readFile: das Query-File wird eingelesen und zu jedem Haeder die Länge der Sequenz abgespeichert. Dies dient zur Überprüfung ob die gefundenen Blast-Ergebnisse auch in etwa so lang wie die Such-Sequenz sind und nicht nur aus bspw. 20bp bestehen.
AnalyseBlastResults: Es wird geschaut, ob die Treffer im jeweiligen Contig sehr nah am Rand liegen (mittlerweile müssen sie am Rand liegen !). Dafür wird die zuvor abgespeicherte Länge jedes Contigs benötigt. Liegt ein Treffer sehr nah am Rand, wird davon ausgegangen dass sich das Centromer über zwei Contigs erstreckt und somit wird es nur als 0.5 gezählt. Außerdem wird geprüft wie lang das Alignment im Vergleich zur Such-Sequenz ist. Ist das Alignment kürzer als SuchSequenz/5, dann wird dies gezählt. Sind alle Treffer in einem Contig kürzer als SuchSequenz/5, dann wird dieses Contig bei der Zählung der Contigs mit Treffern ausgeschlossen.

GFF-File: neue Methode unter Sonstiges (schreibtGFF): benötigt als Übergabeparameter einen Hash mit Header und den dazugehörigen Start und Stop Positionen, einen Filenamen für den Output und das feature (telomere)

checkAssembly: Es wird geprüft ob Contigs zu ähnlich zueinander sind, d.h. es werden alle Contigs des Assemblies gegeneinander geblastet und geprüft, ob ein Contig mit nahezu der gesamten Länge (85% der Länge) in einem anderen Contig liegt. Ist dies der Fall und es tritt nicht ein, das das Gefundene Contig ebenfalls im gesuchten liegt, d.h. sie wären in etwa gleich lang, dann wird das Contig aus dem Assembly genommen um verfälschte Ergebnisse zu reduzieren.

Dieses Feature wurde mit in die Pipeline als erster Schritt aufgenommen.

Die Pipeline wurde nur für Assemblies umgerüstet.

- 1.Dezember

-TRF-Parser (nicht _sequence !!) umgeschrieben. Es wird getestet ob innerhalb eines Contigs aus einer repeat-Sequenz unterschiedliche Consensus-Sequenzen gebildet wurden (überlappende TandemRepeats). Dies wird getestet indem die Start- und Endpositionen der repeat-Sequenzen gespeichert werden und dann überprüft wird ob es andere Sequenzen mit ähnlichen Start-und Stop-Positionen gibt, bzw. die innerhalb dieses Bereichs liegen. Ist dies der Fall, wird nur die längse Konsensus-Sequenz weiter verwendet.(umso länger, umso signifikanter die Treffer). Output-Format wie früher(header \n Sequenz), nur gefiltert.

-findTelomere in Pipeline aufgenommen. Die Pipeline benötigt nun als weitere Übergabeparameter die Telomer-Motive. Hierbei ist unbedingt zu achten, dass die runden Klammern zweifach escaped \ werden !

-findTelomere gibt jetzt alle gefundenen Positionen als GFF-File aus

-analyseBlast gibt eine zusätzliche Datei aus mit allen als korrekt empfundenen Positionen.

-centromereGFF: Erstellt aus den Outputs von analyseBlast ein GFF-File. Es werden pro vorhergesagter Chromosomenanzahl alle Query-IDs ausgegeben und die dazugehörigen Contigs in denen die Sequenz gefunden wurde (inkl. Positionen)

-Armillaria-Output mit 1e-40 sehr schlecht !!!

-Datenbank von NCBI heruntergeladen ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA -4328 mitochondriale Sequenzen, davon 4070 complete genome (evtl. nur die verwenden !) -Pipeline: Mitochondriale DNA filtern wurde hinzugefügt. Dafür wird einmalig eine Datenbank für die Blastsuche aus den oben genannten Sequenzen erstellt. Gegen diese wird anschließend geblastet (1e-50 <- höher als sonst!!!) und mittels checkMitochondrium.jar mit mitoch. DNA assoziierte Contigs aus dem Assembly gelöscht. Dabei werden Contigs gelöscht, die eine Identität von >90 und eine Länge von >400 überschreiten. Die gelöschten Contigs werden in eine extra Datei geschrieben und eine neue Datei mit den gefilterten Contigs erstellt.

- 8.Dezember

-findTelomere: Die Ergebnisse werden nun auch in in Result-File geschrieben (gleicher Inhalt wie auf der Konsole) (gilt nur für den "Assembly" Fall)

Arabidopsis: >scf718000001516|quiver besteht komplett nur aus der Telomer-Sequenz tttaggg (Problem für Blast, warning: Could not calculate ungapped Karlin-Altschul parameters due to an invalid query sequence or its translation. )

-sort_centromere_results.pl: Bekommt die sortierten TR (z.b. nach länge: final_length.fasta) und den Statistik-Output von analyseBlast und ordnet die Ergebnisse anhand des sortierten Files. Es wird angenommen, dass die längste Sequenz die centromer-Sequenz ist (bzw. sie befindet sich unter den längsten). Nimmt man die 1 und 2 Treffer weg (noch nicht gemacht, evtl hohe Treffer ebenfalls streichen) , müsste die richtige Anzahl relativ weit oben liegen

Vergleich der Ergebnisse mit RefSeq: Es wurden die Fasta-Files von Hefe und Arabidopsis heruntergeladen und mit Hilfe der Pipeline ausgewertet. Getestet werden soll, ob die Positionen der vorhergesagten Telomere und Centromere mit denen von RefSeq übereinstimmen. Dazu wurde für jedes Chromosom das Genbank-File betrachtet und dort die Features "telomere" und "centromere" gesucht (nicht in der Beschreibung!)

Hefe: Autor, Reference ,... Daten vom 6.Sep.2013 (http://www.ncbi.nlm.nih.gov/nuccore/NC_001133.9?from=1&to=230218&report=genbank)

Motiv1: 2-fache Wdhl. Motiv2: 2-fache Wdhl.

Ergebnisse siehe Excel-Tabelle

Problem aufgefallen: Es ist schwierig eine Schranke für die Telomere zu finden. Bei jetziger Schranke gibt es Sequenzen die gefunden werden, die nicht zu Telomeric-Repeat assoziiert sind (eine Sequenz ist aber zumindest mit Telomer-Region assoziiert), aber auch Telomeric-Repeats die nicht gefunden werden weil sie zu weit von dem Ende entfernt sind. (Tritt bei Internal stretch auf). Somit gibt es ein Konflikt wie weit der repeat am Rand liegen muss. Genauso wie lang dieser sein muss, da es sehr kurze Telomeric-Repeats gibt.Bis jetzt ein Motiv mit 2-facher Wiederholung und eins mit 3-facher. Evtl beide mit 2-facher.(gemacht am 10.Dez. !!!, beide mit 2-facher Wdhl.) Somit wird ein bis jetzt nicht vorhergesagtes Repeat getroffen. Aber insgesamt mehr Treffer. 2-fache Wdhl. gerechtfertigt im Vergleich zu PacBio (8-fache) da die Ränder bei RefSeq viel kürzer.

Bei Pac-Bio Daten mehr Wiederholungen, da die Telomer-Repeats länger sind. Somit können einfache-Treffer als nicht signifikant bewertet werden. (trifft bei Armillaria nicht zu, hier gibt es oft nur einen Treffer, aber kaum mehrfache Treffer.) Vll. muss man dies im Zusammenhang sehen bei Arabidopsis gibt es viele Fälle mit sehr vielen Treffern und die einzelnen stechen hierbei hervor. Bei Armillaria gibt es keine großen Unterschiede, man kann also nicht zw. signifikant und nicht unterscheiden. (liegt evtl. auch am Assembly)

Arabidopsis: 5.Juni 2013 http://www.ncbi.nlm.nih.gov/nuccore/NC_003070.9?from=1&to=30427671&report=genbank Motiv1: 2-fache Wdhl. Motiv2: 2-fache Wdhl.

Ergebnisse siehe Analyse_Arabidopsis Telomer-Treffer sehr kurz, meist nicht anmontiert

auf altem Mac: assembly_neu mit RefSeq Assembly aligniert Die Assemblies von PacBio sind länger als die RefSeq Daten. Dadurch sind die Telomer-Repeats länger und es gibt signifikantere Treffer

Armillaria: Telomer-Vorhersage: Contig 3470: einziger Treffer gefunden bei 6963-6981. Entweder es ist ein Internal stretch of telomere repeat oder ein fälschlicher Treffer, weil auch noch recht kurz.

findTelomere: Die Ausgabe beinhaltet nun auch eine Anzeige für Treffer mit mehr als einem Hit. Bei der Interpretation muss jedoch aufgepasst werden. Haben die anderen Treffer beispielsweise jeweils ca. 20 Hits, kann man einen Treffer mit nur einem Hit sicherlich als nicht signifikant ansehen. Bestehen jedoch alle aus nur 1-3 Hits, darf man diejenigen mit nur einem Hit nicht als nicht signifikant ansehen. Bei der Ausgabe wird nun noch überprüft, ob die durchschnittliche Anzahl an Treffern mind. 5 beträgt. Nur dann werden Treffer mit 1 Hit als nicht signifikant angesehen. Es wird jedoch nicht überprüft wie lange dieser Treffer ist. (Fehlerquelle bei sehr langem Treffer!!!)

- 15.Dezember

combinePrediction.pl: Diese Funktion kombiniert die Ergebnisse der Telomer- und Centromer-Vorhersage. Das Bewertungssystem steht als Kommentar im script.

Validierung:
Telomere:
1.true positive: Bereich ist telomer und als telomer vorhergesagt
2.false negative: Bereich ist telomer, aber nicht als telomer vorhergesagt
3.false positive: Bereich ist kein telomer, aber fälschlicherweise als telomer vorhergesagt
4.true negative: Bereich ist kein telomer(keine Annotation vorhanden) und nicht als telomer vorhergesagt

Validierung der RefSeq-Ergebnisse als Gold-Standard ;)

Evtl. noch auswerten wie genau (auf wie viel Basen genau) die Positionen vorhergesagt werden. Evtl. auch durchschnitt ausrechnen.

Yeast:
Genaue Ergebnisse siehe AnalyseYeast
Besonderheit: Es kommt vor, dass der Telomer-repeat in Terminal, internal und middle-stretch aufgeteilt ist. Dies wird sowohl bei erfolgreicher Vorhersage als auch bei negativer nur als 1 Treffer gezählt.
Bemerkung: Da es eigentlich so gut wie komplett annotierte Chromosome sind (16 Stk), sollten es keine TN geben, da jedes Chromosom eine Telomer-Region besitzen sollte. Jedoch sind diese nicht immer enthalten, dadurch nicht anmontiert und auch nicht mit der Vorhersage auffindbar.
Zur Berechnung wurden alle Ergebnisse verwendet. Bei den signifikanten ist bei Motiv 1 ein Treffer weniger (ein sehr kurzer 17bp ?) langer Treffer. TP: 1.Motiv: 12, 2.Motiv: 13 Zusammengefasst: 25
FN: 1.Motiv: 1, 2.Motiv: 0 Zusammengefasst: 1
FP: 1.Motiv: 0, 2.Motiv: 1 Zusammengefasst: 1
TN: 1.Motiv: 3, 2.Motiv: 2 Zusammengefasst: 5

Erklärung der Gütekriterien siehe (http://de.wikipedia.org/wiki/Recall_und_Precision#Positiver_und_negativer_Vorhersagewert)

Sensitivität: TP/(TP+FN)
1.Motiv: 12/(12+1) ≈ 0,923
2.Motiv: 13/(13+0) = 1
Zusammengefasst: 25/(25+1) ≈ 0,962

Spezifität: TN/(TN+FP) 1.Motiv: 3/(3+0) = 1
2.Motiv: 2/(2+1) ≈ 0,667
Zusammengefasst: 5/(5+1) ≈ 0,833

precision: TP/(TP+FP) 1.Motiv: 12/(12+0) = 1
2.Motiv: 13/(13+1) ≈ 0,929
Zusammengefasst: 25/(25+1) ≈ 0,962

Wobei die Ergebnisse auf Sequenzebene validiert wurden. Hierbei diente die RefSeq Annotation und deren Sequenz als Grundlage der Ergebnisse. Geht man von der Anzahl der Chromosomen aus und dass jedes Chromosom eine Telomer-Sequenz besitzt, müsste man für die Qualität der Vorhersage (rein das Ergebnis betrachtet, ohne in die "Tiefe" zu gehen, d.h. konnte die Sequenz überhaupt gefunden werden ?) in diesem Fall von 16 Treffern ausgehen. D.h. Motiv 1: 12 von 16 und Motiv 2: 14 von 16 Treffern (Rest noch ausrechnen!) bzw. nimmt man den Mittelwert dann 13 von 16 (aufgeteilt in diesem Fall genauer, da durch RefSeq-Daten alle Sequenzen auf dem Forward-Strag (im Gegensatz zu Assembly)

Centromere:
Hefe besitzt einen CDE1-CDE3-Komplex, dieser ist recht kurz und besteht aus einem recht gut bekanntem Muster. Dieser Komplex wurde nie getroffen, stattdessen immer ein bzw. mehrere longterminal-repeats. Insgesamt wurden 16 Chromosomen vorhergesagt. Dies entspricht zwar der tatsächlichen Anzahl, ist jedoch nicht sehr aussagekräftig, da die Datei nur aus 16 Sequenzen bestand und somit nicht ausgeschlossen ist, dass einfach jedes Contig getroffen wird.

Arabidopsis:
Genaue Ergebnisse siehe AnalyseArabidopsis

Problem: keine Telomere annotiert. Es gibt Bereiche bevor die Annotation beginnt, in denen die Vorhersage auch Treffer findet bzw. es gibt auch Contigs/Chromosomen in denen keine Treffer gefunden werden und die an den Enden aus NNN bestehen.
Geht man wiederum davon aus, dass jedes Chromosom eine Telomer-Region besitzt und vernachlässigt die Tatsache ob diese überhaupt gefunden werden konnte, dann ist das Ergebnis 2 von 5 und 4 von 5 korrekt vorhergesagt. Bzw. 3 von 5 bei Mittelwert (wie oben aber getrennt genauer, da RefSeq-Daten) bzw. 7 von 10, da ein Motiv beide Enden trifft

Centromere:
Hier gab es ebenfalls keine Annotation die eindeutig das Centromer beschreibt. Hierbei wurden wiederum 4 bzw. 5 von 5 Chromosomen vorhergesagt. Wie bei Hefe aber evtl. nicht aussagekräftig genug. Es wurde noch nicht geprüft welche Bereiche genau vorhergesagt wurden.

Test ob alle Ergebnisse mit 5 Treffern die gleichen Contigs vorhersagen:
Immer 3075, 3070, 3071, 3076, 3074 (aber es gibt auch nur diese 5 contigs)

Problem: Centromere sind nicht in der RefSeq-Datei anmontiert. Deswegen auf andere Weise nach den Regionen suchen.

Paper gefunden, bei denen die Centromer-Region durch Marker begrenzt wurden: http://www.sciencemag.org/content/286/5449/2468.full, Figure1

Mit diesen Marken unter http://www.arabidopsis.org/servlets/Search suchen. Diese Datenbank gibt für den Marker die start-Position aus.

Daraufhin wird überprüft ob die vorhergesagten Treffer in dieser Region liegen. (kann relativ stark abweichen, kommt auf die Ausgangsdaten an)

Es werden nur die Marker mit eingetragenen Positionen aufgelistet.

1.Chromosom
mi342: 13195932 bp
F16K23-SP6: 14478758 bp
T3P8-SP6: 15605077 bp
T27K12: 15924262 bp

2.Chromosom
MI310: 2862001 bp
F5J15-SP6: 2943053 bp
MI421: 3566553 bp
F7B19.22: 3759695 bp
T13H18-T7: 4484843 bp

3.Chromosom
T27C7-SP6: 13043306 bp
da restl. ohne Position wird T5M14-sp6 aufgrund des Maßstabs auf 1,9 mio bp von T27C7-SP6 geschätzt, also ca bei 14900000bp

4.Chromosom
MI233: 1552701 bp
T5L23.3: 1593004 bp
MI306: 2227127 bp
F14G16-T7: 4191557 bp

5.Chromosom
F13K20-T7: 11021947 bp
T18F2-SP6: 11491176 bp
CUE1: 12590797 bp
T2L5.3: 13258566 bp

Zusätzlich die Positionen von Heidrun Gundlach

At_chr_1 14.4 15.1
At_chr_2 3.3 4.1
At_chr_3 13.4 14.2
At_chr_4 3.6 4.1
At_chr_5 11.6 12.2

Überprüfung der Ergebnisse:
1.Chromosom Vorhersage:
ca. 16433000 bzw. 14-15Mio

2.Chromosom Vorhersage:
ca. 3562000

3.Chromosom Vorhersage:
ca.13600000 - 14220000

4.Chromosom Vorhersage:
ca. 3060000 bzw. ca 4000000

5.Chromosom Vorhersage:
ca. 12800000 und ca. 11200000

alle Vorhersagen liegen in etwa in der Chromosom-Region (kann man nicht 1:1 vergleichen, da evtl. andere Ausgangspositionen)

PacBio-Ergebnisse

Yeast

Bei der Pipeline fliegt die 0093 als mitochondriale DNA aus dem Assembly; die 93 wurde auch beim alignieren mit den RefSeq-Daten als mit.DNA erkannt

Centromere: 16 Vorhergesagt von insgesamt 16. Genauere Prüfung (mappen auf RefSeq steht noch aus, bzw. Genomviewer) Auffällig ist, dass die Treffer überwiegend in einer Region in der Nähe der Telomer-Repeats liegen. Vll. hat es auch was mit den Telomeren zu tun (Y-Element ?). Die Positionen wurden im Alignment mit den RefSeq-Daten überprüft, aber leider standen an diesen Positionen keine Annotationen. Da das Assembly wenig contigs besitzt würde ein Treffer weit abseits der Centromer-Region, wenn diese tatsächlich auf dem gleichen Contig liegt als TP angesehen. Da dies die Ergebnisse verfälschen würde, wurde eine Bewertung anhand der contigs ausgelassen.

Telomere: 1.Motiv: 16 (von 16), 2.Motiv: 11 (von 16) bzw. 13.5

Ergebnisse verglichen mit QualityCheckAssemblyYeast in AnalyseYeastAssembly und Ergebnisse von AnalyseYeast (RefSeq)

Es kommt vor, dass ein Motiv beide Enden des Chromosoms vorhersagt. Dies ist dann der Fall wenn das Chromosom mit mind. zwei Contigs assoziiert wird und eins dieser Contigs Reverse im Assembly liegt.
Als einziges Chromosom kann Chrom15 nicht vorhergesagt werden, da das assembly kein Telomer-Repeat enthält (RefSeq Sequenz schon).
Es kommt bei beiden Motiven vor, dass Chromosome nicht gefunden werden, weil das Assembly zu kurz ist. Genauso kommt es vor, dass kein Telomer in den RefSeq-Daten annontiert ist, aber im Assembly enthalten ist (da länger).
Insgesamt wird mit Motiv1 13 von 16 Chromosomen gefunden, ein Treffer kann keinem Chromosom zugeordnet werden, Mit Motiv2 werden 10 von 16 Chromosomen gefunden, ein Treffer kann ebenfalls nicht zugeordnet werden, besitzen aber beide gute Repeat-Sequenzen. Wenn man davon ausgeht welche Chromosomen mit dem vorhandenen Assembly gefunden werden konnten, dann wurden alle gefunden außer Chromosom 12. Dieses besitzt zwei Repeats, das eine ist zu weit vom Ende entfernt um es mit den aktuellen Einstellungen zu treffen, das andere zu kurz. Betrachtet man das alignment mit RefSeq, so konnte jedes Chromosom mind. von einem Motiv gefunden werden. Ausnahme hiervon ist Chromosom 15. Dieses kann mit dem aktuellen Assembly nicht gefunden werden.

Betrachtet man das Assembly genauer (insgesamt 30 contigs) dann wurden davon:
Es wird davon ausgegangen, dass jedes Chromosom tatsächlich an den Enden ein Telomer-Repeat besitzt. Es wird also als richtig bewertet wenn ein Contig mit dem Rand eines Chromosoms assoziiert wird, obwohl in RefSeq keine Annotation für ein Telomer gefunden wird (Assembly ist hierbei länger).
Außerdem wird davon ausgegangen, dass an den Enden eines Chromosoms zwei unterschiedliche Motive sind (wird ab sofort nicht mehr angenommen !) Contig 99 und 97 enthalten jeweils eine gute Region, sie können jedoch keinem Chromosom zugeordnet werden, da die passende RefSeq-Sequenz wahrscheinlich zu kurz ist. Dadurch wäre das Ergebnis wohl besser, da bei den Ergebnis ein Chromosom das keine Telomer-Sequenz besitzt wahrscheinlich eine zugeordnet werden könnte.

1.Motiv:
TP: 13
FP: 3 (das ist das angesprochene contig 99, dies ist nicht zuordbar, man kann nicht sagen ob richtig oder falsch, deswegen müsste man es komplett weg lassen. Außerdem die zwei Treffer dessen Sequenz Reverse ist und somit ein schon getroffenes Chromosom nochmals markieren. Dies ist vll. kein Fehler der Vorhersage, jedoch verfälscht es das Ergebnis, da es vom Motiv zu Motiv 2 gehören würde)
FN: 3 die restlichen 3 contigs die Fehlen um auf 16 Chromosome zu kommen. Dass sie nicht auffindbar sind weil das Assembly zu kurz ist wird jetzt nicht betrachtet
TN: 11 restl. contigs

2.Motiv
TP: 10
FP: 1 (angesprochenes contig 97, man kann ebenfalls nicht sagen ob richtig oder falsch, deswegen eigentlich weg lassen)
FN: 6 restl. contigs um auf 16 zu kommen
TN: 13

Zusammengefasst (insgesamt wurden 22 contigs mit Telomer-Motiven assoziiert(wenn in einem contigs beide Enden assoziiert wurden dann nur einmal gezählt)):
TP: 20 (sind tatsächlich als Telomer-Regionen assoziiert bzw. kommen am Rand vor)
FP: 2 (bei Alignment mit RefSeq ohne Partner, obwohl gutes Motiv. Keine Aussage machbar deswegen in FP)
FN: 1 contig 85 (wird mit Chromosom 15 assoziiert, aber nicht gefunden. Das es mit diesem Assembly nicht gefunden werden kann spielt keine rolle)
FN: 7 restl. contigs

Gütekriterien ausrechnen:

Arabidopsis: Mitochondriale DNA aus RefSeq aligniert mit Assembly, Ergebnis:1275 (sehr kurz Übereinstimmung 63bp), 1511 (46bp), 1271 (68bp), 1530 (63bp), 1642 (713bp), 1554 (144bp), 1584 (68bp), 1273 (82bp), 1554 (100bp), 1612 (109bp), 1561 (50bp), 1557 (41bp), 1521 (63bp), 1599 (10073 komplette contig), 1521 (70bp), 1270 (51bp), 1561(124bp), 1271 (527bp), 1274 (458bp), 1642 (4485bp), 1271 (304bp), 1642 (178bp), 1521 (553bp), 1283 (492 aber rel. schlechte Übereinstimmung), 1642 (3547bp), 1642 (383bp), 1521 (187bp), 1600 und 1601 bilden einen Treffer der Länge 40791 (1601 etwas länger), 1600 fällt in der Pipeline vor dem mitochondrien Schritt raus (zu ähnlich zu einem anderen Contig, evtl. zuerst nach mitochondrien schauen), die kurzen Treffer wurden fortan weg gelassen
Mitoch.DNA nach Pipeline: 1288, 1482, 1521, 1599, 1601, 1642, 1647
Ergebnis: 1288 kein Ergebnis beim alignieren mit RefSeq-Daten (mitoch.DNA), jedoch beim alignieren mit dem Plasmid von Arabidopsis komplett getroffen
1482 kein Ergebnis beim alignieren mit RefSeq-Daten (mitoch.DNA), beim alignieren mit Plasmid von Arabidopsis getroffen
1521 viele kleinere Treffer
1599 komplettes contig getroffen
1601 komplett getroffen
1642 ein paar lange und kurze Treffer
1647 kein Ergebnis beim alignieren (mitoch.DNA)

Telomere: (beide Motive mit 8-facher wdhlg.) 1.Motiv: 7 (5 signifikante), 2.Motiv: 8 (5 signifikante)

Es gibt keine Annotation zu den Telomeren in RefSeq. Es wird angenommen wenn das Contig mit einem Chromosom am Rand übereinstimmt, dass der Treffer korrekt ist. Bei Motiv1 gibt es ein Chromosom (4) dessen Rand keine Assoziation mit einem Contig hat. Wahrscheinlich RefSeq zu kurz und somit kann kein Gegenstück gefunden werden. Bei den gefundenen Treffern (signifikante) gibt es ein Treffer, der keine Assoziation hat. Das knotig ist relativ kurz, besitzt aber einen aussagekräftigen Telomer-Repeat. Dies könnte prinzipiell zu Chrom. 4 gehören.

Bei Motiv2 gibt es ein Chromosom (2) dessen Rand ebenfalls keine Assoziation mit einem Contig hat. Wahrscheinlich gleicher Grund wie oben. Ebenso gibt es einen signif. Treffer ohne Assoziation.

Ergebnisse siehe AnalyseArabidopsisAssembly

Motiv1:
TP: 4 (signifikant), 4 (alle Treffer)
FP: 1 (guter Repeat, aber keine Assoziation, deswegen FP oder da keine Aussage zu fällen ist weg lassen, aber dann müssten allein bei TN viele weg gelassen werden, da keine Aussage möglich), 3 (alle Treffer)
FN: 1 (da 1 Chromosom bei TP zu 5 fehlt, dies könnte jedoch der eine in FP sein), 1 (alle Treffer)
TN: 534 (signifikant), 532 (alle Treffer)

Motiv2:
TP: 4 (sign.), 4 (alle Treffer)
FP: 1 (sign., Begründung wie oben), 4 (alle Treffer)
FN: 1 (sign., Begründung wie oben), 1 (alle Treffer)
TN: 534 (sign.), 531 (alle Treffer)

Zusammengefasst (spielt keine Rolle welches Motiv vorkommt) (insgesamt 10 signifikante contigs als Contigs mit Telomeren vorhergesagt bzw. 15 insgesamt):
TP: 8 (sign.), 8 (alle)
FP: 2 (sign., Begründung siehe oben), 7 (alle) (keine Aussage möglich, müssen nicht wirklich falsch sein)
FN: 2 (sign), 2 (alle) (fehlende contigs um auf 10 und somit auf 1 Chromosom zu kommen, könnte auch nur ein Contig sein, wenn darauf das Vordere und Hintere Motiv enthalten ist, da bei FP nicht wirklich eine klare Aussage zu machen ist, könnte FN auch geringer sein)
TN: restl. contigs 528 (sign.), 523 (alle)

Centromere: 5 (Centromer-Ergebnis kann man nicht alleine Bewerten, da insgesamt viele Ergebnisse, aber in Verbindung mit Telomer-Vorhersage sind es 5) von 5 (mappen steht noch aus)

Überprüfen ob immer die gleichen Contigs bei 5 Treffer getroffen werden: ist nicht immer exakt der Fall. Dies kann aber daran liegen dass es so viele Contigs gibt und somit Centromere geteilt wurden

Um zu überprüfen, ob die vorhergesagten Positionen mit den tatsächlichen übereinstimmen werden im Alignment mit den RefSeq-Daten die vorhergesagten contigs gesucht. Gibt es eine Verbindung mit den RefSeq-Daten dann wird der "Partner" der vorhergesagte Position des Contigs in den RefSeq-Daten gesucht und diese Positionen zur Untersuchung verwendet.

erste Position bezieht sich auf die Position im Contig.

1577: ca. 380000, Assoziiert mit Chromosom 1, Position ca. 16 Mio
1496: ca. 3000-12000, ohne Assoziation, der Nachbar im Alignment wird mit Chromosom 5 assoziiert, Position ca. 13,3 Mio., eine Verbindung ist aber ohne direkte Assoziation sehr spekulativ
1565: ca. 3300000, Assoziiert mit Chromosom 3, Position ca. 12 Mio
1278: ca. 220000 - 240000, Assoziiert mit Chromosom 2, Position ca. 3,7 Mio (schwer abschätzbar, weil etwas weiter weg vom nächsten direkten Alignment)
1603: ca. 426000, Assoziiert mit Chromosom 1, Position ca. 14,2 Mio

1577: ca. 450000, Assoziiert mit Chromosom 1, Position ca. 16,2 Mio
1552: ca. 5880000, Assoziiert mit Chromosom 3, Position ca. 17,4 Mio
1525: ca. 415000 und 1,5 mio (ein Treffer), Assoziiert mit Chromosom 5, position ca. 14,8Mio und 15,9 Mio
1271: ca. 11,5 mio und 278000 (ein Treffer), Assoziiert mit Chromosom 4, position ca. 5,5 Mio. und 16,7 Mio. (zweiter Treffer könnte eine knob region sein
1270: ca. 7,2 mio (ein Treffer), Assoziiert mit Chromosom 2, Position ca. 13,9 Mio. (insg. ca. 19Mio lang - 14Mio. = ca. 5 Mio. sehr spekulativ, da eigentlich im Alignment nicht als Reverse angezeigt)

Alle Treffer in etwa in der gleichen Region, aber oft nicht genau. Dies könnte an unterschiedlichen Ausgangssequenzen liegen und daran, dass im Alignment trotz gemeinsamer Übereinstimmung auch immer wieder weiße Bereiche (mit schlechter Übereinstimmung bzw. Deletionen und Insertionen (?)) vorkommen. Die erste Cluster-Sequenz hat in jedem Contig mehr Treffer gefunden, jedoch trifft sie Chromosom 4 garnicht und Chr. 5 evtl. nicht (ohne direkte Assoziation im Alignment schwer zu sagen). Die zweite Sequenz trifft alle Chromosomen, jedoch sind diese meist etwas weiter von der bekannten Position entfernt. Vor allem chr.2

Bei der ersten Cluster-Sequenz würde laut Alignment 1573 und 1583 mit direkter Assoziation für Chr.4 in Frage kommen. Erweitert man die Region etwas, dann auch noch 1317 , 1547,1656 und 1333 (evtl. noch 1271). Gesucht wurde, ob im Filter-Schritt der Blast Ergebnisse diese evtl. rausgeflogen sind. Aber im original Blast-Output sind nur die oben aufgelisteten Treffer zu finden.
Bei der zweiten Cluster-Sequenz sind ebenfalls nur die oben aufgelisteten Contigs zu finden.

Evtl. enthält die Cluster-Sequenz mit 6 Chromosom-Vorhersagen alle Chromosome, da ein Chr. evtl. wieder doppelt getroffen wurde (siehe erste Cl-Sequenz).

1517: ca. 800000, Chr. 5, ca. 11 Mio
1577: ca. 560000, Chr. 1, ca. 16,4 Mio
1684: ca. 47000, ohne direkte Assoziation, evtl. Chr. 5, ca. 11,8 Mio (sehr spekulativ)
1565: ca. 870000, Chr.3, ca. 9,7 Mio
1613: ca. 4000, Chr. 3, ca. 12,2 Mio
1271: ca. 11,9 Mio, Chr. 4, ca. 5,1 Mio

1627: ca. 320000, Chr. 2, ca. 3,1 Mio
1577: ca. 195000, Chr. 1, ca. 16 Mio
1588: ca. 26000, Chr. 4, ca. 2,8 Mio
1294: ca. 16000, ohne Assoziation, Nachbar Chr.5, ca. 11,5 Mio (aber sehr spekulativ)
1624: ca. 3500, Chr. 2, ca. 2,5 Mio
1589: ca. 11000, Chr. 4, ca. 2,8 Mio

Hat nicht das gewünschte Ergebnis gebracht, beide Cluster-Sequenzen haben nicht alle Chromosome getroffen. Dies zeigt ein Problem der Methode. Werden verschiedene Contigs die ein Chromosom bilden getroffen, wird das Ergebnis verfälscht.

findTelomere: Da die Richtung des Stranges im Assembly nicht einheitlich ist, kann man nicht davon ausgehen, dass das forward und Reverse-Motiv in der gleichen Anzahl vorliegen. Deswegen gibt es noch eine weitere Ausgabe, die nicht zwischen forward und Reverse unterscheidet, sondern beide zählt und dann durch zwei teilt.

combinePrediction: Änderung von findTelomere hat bei den "Stufen" bei denen die Telomer-Vorhersagen übereinstimmen keine Auswirkung. Bei den anderen wurde das Ergebnis mit dem Mittelwert noch hinzugefügt. Man könnte jetzt die Vorhersagen mit den forward und Reverse Ergebnissen jeweils weglassen und nur noch den Mittelwert verwenden.

Problem wenn Mittelwert eine ,5 Zahl hervorbringt. Lösung aufrunden: Da die vorhersage recht genau ist, kann man davon ausgehen dass als Telomer-vorgergesagte Treffer auch wirklich existieren. abrunden wäre somit evtl. falsch. Es ist daher wahrscheinlicher dass eine Telomer-Region nicht gefunden wurde bzw. sie nicht im Assembly enthalten ist. Somit wäre aufrunden wahrscheinlich genauer. Lösung abrunden: Man kann nicht einfach etwas annehmen was nicht gemessen/gefunden wurde. Einfach aufzurunden wäre spekulativ und entspräche nicht den Daten. Ausgabe mit aufgerundeten und abgerundeten Wert. Am Ende evtl. nur noch die Mittelwerte ausgeben

es wird zunächst geprüft ob es eine ,05 zahl ist. Ist dies der Fall, dann werden einmal die aufgerundeten und einmal die abgerundeten Ergebnisse herausgeschrieben.

Validierung durch neue Werte überprüfen bzw. anpassen. Wobei dies nur auf PacBio-Daten zutrifft. Da die RefSeq-Daten alle auf dem Forward-Strang sind, ist der Mittelwert nicht wirklich von Bedeutung und die Validierung getrennt in 1.Motiv und 2.Motiv ist genauer.

- Januar

Es wird geprüft wie lang die Contigs sind, in denen Telomere vorhergesagt wurden. Wenn diese nur aus Telomer-Motiven besteht, dann kann es gut sein, dass viele telomer-sequenzen beim assemblieren auf dieses contig gemappt wurde und es somit eine höhere Überdeckung hat Tritt nur in einem Fall auf, bei Arabidopsis

Armillaria Illumina-Daten einmal mit 2-facher und mit 3-facher Wdhl. des Telomer-Motivs durchlaufen (2-fach ergibt zu viele Treffer), außerdem einmal nur mit contigs länger als 1000bp Blast problem mit Sequenzen:639605, 642090 (kurzes Contig mit hoher wdhl, aber nicht Telomer-Motiv)

Sowohl bei Iter5 als auch bei Illumina keine Telomer-Motive innerhalb der Contigs

Bei Illumina 3 Contigs mit Telomeren <1000bp, aber keiner nur aus Telomer-Motiven

TODO:

Centromere:

versch. Assemblies von Armillaria miteinander alignieren um output zu überprüfen und um Ergebnisse zu bestätigen
Evtl. noch auswerten wie genau (auf wie viel Basen genau) die Positionen vorhergesagt werden. Evtl. auch durchschnitt ausrechnen.
AnalyseBlast mit mehreren Schwellenwerten durchlaufen lassen und evtl. Grafik mit dem Output erstellen. D.h. auch ohne -count/2 (die Ränder werden beachtet) laufen lassen, evtl. bei den Rändern Toleranz einbauen (zb. start < 300 || stop > länge-300) und Schwellenwert für die Länge des Alignments variieren (SuchSequenz/4 ...)

Hinweise:

Methode wichtig, da trotz langer reads (PacBio) kein komplettes Assembly erstellt werden kann und somit die Anzahl der Chromosomen anhand der Sequenzen nicht bestimmt werden kann
Lange reads wichtig da somit die Ränder besser bestimmt werden können. Dies könnte beispielsweise bei der Erforschung des Alterns (aging) helfen, da somit die länge der Telomere besser bestimmt werden könnten und im Alter diese immer kürzer werden.
Warum muss man im ersten Schritt schauen ob contigs zu ähnlich sind ? Dadurch dass PacBio eine recht hohe Fehlerquote hat, kann es beim Assemblieren dazu kommen, dass der Algorithmus sagt, dass die Fragmente zu unähnlich sind und somit zwei contigs daraus bildet.