Entwicklung einer Optimierungsmethode zum Auswerten von Protein-NMR-Spektren mit Hilfe eines Genetischen Algorithmus
- Art: Diplomarbeit
- Autor: Simone Wexlberger
- Abgabedatum: Oktober 2003
- Umfang: 99 Seiten
- Dateigröße: 5,5 MB
- Note: 1,7
- Institution / Hochschule: Fachhochschule Weihenstephan Deutschland
- ISBN (eBook): 978-3-8324-7429-4
-
ISBN (Paperback) :
978-3-8324-7429-4 P - ISBN (CD) :978-3-8324-7429-4 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Wexlberger, Simone Oktober 2003: Entwicklung einer Optimierungsmethode zum Auswerten von Protein-NMR-Spektren mit Hilfe eines Genetischen Algorithmus, Hamburg: Diplomica Verlag
- Schlagworte: 15N-HsqC-Spektrum, NOESY-Spektrum, Genetische Operatoren, Mutation, PMX-Crossover
In den Warenkorb
74,00 €
Diplomarbeit von Simone Wexlberger
Zusammenfassung:
In der vorliegenden Diplomarbeit wurde ein Genetischer Algorithmus, der die Zuordnung der Residuenummern zu deren 15N-HSQC-Signalen automatisieren und optimieren soll, entwickelt. Die Informationen der 15N-HSQC- und NOESY-Messung können erst nach der richtigen Zuordnung der Residuenummern im Protein verwertet werden. Diese Aufgabe soll der Genetische Algorithmus erledigen, da dies in der derzeitigen wissenschaftlichen Praxis oftmals nur per Hand möglich ist.
Der erste Teil der Arbeit behandelt die Theorie der NMR (Nuclear Magnetic Resonance Spectroscopy) und des Genetischen Algorithmus, soweit dies für das Verständnis der Arbeit nötig ist.
Im zweiten Teil der Arbeit wird das entwickelte Programm erläutert und die einzelnen Klassen sowie die enthaltenen Funktionen erklärt. Auf die Funktionen der Klasse PeakInterpretation.java wird speziell eingegangen, da diese Klasse die genetischen Operatoren Rekombination und Crossover enthält.
Im nächsten Abschnitt werden Programmparameter festgelegt und die Ergebnisse der Testreihen beschrieben. Nach den ersten Läufen wurde ersichtlich, dass mit der vorhandenen Fitnessfunktion keine guten Ergebnisse erzielt werden konnte. Die Fitnessfunktion wurde daher im Anschluss an diese ersten Testläufe geändert, indem man das Bitset proceed entfernte, das für die Überprüfung von doppelt vergebenen Residuenummern eingesetzt wurde (siehe Abbildung 55 Seite 45).
Mit folgenden Parametereinstellungen wurden im nächsten Teil der Arbeit die Proteine mdm2 und b8q ausgewertet.
- Mutationsrate: 0.6 - Rekombinationsrate: 0.9 - Populationsgröße: 100 - Generationszyklen: 50 - Generationsläufe: 0 - 20 000 Mit den oben angegebenen Parametereinstellungen konnte das Protein mdm2 bis zu 75 % ausgewertet werden.
Beim Protein b8q war die erzielte Zuordnungsrate geringer als bei Protein mdm2. Bei den Läufen wurden maximal 19 Residuenummern richtig zugeordnet. Dies bedeutet, dass das Protein zu 58 % die richtige Zuordnung besitzt. Zur Verbesserung dieses Ergebnisses innerhalb eines Laufes wurden weitere interessante Spektren mit einem Fitnesswert, der nahe am maximalen Fitnesswert des Laufes liegt, mit betrachtet. Dadurch war es möglich die Zuordnungsrate auf 61 % zu erhöhen. Des weiteren konnte bei diesen Läufen festgestellt werden, dass es Spektren mit demselben Fitnesswert gibt, aber mit unterschiedlicher Anzahl an richtig zugeordneten Residuenummern. Der Grund liegt darin, dass mit der 1. und 2.
Fitnessfunktion nur qualitative Beurteilungen der getroffenen Zuordnung möglich sind (siehe Abbildung 55). Um eine bessere Beurteilung zu erhalten, wurde die Fitnessfunktion erweitert, um quantitative Aussage zu ermöglichen. Trotz mehrmaliger Änderung der Fitnessfunktion (siehe Abbildung 55) war es nicht möglich eindeutige Ergebnisse zu erzielen. Auch bei erneuten Testläufen traten Spektren mit dem selben Fitnesswert und unterschiedlicher Anzahl an richtig zugeordneten Residuenummern auf. Daraus ist zu schließen, dass es nicht möglich war eine quantitative Beurteilung über Peakobjekte, deren HNVerbindungen sowie Residuenummern nicht innerhalb von 4 Ångström lagen, in die Fitnessfunktion aufzunehmen. Um eine Erhöhung der Zuordnung zu erreichen sind weitere Informationen über die 15N-HSQC-Signale nötig, um somit die Auswahl an möglichen Residuenummern pro 15N-HSQC-Signal zu erniedrigen. Ein Lösungsansatz für dieses Problem wäre, eine Möglichkeit zu finden bei der 15N-HSQC-Messung die einzelnen Signale nach Aminosäure-Typ zu markieren. Dadurch wäre es möglich pro 15N-HSQC-Signal die Aminosäure vorauszusagen und somit die Auswahl an möglichen Residuenummern zu erniedrigen.
Inhaltsverzeichnis:
| 1.0 | Einleitung | 1 |
| 1.1 | Aminosäuren | 2 |
| 1.2 | Proteine | 2 |
| 2.0 | Theoretische Grundlagen - Nuclear Magnetic Resonance Spectroscopy | 4 |
| 2.1 | Grundlagen | 4 |
| 2.2 | NMR-Spektren | 5 |
| 2.2.1 | 15N-HSQC | 5 |
| 2.2.2 | NOESY (Nuclear Overhauser and Exchange Spectroscopy) | 6 |
| 2.2.2.1 | Heteronuclear NOE-Effekt (Nuclear Overhauser Effect) | 6 |
| 2.2.2.2 | NOESY-Experiment | 7 |
| 2.3 | Zusammenfassung Theoretische Grundlagen – NMR | 7 |
| 3.0 | Theoretische Grundlagen - Genetischer Algorithmus (GA) | 8 |
| 3.1 | Allgemeines zum GA | 8 |
| 3.2 | Terminologie des Genetischen Algorithmus | 9 |
| 3.3 | Kodierung | 10 |
| 3.4 | Basisalgorithmus | 11 |
| 3.4.1 | Einflussgrößen | 11 |
| 3.5 | Genetische Operatoren | 12 |
| 3.5.1 | Selektion | 13 |
| 3.5.2 | Rekombination | 13 |
| 3.5.3 | Reproduktion | 14 |
| 3.5.4 | Mutation | 15 |
| 4.0 | Entwicklung eines Genetischen Algorithmus zur Auswertung von Protein-NMR-Spektren | 16 |
| 4.1 | pdb-Datenfile | 16 |
| 4.2 | 15N-HSQC-Datenfile | 17 |
| 4.3 | NOESY-Datenfile | 18 |
| 4.4 | Überarbeitung der eingelesenen Daten | 18 |
| 4.4.1 | pdbMatrix | 19 |
| 4.4.2 | NoesyMatrix | 19 |
| 4.5 | Programmklassen | 20 |
| 4.5.1 | AnalyseSpectrum.java | 20 |
| 4.5.2 | FileInput.java | 21 |
| 4.5.3 | World.java | 21 |
| 4.5.4 | Situated.java | 21 |
| 4.5.5 | Peak.java | 21 |
| 4.5.6 | PeakInterpretation.java | 22 |
| 4.5.6.1 | Fitnessfunktion | 22 |
| 4.5.6.2 | Rekombination | 23 |
| 4.5.6.3 | Mutation | 24 |
| 4.5.7 | Population.java | 25 |
| 4.6 | Testreihen | 26 |
| 4.6.1 | B8Q - Proteindaten für die Testreihen | 26 |
| 4.6.2 | Mutationsrate und Rekombinationsrate | 26 |
| 4.6.2 | 2. Fitnessfunktion - Mutationsrate und Rekombinationsrate | 28 |
| 4.6.3 | Bestimmung der optimalen Populationsgröße | 30 |
| 4.6.4 | Einstellung der Populationszyklen | 31 |
| 4.6.5 | Zusammenfassung der Testreihen | 33 |
| 5.0 | Auswertung der Proteine | 34 |
| 5.1 | Protein - mdm2 | 34 |
| 5.1.1 | mdm2- Auswertung | 34 |
| 5.2 | Protein - b8q | 36 |
| 5.2.1 | b8q – Auswertung | 36 |
| 6.0 | Einbezug von quantitativen Gesichtspunkten in die Fitnessfunktion | 39 |
| 6.1 | Einbeziehen von zusätzlichen Parametern | 39 |
| 6.2 | Distanzmatrizen mit Betrag | 39 |
| 6.3 | 3. Fitnessfunktion | 40 |
| 6.4 | 4. Fitnessfunktion | 42 |
| 7.0 | Zusammenfassung und Ausblick | 44 |
| 8.0 | Abbildungen | 47 |
| 9.0 | Abbildungsverzeichnis | 54 |
| 10.0 | Literaturverzeichnis | 55 |
| 10.1 | Literatur zur NMR | 55 |
| 10.2 | Literatur zum Genetischen Algorithmus | 56 |
| 11.0 | Appendix | 57 |
In den Warenkorb
74,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832474294
Arbeit zitieren:
Wexlberger, Simone Oktober 2003: Entwicklung einer Optimierungsmethode zum Auswerten von Protein-NMR-Spektren mit Hilfe eines Genetischen Algorithmus, Hamburg: Diplomica Verlag
Schlagworte:
15N-HsqC-Spektrum, NOESY-Spektrum, Genetische Operatoren, Mutation, PMX-Crossover



