Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik
- Art: Diplomarbeit
- Autor: Frank Thierolf
- Abgabedatum: Juli 2003
- Umfang: 85 Seiten
- Dateigröße: 5,3 MB
- Note: 1,0
- Institution / Hochschule: Technische Universität Darmstadt Deutschland
- ISBN (eBook): 978-3-8324-7213-9
-
ISBN (Paperback) :
978-3-8324-7213-9 P - ISBN (CD) :978-3-8324-7213-9 CD
- Sprache: Deutsch
- Prämierung:
- Arbeit zitieren: Thierolf, Frank Juli 2003: Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik, Hamburg: Diplomica Verlag
- Schlagworte: Genregulation, bayesianisch, Netzwerk, Clustering, Differentialgleichungen
In den Warenkorb
74,00 €
Diplomarbeit von Frank Thierolf
Einleitung:
Wie in vielen anderen Bereichen der Informatik, spielt auch in der Bioinformatik die Mathematik eine sehr bedeutende Rolle. Sie stellt Grundlagen, Modelle und Algorithmen bereit, die eine Problemlösung, Analyse oder Simulation in Form von Programmen überhaupt erst ermöglichen.
Mit dieser Arbeit soll ein spezieller Teilbereich dieser mathematischen Grundlagen der Bioinformatik näher beleuchtet werden, nämlich mathematische Modelle und Methoden, die gegenwärtig bei der Analyse der Genexpression zum Einsatz kommen.
Es entspricht hierbei nicht der Zielsetzung, die komplexen biologischen Vorgänge detailliert zu erläutern. Vielmehr sollen nur die für das Verständnis der mathematischen Aufgabenstellungen erforderlichen biologischen Grundlagen in ihren Grundzügen dargestellt werden.
Diese Arbeit soll es dem Leser ermöglichen, auch ohne fundierte biologische Vorkenntnisse einen Eindruck davon zu gewinnen, was die moderne Mathematik im Bereich der Genexpressionsanalyse als Schnittstelle von Molekularbiologie und Informatik zu leisten im Stande ist.
Gang der Untersuchung:
Das Kapitel Biologische Grundlagen führt hierzu einige Grundbegriffe aus dem Bereich der Genetik - wie DNA, Proteine oder Genexpression - ein, deren Kenntnis für das Verständnis dieser Arbeit erforderlich sein wird. Ferner wird dargestellt, wie Versuchsergebnisse durch den Einsatz neuer Techniken wie DNA-Mikroarrays quantifizierbar und damit für mathematische Ansätze zugänglich gemacht werden.
Daran schließt sich eine Betrachtung Boolescher Netzwerke als Modelle der Genregulation an. Nach Einführung einiger Grundlagen stehen unterschiedliche Algorithmen zur Netzwerkidentifikation im Zentrum der Betrachtung; so auch der Reverse-Engineering-Algorithmus (REVEAL) von Fuhrman, Liang und Somogyi.
Im Kapitel Clustering-Methoden wird der häufig der Netzwerkidentifikation vorgeschaltete Prozess des Gen-Clustering erläutert. Hierbei wird dargestellt, wie aus dem gigantischen Vorrat an Genen diejenigen zur Betrachtung isoliert werden, die mit einem bestimmten zu untersuchenden Vorgang oder einer Krankheit in Verbindung stehen. Mit dem Unweighted-Pair-Grouping-Method-Algorithm und K-means werden exemplarisch sowohl eine hierarchische, wie auch eine nicht-hierarchische Clustering-Methode vorgestellt. Beispiele verdeutlichen die Arbeitsweise der Algorithmen.
Mit Bayesianische Netzwerke als Modelle der Genregulation ist ein Kapitel überschrieben, welches einen probabilistischen Ansatz zur Modellierung der Genregulation mittels Bayesianischer Netzwerke darstellt. Aufgrund des nicht-deterministischen Charakters dieser Modelle werden in diesem Kapitel zunächst einige grundlegende Begriffe aus der Stochastik erklärt. Daran schließt sich eine Erläuterung der Grundlagen Bayesianischer Netzwerke sowie des Scorings von Graphen an, bevor auf einen von Imoto, Goto und Miyano vorgeschlagenen Modellierungsansatz eingegangen wird.
Das Kapitel Differentialgleichungssysteme als Modelle der Genregulation trägt jüngeren Entwicklungen Rechnung. Nach Darstellung der Grundidee der Modellierung der Genregulation durch Systeme von Differentialgleichungen wird stellvertretend für die Vielzahl der bereits exisitierenden Ansätze ein Modellierungsansatz von H. Iba und E. Sakamoto vorgestellt.
Ans Ende der Betrachtungen ist eine Diskussion der vorgestellten Modelle und Methoden gestellt. Hierbei sollen insbesondere Stärken und Schwächen der zuvor dargestellten Modellierungsmöglichkeiten aufgezeigt und Anforderungen an künftige Entwicklungen verdeutlicht werden.
Inhaltsverzeichnis:
| Vorwort | 4 | |
| 1. | Einleitung und Überblick | 6 |
| 2. | Biologische Grundlagen | 8 |
| 2.1 | Proteine | 8 |
| 2.2 | DNA | 10 |
| 2.3 | RNA | 12 |
| 2.4 | Genexpression | 12 |
| 2.4.1 | Transkription | 13 |
| 2.4.2 | RNA-Prozessierung | 13 |
| 2.4.3 | Translation | 14 |
| 2.4.4 | Genregulation | 15 |
| 2.5 | DNA-Mikroarrays | 15 |
| 3. | Boolesche Netzwerke als Modelle der Genregulation | 18 |
| 3.1 | Das binäre Modell | 19 |
| 3.2 | Identifikation boolescher Netzwerke | 22 |
| 3.2.1 | Ein einfacher Algorithmus: BOOL-1 | 23 |
| 3.2.2 | Laufzeitbetrachtung für BOOL-1 | 24 |
| 3.2.3 | Informationsbedarf | 24 |
| 3.2.4 | Behandlung von Störungen | 26 |
| 3.3 | Der Reverse-Engineering-Algorithm | 27 |
| 3.3.1 | Quantifizierung von Information | 27 |
| 3.3.2 | REVEAL - der eigentliche Algorithmus | 30 |
| 4. | Clustering-Methoden | 35 |
| 4.1 | Euklidische Cluster-Analyse | 36 |
| 4.1.1 | Konstruktion eines Euklidischen Distanzbaumes mittels des Unweighted-Pair-Grouping-Method-Algorithm | 38 |
| 4.1.2 | Nicht-hierarchisches Clustering mit K-means | 39 |
| 4.2 | Alternative Ansätze zur Cluster-Analyse | 44 |
| 5. | Bayesianische Netzwerke als Modelle der Genregulation | 47 |
| 5.1 | Grundbegriffe der Stochastik | 47 |
| 5.2 | Grundlagen Bayesianischer Netzwerke | 50 |
| 5.3 | Scoring von Graphen | 52 |
| 5.4 | Nicht-parametrischer Regressionsansatz | 54 |
| 6. | Differentialgleichungssysteme als Modelle der Genregulation | 57 |
| 6.1 | Die Grundidee | 57 |
| 6.2 | Ansatz von Iba und Sakamoto | 58 |
| 6.2.1 | Genetische Programmierung | 58 |
| 6.2.2 | Methode der kleinsten mittleren Quadrate | 60 |
| 6.2.3 | Der Algorithmus | 65 |
| 7. | Diskussion | 68 |
| 7.1 | Modellvergleich | 68 |
| 7.2 | Ausblick | 71 |
| Abkürzungsverzeichnis | 73 | |
| Abbildungsverzeichnis | 75 | |
| Literaturverzeichnis | 78 | |
| Index | 82 | |
| Ehrenwörtliche Erklärung | 84 |
Es ist leicht zu sehen, dass eine maximale Entropie genau dann auftritt, wenn alle Werte gleich wahrscheinlich sind (hier: p (0) = p (1) = 1 ). Umgekehrt ent2 spricht es dem natürlichen Verständnis, dass eine konstante Folge keine Information enthält (hier ist die Entropie gleich Null). Vergleichbar zur Definition bedingter Wahrscheinlichkeiten lassen sich auch bedingte Entropien H ( X | Y ) und H (Y | X ) definieren. Definition 3.12 (aus [11]): Gegeben seien zwei Zufallsvariablen X und Y wie oben. Bezeichne pij die relative Häufigkeit des Auftretens der Werte-Kombination ( xi , y j ) und pi| j die bedingte Häufigkeit des Auftretens von xi unter y j . In diesem Fall definiert sich die bedingte Entropie H ( X | Y ) als H(X |Y) = - [...]
Es liegt auf der Hand, dass das bisher dargestellte Modell in sehr vielen Punkten die tatsächlichen Sachverhalte in einem Maße vereinfacht, das seine praktische Anwendbarkeit auf experimentell ermittelte Daten in Frage stellt. Sieht man von der zentralen Einschränkung durch die Binärisierung und Zeitdiskretisierung der Daten ab, so ist hierbei das Ignorieren einer Existenz von Messfehlern und sonstigen Ungenauigkeiten ebenfalls sehr gravierend. Im Folgenden soll daher eine Modifikation des zuvor betrachteten Algorithmus dargestellt werden, die durch eine Einbeziehung der Möglichkeit von Störungen eine Annährung an die experimentelle Praxis vollzieht. Hierbei führt eine Inkonsistenz mit einem oder mehreren Beispielen nicht automatisch zum Ver26 [...]
Satz 3.5 (aus [02]): Algorithmus 3.4 löst das Konsistenzproblem für einen festen inneren Grad K in polynomialer Zeit. Beweis: Im allgemeinen Fall ergibt sich ein Vorrat von 22 booleschen Funktionen mit K Inputs. Zugleich ergeben sich für jedes der n Gene ænö n! < nK ç ÷= K ø K ! × (n - K )! è mögliche Kombinationen von Input-Genen, so dass für jedes Gen O(22 × n K ) Kombinationen von K Inputs und einer booleschen Funktion untersucht werden müssen. Da jeweils m Input-Output-Paare überprüft werden müssen und eine einzelne Überprüfung mit einem Zeitaufwand von O ( K ) verbunden ist, K ergibt sich für den Algorithmus eine Gesamtlaufzeit von O( K × 22 × n K +1 × m) , er ist also polynomial in n. Vielfach lassen sich biologische Zusammenhänge nutzen, um weitere Verbesserungen der gefundenen mathematischen Methoden zu erreichen. So ist beispielsweise die Frage zu stellen, ob sich für die auftretenden funktionalen Zusammenhänge weitere Einschränkungen ergeben. Tatsächlich lassen sich zumeist nicht alle booleschen Funktionen in der Natur wiederfinden, so dass sich die Menge der zu überprüfenden Kombinationen verkleinern und die Geschwindigkeit des Algorithmus vergrößern lässt. [...]
In den Warenkorb
74,00 €
Link zur Arbeit:
http://www.diplom.de/ean/9783832472139
Arbeit zitieren:
Thierolf, Frank Juli 2003: Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik, Hamburg: Diplomica Verlag
Schlagworte:
Genregulation, bayesianisch, Netzwerk, Clustering, Differentialgleichungen



