Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik

Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Frank Thierolf
  • Abgabedatum: Juli 2003
  • Umfang: 85 Seiten
  • Dateigröße: 5,3 MB
  • Note: 1,0
  • Institution / Hochschule: Technische Universität Darmstadt Deutschland
  • ISBN (eBook): 978-3-8324-7213-9
  • ISBN (Paperback) :
    978-3-8324-7213-9 P
  • ISBN (CD) :978-3-8324-7213-9 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Thierolf, Frank Juli 2003: Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik, Hamburg: Diplomica Verlag
  • Schlagworte: Genregulation, bayesianisch, Netzwerk, Clustering, Differentialgleichungen

Diplomarbeit von Frank Thierolf

Einleitung:

Wie in vielen anderen Bereichen der Informatik, spielt auch in der Bioinformatik die Mathematik eine sehr bedeutende Rolle. Sie stellt Grundlagen, Modelle und Algorithmen bereit, die eine Problemlösung, Analyse oder Simulation in Form von Programmen überhaupt erst ermöglichen.

Mit dieser Arbeit soll ein spezieller Teilbereich dieser mathematischen Grundlagen der Bioinformatik näher beleuchtet werden, nämlich mathematische Modelle und Methoden, die gegenwärtig bei der Analyse der Genexpression zum Einsatz kommen.

Es entspricht hierbei nicht der Zielsetzung, die komplexen biologischen Vorgänge detailliert zu erläutern. Vielmehr sollen nur die für das Verständnis der mathematischen Aufgabenstellungen erforderlichen biologischen Grundlagen in ihren Grundzügen dargestellt werden.

Diese Arbeit soll es dem Leser ermöglichen, auch ohne fundierte biologische Vorkenntnisse einen Eindruck davon zu gewinnen, was die moderne Mathematik im Bereich der Genexpressionsanalyse als Schnittstelle von Molekularbiologie und Informatik zu leisten im Stande ist.

Gang der Untersuchung:

Das Kapitel Biologische Grundlagen führt hierzu einige Grundbegriffe aus dem Bereich der Genetik - wie DNA, Proteine oder Genexpression - ein, deren Kenntnis für das Verständnis dieser Arbeit erforderlich sein wird. Ferner wird dargestellt, wie Versuchsergebnisse durch den Einsatz neuer Techniken wie DNA-Mikroarrays quantifizierbar und damit für mathematische Ansätze zugänglich gemacht werden.

Daran schließt sich eine Betrachtung Boolescher Netzwerke als Modelle der Genregulation an. Nach Einführung einiger Grundlagen stehen unterschiedliche Algorithmen zur Netzwerkidentifikation im Zentrum der Betrachtung; so auch der Reverse-Engineering-Algorithmus (REVEAL) von Fuhrman, Liang und Somogyi.

Im Kapitel Clustering-Methoden wird der häufig der Netzwerkidentifikation vorgeschaltete Prozess des Gen-Clustering erläutert. Hierbei wird dargestellt, wie aus dem gigantischen Vorrat an Genen diejenigen zur Betrachtung isoliert werden, die mit einem bestimmten zu untersuchenden Vorgang oder einer Krankheit in Verbindung stehen. Mit dem Unweighted-Pair-Grouping-Method-Algorithm und K-means werden exemplarisch sowohl eine hierarchische, wie auch eine nicht-hierarchische Clustering-Methode vorgestellt. Beispiele verdeutlichen die Arbeitsweise der Algorithmen.

Mit Bayesianische Netzwerke als Modelle der Genregulation ist ein Kapitel überschrieben, welches einen probabilistischen Ansatz zur Modellierung der Genregulation mittels Bayesianischer Netzwerke darstellt. Aufgrund des nicht-deterministischen Charakters dieser Modelle werden in diesem Kapitel zunächst einige grundlegende Begriffe aus der Stochastik erklärt. Daran schließt sich eine Erläuterung der Grundlagen Bayesianischer Netzwerke sowie des Scorings von Graphen an, bevor auf einen von Imoto, Goto und Miyano vorgeschlagenen Modellierungsansatz eingegangen wird.

Das Kapitel Differentialgleichungssysteme als Modelle der Genregulation trägt jüngeren Entwicklungen Rechnung. Nach Darstellung der Grundidee der Modellierung der Genregulation durch Systeme von Differentialgleichungen wird stellvertretend für die Vielzahl der bereits exisitierenden Ansätze ein Modellierungsansatz von H. Iba und E. Sakamoto vorgestellt.

Ans Ende der Betrachtungen ist eine Diskussion der vorgestellten Modelle und Methoden gestellt. Hierbei sollen insbesondere Stärken und Schwächen der zuvor dargestellten Modellierungsmöglichkeiten aufgezeigt und Anforderungen an künftige Entwicklungen verdeutlicht werden.

Inhaltsverzeichnis:

Vorwort 4
1. Einleitung und Überblick 6
2. Biologische Grundlagen 8
2.1 Proteine 8
2.2 DNA 10
2.3 RNA 12
2.4 Genexpression 12
2.4.1 Transkription 13
2.4.2 RNA-Prozessierung 13
2.4.3 Translation 14
2.4.4 Genregulation 15
2.5 DNA-Mikroarrays 15
3. Boolesche Netzwerke als Modelle der Genregulation 18
3.1 Das binäre Modell 19
3.2 Identifikation boolescher Netzwerke 22
3.2.1 Ein einfacher Algorithmus: BOOL-1 23
3.2.2 Laufzeitbetrachtung für BOOL-1 24
3.2.3 Informationsbedarf 24
3.2.4 Behandlung von Störungen 26
3.3 Der Reverse-Engineering-Algorithm 27
3.3.1 Quantifizierung von Information 27
3.3.2 REVEAL - der eigentliche Algorithmus 30
4. Clustering-Methoden 35
4.1 Euklidische Cluster-Analyse 36
4.1.1 Konstruktion eines Euklidischen Distanzbaumes mittels des Unweighted-Pair-Grouping-Method-Algorithm 38
4.1.2 Nicht-hierarchisches Clustering mit K-means 39
4.2 Alternative Ansätze zur Cluster-Analyse 44
5. Bayesianische Netzwerke als Modelle der Genregulation 47
5.1 Grundbegriffe der Stochastik 47
5.2 Grundlagen Bayesianischer Netzwerke 50
5.3 Scoring von Graphen 52
5.4 Nicht-parametrischer Regressionsansatz 54
6. Differentialgleichungssysteme als Modelle der Genregulation 57
6.1 Die Grundidee 57
6.2 Ansatz von Iba und Sakamoto 58
6.2.1 Genetische Programmierung 58
6.2.2 Methode der kleinsten mittleren Quadrate 60
6.2.3 Der Algorithmus 65
7. Diskussion 68
7.1 Modellvergleich 68
7.2 Ausblick 71
Abkürzungsverzeichnis 73
Abbildungsverzeichnis 75
Literaturverzeichnis 78
Index 82
Ehrenwörtliche Erklärung 84

Automatisiert erstellter Textauszug:

Es ist leicht zu sehen, dass eine maximale Entropie genau dann auftritt, wenn alle Werte gleich wahrscheinlich sind (hier: p (0) = p (1) = 1 ). Umgekehrt ent2 spricht es dem natürlichen Verständnis, dass eine konstante Folge keine Information enthält (hier ist die Entropie gleich Null). Vergleichbar zur Definition bedingter Wahrscheinlichkeiten lassen sich auch bedingte Entropien H ( X | Y ) und H (Y | X ) definieren. Definition 3.12 (aus [11]): Gegeben seien zwei Zufallsvariablen X und Y wie oben. Bezeichne pij die relative Häufigkeit des Auftretens der Werte-Kombination ( xi , y j ) und pi| j die bedingte Häufigkeit des Auftretens von xi unter y j . In diesem Fall definiert sich die bedingte Entropie H ( X | Y ) als H(X |Y) = - [...]

Es liegt auf der Hand, dass das bisher dargestellte Modell in sehr vielen Punkten die tatsächlichen Sachverhalte in einem Maße vereinfacht, das seine praktische Anwendbarkeit auf experimentell ermittelte Daten in Frage stellt. Sieht man von der zentralen Einschränkung durch die Binärisierung und Zeitdiskretisierung der Daten ab, so ist hierbei das Ignorieren einer Existenz von Messfehlern und sonstigen Ungenauigkeiten ebenfalls sehr gravierend. Im Folgenden soll daher eine Modifikation des zuvor betrachteten Algorithmus dargestellt werden, die durch eine Einbeziehung der Möglichkeit von Störungen eine Annährung an die experimentelle Praxis vollzieht. Hierbei führt eine Inkonsistenz mit einem oder mehreren Beispielen nicht automatisch zum Ver26 [...]

Satz 3.5 (aus [02]): Algorithmus 3.4 löst das Konsistenzproblem für einen festen inneren Grad K in polynomialer Zeit. Beweis: Im allgemeinen Fall ergibt sich ein Vorrat von 22 booleschen Funktionen mit K Inputs. Zugleich ergeben sich für jedes der n Gene ænö n! < nK ç ÷= K ø K ! × (n - K )! è mögliche Kombinationen von Input-Genen, so dass für jedes Gen O(22 × n K ) Kombinationen von K Inputs und einer booleschen Funktion untersucht werden müssen. Da jeweils m Input-Output-Paare überprüft werden müssen und eine einzelne Überprüfung mit einem Zeitaufwand von O ( K ) verbunden ist, K ergibt sich für den Algorithmus eine Gesamtlaufzeit von O( K × 22 × n K +1 × m) , er ist also polynomial in n. Vielfach lassen sich biologische Zusammenhänge nutzen, um weitere Verbesserungen der gefundenen mathematischen Methoden zu erreichen. So ist beispielsweise die Frage zu stellen, ob sich für die auftretenden funktionalen Zusammenhänge weitere Einschränkungen ergeben. Tatsächlich lassen sich zumeist nicht alle booleschen Funktionen in der Natur wiederfinden, so dass sich die Menge der zu überprüfenden Kombinationen verkleinern und die Geschwindigkeit des Algorithmus vergrößern lässt. [...]

Arbeit zitieren:
Thierolf, Frank Juli 2003: Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik, Hamburg: Diplomica Verlag

Schlagworte:
Genregulation, bayesianisch, Netzwerk, Clustering, Differentialgleichungen

Entdecken Sie mehr zum Thema

Elemente der Maß- und Integrationstheorie
Elemente der Maß- und Integrationstheorie Diplomarbeit von Regine Stefanie Martschiske | Juli 2008 | Note 1,3
diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren