Bachelor + Master Publishing
811 Bachelorarbeiten, 533 Masterarbeiten, 10.103 Diplomarbeiten

Klassifikation von Tumoren mit GP-basierter DNA-Chip-Analyse

Klassifikation von Tumoren mit GP-basierter DNA-Chip-Analyse
Über dieses Buch
  • Art: Diplomarbeit
  • Autor: Michael Roßkopf
  • Abgabedatum: August 2003
  • Umfang: 133 Seiten
  • Dateigröße: 3,2 MB
  • Note: 1,0
  • Institution / Hochschule: Technische Universität Dortmund Deutschland
  • ISBN (eBook): 978-3-8324-7724-0
  • ISBN (Paperback) :
    978-3-8324-7724-0 P
  • ISBN (CD) :978-3-8324-7724-0 CD
  • Sprache: Deutsch
  • Prämierung:
  • Arbeit zitieren: Roßkopf, Michael August 2003: Klassifikation von Tumoren mit GP-basierter DNA-Chip-Analyse, Hamburg: Diplomica Verlag
  • Schlagworte: Bioinformatik, Krebs, Genexpression, Microarray, genetische Programmierung

Diplomarbeit von Michael Roßkopf

Zusammenfassung:

Krebserkrankungen sind die zweithäufigste Todesursache in den Industrienationen. Daher ist es wichtig, neue Behandlungsmethoden und Medikamente zu entwickeln, die effizienter und schonender wirken als heutige Therapien. Eine wichtige Voraussetzung für jede Behandlung ist die richtige Diagnose. Bei Tumoren gibt es jedoch viele verschiedene Arten und Subtypen, die sich äußerlich kaum unterscheiden, deren Biologie aber sehr unterschiedlich sein kann.

Daher ist die Erfassung der inneren Vorgänge in den betroffenen Geweben von großer Bedeutung. Ein wichtiges Hilfsmittel ist dabei die DNA-Chip-Technologie. Mit DNA-Chips lassen sich „Schnappschüsse“ der Abläufe in den Zellen machen, indem die Genexpression der verschiedenen Gene gemessen wird. Mit Hilfe dieser Expressionsdaten lassen sich dann Rückschlüsse auf die Situation ziehen. So kann man Typen von Tumoren klassifizieren und erkennen, welche Gene am bösartigen Zellwachstum beteiligt sind.

In der Zukunft kann dies vielleicht einmal die Herstellung neuer, spezifischer Medikamente ermöglichen. Problematisch ist jedoch die Auswertung der Expressionsdaten, da es sich dabei nur um lange Folgen von scheinbar zusammenhangslosen Zahlen handelt. Bisher wurden dafür hauptsächlich statistische Klassifikationsverfahren, wie Nachbarschaftsanalyse, selbstorganisierte Karten oder Support Vector Machines benutzt.

Kern dieser Diplomarbeit ist die Untersuchung, wie sich „Genetische Programmierung“ (GP) für die DNA-Chip-Analyse eignet. GP funktioniert im Allgemeinen gut bei der Erkennung von verborgenen Strukturen in großen Datenmengen. Untersucht werden bestimmte binäre und multiple Klassifikationsprobleme aus dem Bereich der Krebsdiagnose, etwa die Frage, ob bestimmtes Gewebe gesund ist oder aus bösartigen Zellen besteht, oder um welche Art von Krebs es sich handelt. Als Datenbasis dienen verschiedene im Internet verfügbare öffentliche Datenmengen, die auch schon mit anderen Klassifikationsverfahren benutzt worden sind. Die Ergebnisse der GP-Versuche sind kleine automatisch generierte Programme, sogenannte Klassifikatoren, die für die Datensätze die jeweils vorher definierte Fragestellung beantworten sollen. Die Arbeit ist folgendermaßen gegliedert:

In Kapitel 2 wird der biologische Hintergrund erläutert. Das Kapitel ist in zwei Teile aufgeteilt. Im ersten Teil wird ein Einblick in die molekulare Genetik gegeben. Dabei werden Geschichte der Genetik, der Aufbau der DNA, der Vorgang der Proteinbiosynthese (Transkription und Translation) und verschiedene Regulationsmechanismen behandelt. Das zweite Unterkapitel befasst sich mit der Biologie von Krebszellen. Dabei wird gezeigt, wie Krebs entstehen kann, aber auch welche Schutzfunktionen die Zellen dagegen besitzen. Einen wichtigen Abschnitt nehmen außerdem die Onkogene ein. Diese speziellen Gene lösen möglicherweise Krebs aus, wenn es zu bestimmten Mutationen kommt, und sie sind ein Hinweis darauf, dass Tumorwachstum ein in jeder Zelle vorhandenes Programm sein könnte.

DNA-Chips sind der Schwerpunkt von Kapitel 3. Es wird erklärt, wie solche Chips benutzt werden und warum sie so vorteilhaft sind. Außerdem gibt es einen Überblick über die verschiedenen Typen von DNA-Chips, über deren Herstellungsverfahren und über die Auslesemethoden. Der zweite Teil des Kapitels handelt von unterschiedlichen Methoden zur Auswertung der Daten. Dabei werden verschiedene bewährte überwachte und nicht überwachte Verfahren aufgeführt und erläutert.

Kapitel 4 widmet sich der Genetischen Programmierung. Darin werden die Parallelen zur Natur anhand einer Einführung in die biologische Evolution gezeigt. Über einfache evolutionäre Optimierungsverfahren und genetische Algorithmen gehen die Ausführungen weiter zur Genetischen Programmierung und ihren Besonderheiten. Danach wird die Software „Discipulus“ vorgestellt. Dieses GP-System wurde für alle Versuche verwendet, die für diese Arbeit durchgeführt wurden.

In Kapitel 5 werden die für diese Arbeit verwendeten Datenmengen vorgestellt. Enthalten ist auch eine Zusammenfassung anderer veröffentlichter Arbeiten, in denen diese Daten benutzt wurden. Dabei werden auch die dort gemachten Ergebnisse aufgeführt. Dies ermöglicht es, spätere Ergebnisse zu vergleichen und die Güte der GP-Klassifikatoren in Relation zu anderen Methoden zu setzen.

Die Vorbereitungen für die Versuche mit „Discipulus“ sind in Kapitel 6 dokumentiert. Da die Datenmengen aus unterschiedlichsten Quellen stammen und sehr umfangreich sind, mussten sie vorher aufbereitet und in ein einheitliches Format gebracht werden. Dazu wurde u.a. eine eigene Software, das Programm „GeneActivator“ entwickelt. Dieses Tool wählt aus der großen Anzahl von Genen, wie sie bei DNA-Chip-Daten vorkommen, eine kleine Menge aus, von der angenommen wird, dass sie besonders relevant für die Bildung von Klassifikatoren ist. Für diese Auswahl wurden verschiedene Verfahren implementiert. Zur Benutzung mit „GeneActivator“ mussten die Originaldaten in einem ersten Schritt umformatiert werden. Diese Vorgehensweise und die Funktionsweise von „GeneActivator“ werden umfassend dargestellt.

Die einzelnen GP-Läufe werden in Kapitel 7 aufgeführt. Dabei wird mit einfachen binären Problemen begonnen, um die unterschiedlichen Genauswahlverfahren von „GeneActivator“ zu testen. Außerdem werden verschieden große Genmengen verwendet, um eine günstige Größe zu finden und so das Phänomen der Überanpassung zu vermeiden. Mit den Erkenntnissen aus den binären Versuchen geht es danach weiter zu multiplen Entscheidungsproblemen. Da „Discipulus“ nur binäre Klassifikatoren erzeugen kann, werden sogenannte One-Versus-All-Experimente gemacht. Dies geschieht zunächst auf einer relativ kleinen Menge mit nur 4 Klassen. Als letzter Versuch wird dann eine Datenmenge mit 14 Klassen analysiert. Die Endergebnisse werden mit den Ergebnissen der in Kapitel 5 vorgestellten Arbeiten verglichen. Dabei wird gezeigt, dass bei 2 der 4 Mengen bessere Ergebnisse erzielt worden sind (Trefferrate bis zu 100%).

Kapitel 8 fasst zum Abschluss die Erkenntnisse aus den verschiedenen Versuchen zusammen und beschreibt mögliche Perspektiven für die Zukunft. Dabei werden Ideen erläutert, wie die evaluierten Verfahren weiter verbessert werden könnten, um in der Praxis eingesetzt zu werden und welche neuen Technologien dazu nötig wären.

Der Anhang A enthält das komplette Handbuch zu der Software „GeneActivator“. Im Anhang B wird der Aufbau dieser Software erläutert. Außerdem wird dort erklärt, wie man das Programm schnell um eigene neue Genauswahlverfahren erweitern kann. Anhang C beinhaltet schließlich einige Hinweise zur Benutzung der beiliegenden Begleit-CD. Auf dieser CD befinden sich neben „GeneActivator“ mit Quellcode und einem Auswertungsprogramm alle Daten in ihren unterschiedlichen Aufbereitungsformen (original, formatiert für „GeneActivator“, verkleinert für „Discipulus“), sowie alle GP-Läufe.

Inhaltsverzeichnis:

1. Einleitung 1
2. Biologische Grundlagen 3
2.1 Molekulare Genetik 3
2.1.1 Einführung in die Geschichte der Genetik 3
2.1.2 Aufbau der DNA 4
2.1.3 Transkription 6
2.1.4 Translation 7
2.1.5 Regulation der Genexpression 9
2.2 Krebserkrankungen 11
2.2.1 Krebsarten und Ursachen 11
2.2.2 Schutz und Reparaturfunktionen der Zellen 14
2.2.3 Onkogene 16
3. DNA-Chips 20
3.1 Aufbau und Anwendung von DNA-Chips 20
3.1.1 Motivation 20
3.1.2 Funktionsweise, Typen und Herstellung 20
3.1.3 Ausleseverfahren 22
3.2 Statistische Lernverfahren zur Analyse von DNA-Chips 23
3.2.1 Abstand der Zentroiden der Klassen 24
3.2.2 Betrachtung der k nächsten Nachbarn 24
3.2.3 Methode der geschrumpften Zentroiden 24
3.2.4 Support Vector Machines 26
3.2.5 Gewichtete Abstimmung 27
3.2.6 Hierarchisches Clustering 28
3.2.7 Selbstorganisierte Karten 28
3.2.8 Doppelt konjugiertes Clustering 30
4. Genetische Programmierung 31
4.1 Idee und Hintergrund von GP 31
4.1.1 Motivation 31
4.1.2 Biologischer Hintergrund: Die Evolution 32
4.2 Evolutionäre Optimierungsverfahren 32
4.2.1 Einfache Evolutionäre Algorithmen 33
4.2.2 Genetische Algorithmen 34
4.2.3 Genetische Programmierung 35
4.3 Das GP-System Discipulus 37
5. Verwendete Datensätze und frühere Arbeiten 40
5.1 Die Dickdarm-Tumor-Datenmenge 40
5.1.1 Klassifikation mit Zweiwege-Clustering von Alon et al. 41
5.1.2 Klassifiktaion mit Support Vector Machines von Furey et al. 41
5.1.3 Klassifikation mit einem genetischen Algorithmus von Li et al. 41
5.2 Die ALL/AML-Datenmenge 42
5.2.1 Klassifikation mit gewichteter Abstimmung und sebstorganisierten Karten von Golub et al. 42
5.2.2 Klassifikation mit Klassifikation mit Support Vector Machines von Furey et al. 43
5.2.3 Klassifikation mit geschrumpften Zentroiden von Tibshirani et al. 44
5.2.4 Klassifikation mit einem genetischen Algorithmus von Li et al. 44
5.2.5 Klassifikation mit selektiver Expression von Aris und Recce 44
5.2.6 Klassifikation mit doppelt konjugiertem Clustering von Busygin, Jacobsen und Krämer 45
5.3 Die SRBCT-Datenmenge 45
5.3.1 Klassifikation mit geschrumpften Zentroiden von Tibshirani et al. 46
5.3.2 Klassifikation mit GP von Driscoll, Worzel und MacLean 46
5.4 Die Klassifikation der GCM-Datenmenge von Ramaswamy et al. 46
6. Vorbereitung und Auswahl der DNA-Chip-Daten 49
6.1 Überblick über die Vorbereitung 49
6.2 Vorbereitungsschritt 1: Datenanpassung 49
6.2.1 Vorgehensweise 49
6.2.2 Aufteilung der verwendeten Datenmengen 50
6.3 Vorbereitungsschritt 2: Gen-Auswahl mit „GeneActivator“ 52
6.3.1 Funktionsweise des Programms 52
6.3.2 Genauswahlverfahren 52
6.3.3 Normalisierung der Daten 56
6.4 Analyse der Genauswahlverfahren 57
6.4.1 Die künstlich erzeugte Datenmenge 57
6.4.2 Genauswahl auf der künstlichen Menge 58
7. GP-Läufe zur DNA-Chip-Analyse 61
7.1 Arbeitsumgebung und allgemeine Einstellungen 61
7.1.1 Verwendete Hardware 61
7.1.2 Verwendete „Discipulus“-Parameter 61
7.2 Binäre Klassifikation 63
7.2.1 GP-Läufe auf der Dickdarm-Tumor-Menge 63
7.2.2 GP-Läufe auf der ALL/AML-Menge 65
7.2.3 GP-Läufe auf der ALL/AML-Menge unter den Bedingungen von Golub et al. 68
7.2.4 GP-Läufe nach diskreter Normalisierung 68
7.2.5 GP-Läufe nach kontinuierlicher Normalisierung 70
7.2.6 Zusammenfassung der Ergebnisse 71
7.3 Multiple Klassifikation 71
7.3.1 GP-Läufe auf der SRBCT-Menge 71
7.3.2 GP-Läufe auf der SRBCT-Menge mit unterschiedlicher Klassengewichtung 76
7.3.3 GP-Läufe auf der SRBCT-Menge basierend auf der Gen-Auswahl von Driscoll et al. 79
7.3.4 GP-Läufe auf der GCM-Menge 82
7.4 Vergleich mit anderen Verfahren und Endergebnisse 86
8. Fazit 88
A. GeneActivator Benutzungshandbuch 90
A.1 Einleitung 90
A.2 Systemvoraussetzungen und Installation 91
A.2.1 Systemvoraussetzungen 91
A.2.2 Installation 91
A.3 Programmbeschreibung 91
A.3.1 Überblick 91
A.3.2 Formatierung einer Datenmenge 91
A.3.3 Beschreibung der Anzeigen 92
A.3.4 Beschreibung der Bedienelemente 95
A.4 Arbeiten mit Selektoren 97
A.4.1 Funktionsweise von Selektoren 97
A.4.2 Beschreibung der Selektor-Typen 98
A.4.3 Benutzung mehrerer Selektoren 100
A.4.4 Auswertung von Selektoren 100
A.4.5 Selektoren „von Hand“ erzeugen 100
A.5 Arbeiten mit Normalisierern 101
A.5.1 Konzept und Funktionsweise 101
A.5.2 Beschreibung der Normalisierer-Typen 101
A.6 Beispielanwendung 102
A.6.1 Vorbereitung der Daten 103
A.6.2 Arbeitsschritte mit „GeneActivator“ 103
A.7 Fehlermeldungen 105
B. GeneActivator API 106
B.1 Klassenbeschreibung 106
B.1.1 Klasse „Calculator“ 106
B.1.2 Klasse „Descriptor“ 109
B.1.3 Klasse „DoubleMatrix“ 109
B.1.4 Klasse „FileIO“ 110
B.1.5 Klasse „Normalizer“ 112
B.1.6 Klasse „Selector“ 113
B.2 Hinzufügen eigener Berechnungsverfahren 116
B.2.1 Überblick 116
B.2.2 Erweiterung der Klasse „Selektor“ 116
B.2.3 Anbindung an die graphische Oberfläche 117
C. Hinweise zur Begleit-CD 119
Literaturverzeichnis 121

Automatisiert erstellter Textauszug:

F¨r Discipulus“ ben¨tigt man zwei oder drei Mengen. Daher mussten die Datens¨tze auf veru o a ” schiedene Tabellen aufgeteilt werden. Auch dieser Schritt wurde mit Excel“ realisiert. Die ” ALL/AML- und die GCM-Menge bestanden bereits aus zwei Dateien f¨r Training und Evaluu ierung. Bei den ubrigen Datens¨tzen gab es diese Unterteilung nicht. F¨r die meisten Versuche a u ¨ wurde jede Datenmenge jedoch in drei Teile partitioniert. Dazu wurde entweder die Originalaufteilung beibehalten und nur die Originaltrainingsmenge (wenn vorhanden) in eine Trainingsund eine Validierungsmenge zerlegt, oder aber es wurde eine komplett neue Einteilung gemacht. Alle Aufteilungen geschahen dabei nach dem Zufallsprinzip, d.h. es wurde manuell ausgew¨rfelt, u allerdings mit der Einschr¨nkung, dass die Gr¨ßenverh¨ltnisse der 0- und 1-Klasse in etwa gleich a o a blieben. Teilweise wurden mehrere Aufteilungen gemacht, um die Ergebnisse mit anderen Klassifikationsverfahren aus fr¨heren Arbeiten vergleichen zu k¨nnen. Daf¨r wurden dann die dort u o u verwendeten Mengen benutzt. Aufteilung der Dickdarm-Tumor-Datenmenge Die 62 Proben umfassende Original-Datenmenge wurde auf folgende Dateien aufgeteilt: a a • Colon Tumor training.txt: 13 Tumordatens¨tze, 8 Datens¨tze von gesundem Gewebe. a a • Colon Tumor validation.txt: 14 Tumordatens¨tze, 7 Datens¨tze von gesundem Gewebe. u a • Colon Tumor training+validation.txt: Menge f¨r die Gen-Auswahl. Sie enth¨lt die Datens¨tze der beiden vorherigen Mengen (siehe Kapitel 6.3). a a a • Colon Tumor applied.txt: 13 Tumordatens¨tze, 7 Datens¨tze von gesundem Gewebe. In allen Mengen wurden Proben von gesundem Gewebe der Klasse 0 und Proben von DickdarmTumoren der Klasse 1 zugeordnet. [...]

Zeilen verwalten. Da man normalerweise mehrere tausend Gene, aber meistens nicht mehr als 100 Datens¨tze hat, w¨re eine andere Anordnung nicht vorteilhaft. Zu den Genexpressionswerten a a kommen in den Originaldateien weitere Angaben wie die Namen der Gene oder Bezeichnungen der Gewebeproben hinzu. In Zusatzdateien findet man zu diesen Bezeichnungen die jeweiligen Diagnosen. Zur Vorbereitung einer Datenmenge wurden alle Zusatzangaben entfernt, so dass nur noch die eigentlichen Werte ubrig blieben. Danach wurde jeder Datensatz einer L¨sungsklasse zugeordnet, o ¨ indem zun¨chst jede Tabelle um eine neue Zeile erweitert wurde. Vorher mussten die m¨glichen a o L¨sungen definiert werden. Da die mit Discipulus“ erzeugten Klassifikatoren bin¨r sind, kann es o a ” nur zwei L¨sungen geben, deren Werte 0 bzw. 1 sind. F¨r jedes Experiment wurde also festgelegt, o u welche Datens¨tze zur Klasse 0 und welche Datens¨tze zur Klasse 1 geh¨ren. Beispielsweise a a o kann eine Klasse 0 aus allen Datens¨tzen von gesundem Gewebe und die Klasse 1 aus allen a Datens¨tzen der Tumorzellen bestehen. Aus diesen so definierten L¨sungen wurde dann jeweils a o die neue Zeile aufgebaut. [...]

Da die Quellen der Datenmengen unterschiedlich sind, ist auch die Form der Dateien recht verschieden, schon weil oftmals verschiedene Scan-Software verwendet worden war. Daher wurden alle Originaltabellen mit Excel 2000“ in ein einheitliches Format gebracht. Diese Software ” kann neben ihrem eigenen Format auch Klartextdateien importieren und in eine Tabellenform umwandeln1 . Wie aber sehen die erzeugten Einheitstabellen im Gegensatz zu den Originaldatenmengen aus? Typischerweise bestehen die Originaltabellen aus Spalten, welche die einzelnen Datens¨tze repr¨sentieren, und aus Zeilen, die f¨r die einzelnen Gene stehen. Diese Anordnung a a u wurde offensichtlich gew¨hlt, um eine gewisse Kompatibilit¨t zu Produkten wie Excel“ zu bea a ” wahren, denn diese weit verbreitete Tabellenkalkulation kann nur 256 Spalten aber ca. 64000 [...]

Arbeit zitieren:
Roßkopf, Michael August 2003: Klassifikation von Tumoren mit GP-basierter DNA-Chip-Analyse, Hamburg: Diplomica Verlag

Schlagworte:
Bioinformatik, Krebs, Genexpression, Microarray, genetische Programmierung

Entdecken Sie mehr zum Thema

diplom.de
Bachelor + Master Publishing

Hermannstal 119 k
22119 Hamburg

Fon: +49 (0) 40 655992-0
Fax: +49 (0) 40 655992-22

Service-Telefon

Rufen Sie uns an:
+49 (0) 40 655992-0

Mo-Fr
09.00-16.00 Uhr

diplom.de in den Medien

Folgen Sie uns bei Twitter & werden Sie diplom.de-Fan bei Facebook!
Schreibtipps unserer Lektoren, Neuigkeiten aus dem Verlagsalltag und das Expertenwissen unserer Autoren als Tweet & Post!
Wir freuen uns auf Sie!

diplom.de BACHELOR + MASTER PUBLISHING

Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Magisterarbeiten, Dissertationen und andere Abschlussarbeiten aus allen Fachbereichen und Hochschulen können Sie bei uns als eBook sofort per Download beziehen oder sich auf CD oder als Buch zusenden lassen. Seit mehr als 15 Jahren ist diplom.de der seriöse, professionelle und erfolgreiche Partner für die Veröffentlichung wissenschaftlicher Abschlussarbeiten.

© Diplomica Verlag GmbH 1996-2011, AG Hamburg HRB 80293 - GF Björn Bedey, USt-IdNr.: DE214910002 - Verkehrsnummer: 12285 - Impressum
Index der Arbeiten - Index der Autoren