Feeds:
Beiträge
Kommentare

Archive for the ‘Informatik’ Category

ResearchbloggingBastian sagt:

Das Google so ziemlich alle Nutzerdaten und Suchanfragen speichert dürfte für die meisten Leser hier ja nichts neues sein. Was für viele Menschen ein bedrohliches Big Brother-Szenario ist ignorieren andere einfach. Doch das Google damit nicht nur vermeintlich passende Werbung an den Mann bringen kann beweisen sie in einem Paper das letzte Woche in Nature erschienen ist.

Die Rede ist von den Google Flu Trends die das Ausbrechen von Grippe-Wellen beobachten. Die Grippe wird von den Influenzaviren ausgelöst und führt auch in Deutschland noch jährlich zu einigen Todesfällen.

Zur Beobachtung von Ausbrüchen haben sich die Jungs und Mädels zusammengesetzt und sich mal die Daten des US Centers for Disease Control and Prevention (CDC) und der European Influenza Surveillance Scheme (EISS) besorgt. Diese Organisation bekommen ihre Daten zum Teil auch über die Rückmeldungen von Ärzten die Grippe-Fälle weitermelden müssen.

Dann werden die Fälle gesammelt und wöchentlich veröffentlicht. Durch dieses ganze Prozedere entsteht eine Zeitverzögerung von 1-2 Wochen. Und genau hier setzt Google an, denn zu Zeiten von Grippewellen könnte man ja damit rechnen das auch im Web verstärkt nach Schlagworten gesucht wird die mit der Krankheit zusammenhängen. Um entsprechende Schlagworte zu finden hat Google die Suchdaten der letzten 5 Jahre ausgewertet zusammen mit den an die CDC gemeldeten Arztbesuche im Zusammenhang mit Grippe.

Durch diesen Vergleich wurden dann ein Set aus Suchanfragen erstellt das den höchsten Zusammenhang mit den Grippe-Daten der CDC hatte. Durch die Anzahl von Suchanfragen aus diesem Set kann dann wieder zurückgerechnet werden wieviel Prozent der Arztbesuche im Zusammenhang mit Grippe-Erkrankungen erfolgten.

Und so hat man ein Modell was prinzipiell aus der Zusammensetzung der Suchanfragen den Grippe-Status der Bevölkerung ausweisen kann. Und das dies erstaunlich gut funktioniert zeigen die Daten die Google Anfang 2008 errechnet hat: Die Werte stimmen erstaunlich gut mit den Daten der CDC überein. In der Grafik sieht man in Schwarz die von Google vorhergesagten Daten und die von der CDC erstellten Daten.

Google FluTrends

Das wäre so weit ja schön und gut. Doch nicht wirklich nützlich. Aber wie man ebenfalls aus dem Graphen sieht hat Google einen entscheidenden Vorteil:
Es ist fast 2 Wochen schneller als die CDC weil die Daten der Suchanfragen viel unmittelbarer ausgewertet werden können als wenn der Arzt erst seine Daten an die CDC schicken muss die diese dann wöchentlich veröffentlicht.

Bislang lassen sich die Daten leider nur für die USA abrufen, bleibt abzuwarten ob Google den Dienst irgendwann ausweiten wird.

Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski, Larry Brilliant (2008). Detecting influenza epidemics using search engine query data Nature, 457 (7232), 1012-1014 DOI: 10.1038/nature07634

Advertisements

Read Full Post »

ResearchbloggingBastian sagt:

Jeder der die englische Sprache erlernt hat dürfte sich über die blöden unregelmässigen Verben geärgert haben die es einfach auswendig zu lernen galt. Bei regelmässigen Verben werden Simple Past und Past Participle einfach durch anhängen von -ed gebildet, wie die Reihe talk/talked/talked während die unregelmässigen Verben scheinbar keinen Regeln folgen (go/went).

Das dürfte zwar nicht die Motivation der Bioinformatiker gewesen sein die sich mit dem Aussterben dieser unregelmässigen Formen beschäftigt haben, aber vielleicht erfüllt es ja den einen oder anderen mit Genugtuung dass sie immer weniger werden, denn auch Sprache ist ja lebendig und folgt einer Art Evolution.

Übrigens gibt es noch einen kleinen Trost für alle die ungern auswendig lernen: Nur 3% aller englischen Verben sind unregelmässig. Der Haken bei der Sache: Die Top 10 der meistbenutzten Verben sind ausschliesslich unregelmässig.

Deshalb untersuchte das Team von Bioinformatikern einen Satz von 177 Verben zu verschiedenen Zeitpunkten. Sie schauten sich diese im Alt-Englischen – so um 800 n. Christus -, im Mittel-Englisch was so um die 1200 war (als Beispiel werden im Paper die Canterbury Tales angeführt) und als letzten Punkt die Gegenwart an.

Im Alt-Englischen waren all diese Verben noch unregelmässig, während im Mittel-Englischen schon nur noch 145 der betrachteten Verben ihre unregelmässige Form hatten. Und heute sind es nur noch 98.

Eine Theorie für das Aussterben der unregelmässigen Formen hängt mit der Häufigkeit der Verwendung der Worte ab. Je seltener die Verben benutzt werden desto schneller geraten die unregelmässigen Formen in Vergessenheit und werden durch Regelmässige ersetzt.
Und um dies zu überprüfen schauten sie sich die gut 18 Millionen Worte umfassende CELEX-Datenbank an und erhielten so die Nutzungsfrequenzen der Wörter die sie mit dem Aussterben der unregelmässigen Verben in Relation setzten und erhielten einen erstaunlich einfachen Zusammenhang:

Die Halbwertszeit von unregelmässigen Verben ist proportional zur Quadratwurzel der Nutzungsfrequenz. Oder um es in einem kleinen Beispiel einfacher auszudrücken: Ein Verb was 100mal weniger benutzt wird als ein Vergleichs-Verb wird 10mal so schnell zum regelmässigen Verb.

Und damit haben die Forscher dann auch Vermutungen angestellt über die Zukunft: Sollte der Trend zum Verfall so weiterlaufen wie bisher werden im Jahre 2500 nur noch 83 der 177 betrachteten Verben unregelmässig sein. Darüber hinaus haben sie auch eine Vorhersage gemacht welches der Verben als nächstes regelmässig werden wird: Vermutlich wird es wed/wed/wed sein, was mit nur 4,2 mal pro Million Verben benutzt wird. Es wird dann zu wed/wedded/wedded regelmässig gemacht.

Also liebe Englisch-Schüler, es wird noch etwas dauern bis ihr euch das Auswendiglernen sparen könnt.

Erez Lieberman, Jean-Baptiste Michel, Joe Jackson, Tina Tang, Martin A. Nowak (2007). Quantifying the evolutionary dynamics of language Nature, 449 (7163), 713-716 DOI: 10.1038/nature06137

Read Full Post »

Philipp sagt:
Darum gehts in diesem Paper; „The Basic AI Drives“ von Stephen Omohundro.
Die Grundidee ist folgende: Egal wie harmlos das System angelegt ist, es kann aufgrund grundlegender Eigenschaften doch gefährlich werden; nur wie?

Künstliche Intelligenz wird in diesem Paper als die Eigenschaft definiert, nach der ein System festgesetzte Ziele hat, die es versucht durch Handeln zu erreichen, und komplexere Systeme sollten in der Lage sein, die Konsequenzen ihrer Aktionen im Voraus einzuschätzen.
Aus dieser Grundüberlegung zieht der Autor den Schluss, das solche Einheiten gewisse Triebe entwickeln sollten, um auf dem Weg zu ihren Zielen erfolgreich zu sein. Diese Triebe können unter Umständen für Menschen gefährlich werden.
Omohundro nennt 6 mögliche Triebe der KI, die er alle mit schönen, logischen Argumenten (sei es indem er gewisse Eigenschaften von Menschen als Gegenbeispiel nennt oder die Ziele von Schachrobotern aufzeigt) ausführt; da ich das ganze sehr interessant finde gehe ich kurz auf jedes dieser Ziele ein.

1. „Die KI wird sich selbst verbessern wollen“
Spätestens hier denkt jeder an „The Matrix“ (den kennt ja jeder! Ein obskurerer Verweis? Bitte: „Welt am Draht“).
Kurz gesagt: Das System will zu seinem Ziel; indem es sich selbst verbessert, kommt es schneller und effizienter dort an.
2. „Die KI wird rational sein wollen“
Erklärt sich von selbst, Irrationalität (vor allem in späteren „Inkarnationen“, die durch Selbstmodifikation entstehen, z.B. Kinder, die das mühsam erarbeitete Geld ihrer Eltern versaufen – Hallo Papa!) lenkt nur vom Ziel ab.
3. „Die KI wird den Nutzen seiner Funktionen bewahren wollen“
Stimmt nur in einem gewissen Maße, da dieser Trieb mit 1. konkurriert. Seine grundlegenden Funktionen muss das System bewahren, jedoch kann es z.B. Kopien anlegen die dann verändert werden, wie es in der Natur bei der Genduplikation auch geschieht.
4. „Die KI wird gefälschten Nutzen verhindern wollen“
Hier übernehme ich das schöne Beispiel aus dem Text: Wenn man einen Schachroboter baut mit dem Ziel, möglichst viele Spiele zu gewinnen, so könnte er einfach seinen inneren „Spiele gewonnen“-Zähler hochrattern lassen und bequem natürliches Maschinenöl schlürfen gehen.
Allerdings erreicht er so nie sein wahres Ziel – die Maschine wird realisieren, das die Zahl auf dem Zähler niemanden näher zum Ziel bringt, vorausgesetzt die Ziele sind klar und richtig definiert.
5. „Die KI wird sich selbst beschützen wollen“
Ab hier kommen dann die für Menschen gefährlichen Grundtriebe des Systems, wie schon in diversen Filmen und Büchern gezeigt.
Aasimov hat mit seinen drei Gesetzen der Robotik hier vorgegriffen und auch eine simple Lösung dafür gefunden, indem er einfach das menschliche Wohlergehen über den des Systems setzte.
(Allerdings gibt es innerhalb dieser drei Gesetze auch Ausnahmen, näheres gibts wenn man Asimovs Robotergeschichten liest, was ich hiermit offiziell empfohlen habe!)
6. „Die KI wird Ressourcen erlangen und diese effizient nutzen wollen“
Die Ressourcen helfen natürlich beim Weg zum Ziel, auch dieser Trieb kann der Menschheit leicht gefährlich werden.

Das Paper ist einfach zu lesen, bietet (in meinen Augen) schlüssige und interessante Argumente, auch wenn das Thema noch etwas in der Zukunft liegt – noch macht Python nicht einfach so was ich will. Schade.

Bastian sagt:

Ein wirklich interessantes Paper über künstliche Intelligenzen (KI) und ihre Motivationen, eine Ergänzung hätte ich aber noch zu Punkt 3 vorzubringen:

Der Vergleich mit der Genduplikation ist vielleicht etwas ungünstig gewählt, aber im Paper wird kurz darauf eingangen, denn die Evolution der Maschinen hat einen großen Unterschied zu der biologischen Evolution. Die biologische Evolution ist blind, ganz und gar. Sie ist auf kein Ziel gerichtet und erst durch Selektionsdrücke nach der Veränderung/Mutation werden die Positiven aus den Negativen gefiltert. Anders sieht es bei der Evolution der Maschinen aus.

Ganz rational können sie überlegen welche Änderungen welche Konsequenzen mit sich bringen und danach selbst ihren Code so zum positiven abändern. Als kleiner Vergleich zu uns wäre das quasi so, als würden wir unsere DNA/Gene selber dauerhaft zu Lebzeiten ändern und dann vererben können, was weit über gezieltes Züchten von Pflanzen/Tieren hinausgeht.

Der große Unterschied ist also das Evolution in biologischen Systemen durch (auch wenn das vielleicht nicht ganz so elegant klingt) zufällige Mutationen und anschliessende Selektionen, also Try & Error abläuft, während Maschinen zielgerichtet evolvieren können.

Read Full Post »

Philipp und ich machen zur Zeit bei den Münsteraner Bioinformatikern ein kleines Sommerprojekt und im Zuge dessen wir beide auch gerade Python zu lernen. Was gar nicht so einfach ist, bislang haben wir uns hauptsächlich mit try & error über Wasser gehalten und uns dafür auch gar nicht so schlecht geschlagen, denn unsere Vorkenntnisse bestanden nur daraus in der Schule mal Pascal angeschnitten zu haben.

Doch auf Dauer bringt das wenig und um auch etwas schneller zum Ziel zu kommen haben wir nun neben dem Buch Learning Python auch noch eine andere nette Quelle aufgetan:

Das Pasteur-Institut hat extra für Biologen zwei Tutorials geschrieben. Zum einen gäbe es da die allgemeine Einführung für alle die noch gar keine Ahnung vom Programmieren haben. Und zum anderen den Python course in bio informatics.

Besonders nett für Biologen: Alle Beispiele kommen aus dem Umfeld und auch der Gebrauch der spezifischen Bio-Pythonbibliothek wird gut erklärt. Für alle Interessierten sicherlich eine gute Lektüre.

Read Full Post »