Über aktuelle Durchbrüche im Bereich der Künstlichen Intelligenz und deren Auswirkungen
Der künstlichen Intelligenz im Allgemeinen und neuronalen Netzen im besonderen wurde schon immer eine große Zukunft vorausgesagt. Doch erst seit ein paar Jahren ist die Forschung und die Geschwindigkeit der Rechner so weit gediehen, dass wirkliche Durchbrüche zu erzielen waren. Persönliche Assistenten und andere hochkomplexe Analysen von Daten werden jetzt Realität und werden nicht folgenlos bleiben. Der Programmierer und Mathematiker Ulf Schöneberg erläutert, wie neuronale Netze funktionieren und welche Anwendungen künftig vorstellbar sind.
Für diese Episode von CRE: Technik, Kultur, Gesellschaft liegt auch ein vollständiges Transkript mit Zeitmarken und Sprecheridentifikation vor.
Bitte beachten: das Transkript wurde automatisiert erzeugt und wurde nicht nachträglich gegengelesen oder korrigiert. Dieser Prozess ist nicht sonderlich genau und das Ergebnis enthält daher mit Sicherheit eine Reihe von Fehlern. Im Zweifel gilt immer das in der Sendung aufgezeichnete gesprochene Wort. Formate: HTML, WEBVTT.
Transkript
Shownotes
- Sinclair ZX81
- Sinclair QL
- Acorn Archimedes
- Amstrad CPC
- Compilerbau
- Monoskop: Internationale Stadt Berlin
- Spam
- Maschinelles Lernen
- Bayesscher Filter
- N-Gramm
- CERN
- Large Hadron Collider
- CRE100 Das Internet und die Hacker
- Meteosat
- AltaVista
- PageRank
- Google BigTable
- Apache Hadoop
- MapReduce
- The MNIST Database of handwritten digits
- Neuronales Netz
- Visueller Cortex
- Geoffrey Hinton
- Iris flower data set
- 20 newsgroups data set
- The Next Generation of Neural Networks
- Geoffrey Hinton: Learning multiple layers of representation
- Support Vector Machine
- word2vec
- The Stanford Parser
- Google Street View
- Captcha
- Inside an artificial brain
- Google Deep Dream
- Google Now
- Siri
- Spracherkennung
- Grafikkarte
- OpenCL
- Technologische Singularität
…ich gehe in die Knie! Vielen Dank für eine Fortsetzung CRE…ich bin gespannt.
Hey Tim,
freue mich sehr, dass es nach 8 Monaten weitergeht!! Sehr cooles und interessantes Thema!
Danke!!
CRE208 Neuronale Netze ist die aktuelle Folge.
Kannst du mir sagen um welche CRE-Folge es sich handelt.
Der einzig wahre ist zurück \o/
Und wie!
Bitte unbedingt mehr davon. So ein spannendes, faszinierendes Thema.
Brillant, vielen Dank!
hatten über NN auch mal ne Vorlesung bei freibyte cccfr… wann kommt der cre über Laser?
Todgeglaubte leben eben doch manchmal länger.
Flattr abo renew…
Suuuuuuuuuuuuuuuuuper. Endlich wieder ein CRE. Danke Tim
Juhu! Danke Tim, dass es bei CRE wieder weiter geht. Tolles Thema!
Hab soeben auch mein Flattr Konto wieder aufgeladen, dieser Podcast muss auf jeden Fall belohnt werden!
Super, eine neue Folge!
In CRE161 – CCC und Öffentlichkeit wird auch die „Hacker-Fahrschule“ am CERN erwähnt. Heute erst gehört:)
Extrem interessante Folge!
Ich bin fest davon überzeugt, dass die enorme Leistungssteigerung neuronaler Netze noch komplett unterschätzt wird. Das wird wird auf dem Arbeitsmarkt ganz böse einschlagen. Bisher ignoriert die Politik das absehbare Problem vollends obwohl wir bereits jetzt den Arbeitsmarkt und die sozialen System drastisch anpassen müssten.
Es gibt bereits einen Bot der den ganzen Tag Musik produziert. Er/Sie? heisst Emily Howel und wird in diesem sehr sehenswerten Video an Position 12:18 angesprochen: https://www.youtube.com/watch?v=7Pq-S557XQU
Bitte bitte macht doch einen Podcast mit Tim, Constanze, Frank & Holgi zur Auswirkung der Digitalisierung auf den Arbeitsmarkt und die Sozialsysteme!
Au ja! Keiner versteht anscheinend, dass mehr Computah = weniger Arbeit bedeutet. Es wird nur mit: „die Boomer gehen in Rentöh, wir werdön alle sterböhn!!“ argumentiert…
Wo begegnet uns Deep Learning?
1. Improving Youtube Thumbnails with deep neural nets (http://googleresearch.blogspot.de/2015/10/improving-youtube-video-thumbnails-with.html)
2. Google Voice Search (http://googleresearch.blogspot.de/2015/09/google-voice-search-faster-and-more.html)
3. The neural networks behind Google Voice transcription (http://googleresearch.blogspot.de/2015/08/the-neural-networks-behind-google-voice.html)
Bei bedarf den Research Blog von Google weiter durchklicken ;)
http://www.hexahedria.com/2015/08/03/composing-music-with-recurrent-neural-networks/
Als mein Smartphone heute morgen angab, eine neue Folge CRE runtergeladen zu haben, glaubte ich ja zunächst an eine technische Störung des Pod-Feeds. Aber ich habe mich getäuscht. Vielen vielen Dank an euch beide für diese tolle Folge! Und es ist wirklich super zu hören, dass CRE nicht tot ist und du weiterhin daran arbeiten willst, Tim. Du hast mir den Weg zur Arbeit und zurück nachhause versüßt. Danke!
Noch ne kleine technische Anmerkung: Ich habe die „Benachrichtigungen zu diesem Thema“ aktiviert, also die E-Mail-Notifications bei neuen Kommentaren; Google Mail sortiert die allesamt in den Spam-Ordner, weil sie ihren Guidelines nicht entsprechen, mit Verweis auf https://support.google.com/mail/answer/81126?hl=en#authentication
Vielleicht kannst du dich dessen ja mal bei Gelegenheit annehmen :)
Juchuuu eine neue CRE-Folge. Wird JETZT gesaugt und zum einschlafen angefangen :)
DANKE TIM!
Super Folge.
Und wann kommt Teil 2 und 3 ?
Ich habe noch soviel offene Fragen.
Wie toll! nach langer Zeit endlich mal wieder ein CRE – da musste ich gleich heute meine 3-Stunden Autofahrt nutzen um es komplett zu hören – Wow, und das Thema passt sogar zu aktuellen Projekten. Ich bin 200% begeistert!
Als ITler hätte mich noch etwas mehr interessiert, wie viel Belch man hinstellen muss um ordentliche Ergebnisse zu erhalten und wie lange so was „rechnet“ in Stunden…
Sehr, sehr schön, dass es weiter geht – und dann auch noch mit einem besonders interessanten Thema und vielen Hinweisen auf praktische Beispiele. Die Sendung habe ich gestern Abend gleich an einem Stück durchgehört (okay, und nebenbei einen Schrank aufgebaut ;-) ).
und noch ein Nachtrag: bei Coursera gibt es einen Kurs (kostenlos) von Geoffrey Hinton, aus 2012, über „Neural Networks for Machine Learning“: https://class.coursera.org/neuralnets-2012-001
Den habe ich schon vor einiger Zeit angefangen, oder wer in das Thema einsteigen will, ist dort an der richtigen Stelle. Los geht es bei Perceptrons, über das NIST Beispiel hin zu back propagation uvm.
brauch man da einen Facebook acount für ?
Nö, man kann sich mit einem Facebook anmelden, oder erstellt einen direkt bei Cousera.
~Stefan
Hier ein netter Ansatz der das ganze Spiel etwas weiter treibt indem der Computer selber lernt ein neuronales Netz zu erstellen, bei relativ unbekannter Aufgabe:
http://hackaday.com/2015/06/14/neural-networks-and-mario/
Kleine Anmerkung zum PageRank: was ihr beschreibt ist der (In)Degree, der ist sehr anfällig für Spam und wird daher bei keiner Suchmaschine so verwendet. Beim PageRank hat eine Seite einen hohen Rang, wenn andere Seiten die auf diese verlinken einen hohen Rang haben (ja, das ist rekursiv).
Sehr schöne CRE Episode mal wieder und auch ein spannender Gast!
Ich habe auch mal in AKW 27 jemand von UM bei mir zu Gast gehabt. Ist vielleicht auch noch für den einen oder anderen Hörer hier interessant: http://abendsinderkreativwirtschaft.de/akw027-big-data-und-data-scientist-was-ist-was/
Toll dass es mal wieder eine cre Folge gibt! Tolles Thema!
Woher stammt der Ausschnitt vom Anfang?
2001 – Odyssee im Weltall
Spannendes Thema, das uns in Zukunft sicherlich noch viele beschäftigen wird!
Super Podcast wie immer. Ein Podcast zu der neuen Programmiersprache Rust wäre echt cool!
Geniale Folge!!! Endlich wieder ein CRE.
Aber, dass was an Neuronalen Netzen -vor allem an ihrer Anwendung – wichtig sein wird, ist zu wenig herausgekommen.
Neuronale Netze lösen keine Probleme! Es ist eine geniale Methode Strukturen in Daten zu finden, die statistische Verteilung der einzelnen Datentupel auf dieser Struktur zu analysieren. Und aus dieser Verteilung Schätzungen abzugeben wo sich beliebige andere Elemente in diese Struktur einordnen lassen. Aber auch nicht mehr.
Neuronale Netze wissen nichts, haben nichts gelernt, auch wenn dies den Anschein macht.
Aber und das ist das erschreckende: Selbst die „Analysten“, die das Netzwerk erstellt haben, können nicht herausfinden, welche Logik hinter der Struktur steht. Noch haben Sie eine Aussage, mit welcher Wahrscheinlichkeit ein Treffer vorliegt. Zusätzlich ist es nicht unwahrscheinlich, dass eine Struktur auf Daten gefunden wird, welche gar nicht vorhanden ist. Die Ergebnisse sind extrem Überzeugend, aber selbst wenn ein Fehler sehr klein list, ist ein Fehler nicht auszuschließen.
Wir werden uns noch freuen, wenn Neuronale Netze nicht nur Autos Steuern, sondern politische Entscheidungen beeinflussen.
full ack für absatz 1 und 2, bei 3 irrst du ziemlich komplett,
das ist supergut erforscht und verstanden, das ist mathematik und statistik at it’s best
auch nicht beängstigender als Hochfrequenzhandel
Was ich nicht verstehe: auf der einen Seite heißt es, dass einem neuronalen Netzwerk beizubringen ist, wie Shakespeare zu schreiben, aber auf der anderen Seite kommt nur Pseudo-C-Code heraus, wenn man einem n.N. vorher Kernel-Code eingetrichtert wird. Wat denn nu? Das Beispiel mit dem „non negative“ ist ja sehr beeindruckend, aber so richtig bin ich immer noch nicht vom „Revolutionären“ der n. N. überzeugt.
hey mr C, das war vielleicht etwas schwammig formuliert,
das NN wird texte erzeugen, die shakespeare artig aussehen,
aber es bei genauerem hinsehen eben genau nicht sind,
hier der link zum nachlesen
http://karpathy.github.io/2015/05/21/rnn-effectiveness/
Oh man echt interessanter Beitrag, der vor allem auch nachdenklich macht. Hier auch ein aktuerller Talk von den Datenspuren: https://media.ccc.de/v/DS2015-7085-hey_amazon_kennen_wir_uns_glaube_nicht
hi . würd mir den Podcast gerne wie gewohnt über iTunes ziehen, aber irgendwas bockt da rum.. anstelle des „Lade-fortschritt-kreises“ kommt da nur n Ausrufezeichen..
Nachtrag : musste grad feststellen, dass das gleiche Problem auch beim Freakshow podcast auftritt ( iTunes 11.4 ).
Einfach SUUUUUUPER!!!
Finde ich auch!
Das war das spannendsde Thema bisher. Die neuronalen Netzwerke verändern vieles.
Es gibt auch Grenzen.
Experten wählen die Netzwerke aus und trainieren sie. Übersetzungen sind immer noch abenteuerlich, da die Grammatik nicht stimmt. Das Beispiel Positiv und Nichtnegativ in einen Topf zu werfen zeigt, dass ein NN keinen Mathematiker ersetzen kann. Auch Linguisten sind weiterhin gefragt:
Das Netz, das die Text/Sprachanalyse durchführt, beruht auf der Annahme, dass die Wörter getrennt sind. Das ist im Chinesischen nicht der Fall. Linguisten trennen Sätze in Wörter auf.
siehe den Vortrag von Dan Jurafsky aus Stanford über word tokenization.
http://m.youtube.com/watch?v=jBk24DI8kg0
Es wäre interessant, die Grenzen des Schach spielenden NN herauszufinden.
Andererseits kann man mit NNs viele Dinge automatisieren, wie Bild- und Spracherkennung. Ein spannendes Thema
I just had a nerdgasm :D
Spaß beiseite: Ein hammer, hammer geiler CRE! Bin jetzt seit fast 10 Jahren treuer Hörer und diese Folge war die für mich bislang beste!
Danke Tim und hoffentlich kommt hier noch ganz lange viel mehr :)
Bezüglich regelmäßiger Erneuerung von Indizes in Datenbanken: Man nimmt doch heutzutage nicht mehr nur einfache B-Trees sondern self-balancing trees, z.B. Red-Black-Trees oder AVL-Trees.
Der GIN Index in PostgreSQL ist als Red-Black-Tree realisiert und sollte dieses degenerative Verhalten daher nicht zeigen.
Macht die Firma mit dem O hier noch was entscheidendes besser / anders? Ich ging immer davon aus, dass die auch nur mit Wasser kochen :)
Danke, dass es endlich weiter geht, Tim! Bitte, Bitte, Bitte wieder mehr CRE!!! Ich höre auch Deine anderen Formate, aber das hier ist definitv das Beste IMHO. Und das Thema war auch genial, alles was der Geek braucht! Weiter so!
Da gibt es nichts mehr hinzuzufügen!
Lieber Tim,
danke für eine neue Folge. Für mich zusammen mit dem Astropeiler die beste Folge des ganzen Podcasts, ein unglaublich faszinierendes Thema. Werde mich da definitiv mal weiter einlesen.
Martin
Spannend das. Und Spaß gemacht hat’s auch :)
Gibt es eigentlich schon Menschen, die NNs auf die großen literarischen Quellen unserer Kulturgeschichte losgelassen haben?
Also Platon, Bibel, Cicero, Aristoteles und so?
Nicht dass ich erwarten würde, dass da ernst zu nehmende philosophische/theologische Erkenntnisse bei rauspurzeln würden, aber Bezüge herzustellen und zu assoziieren ist ja das, was Geisteswissenschaften im Grunde ausmacht.
Das heißt, dass man von den Ergebnissen eines NNs da so einige interessante Denkanstöße bekommen könnte, im Sinne davon, sich einige Stellen und mögliche Bezügsgrößen mal genauer anzuschauen.
http://karpathy.github.io/2015/05/21/rnn-effectiveness/
Lieber Tim,
diese Folge ist ein echtes Highlight und zeigt, was Du am besten kannst: Interessante Themen und Gesprächspartner auftreiben; für angenehme Stimmung beim Interview sorgen; Fragen so stellen, daß man als Hörer denkt „genau das wollte ich gerade auch fragen“; regelmäßig den Stand der Diskussion zusammenfassen; usw.
Peak Pritlove! (hmm, oder geht da noch was?)
Bitte produziere noch viele, viele Podcasts in genau diesem Schema. Meine flattrs u.a. Spenden hast Du.
Gruß
Steffen
Großartige Episode! Freue mich total, dass es wieder weiter geht!
Danke Tim!
Du hast mein Studium damals deutlich vereinfacht :-)
Yey,
neuen Dialog wunderschön mit Hal eingeleitet und fesselnd, bis zum Schluss, geführt.
Ich musste auch die ganze Zeit an möglich kommende Anwendungen denken und wollte Kurz einen Gedanken teilen;- die „gemmeinnütige“ Leistung und Bemühung von Google, die digitalisierung der Bibliotheksarchive durch zu führen.
http://books.google.at/googlebooks/library/index.html
liebe Grüße
markus
In der Tat, nach der Episode fragt man sich, welche Datensammlungen einen anderen Hauptzweck haben als Futter für ein neuronales Netz zu sein.
Tim, Du machst mein CogSci-Herz glücklich, nachdem Du bei den Ohren eingebrochen warst, als es gerade begann, spannend zu werden mit der Hörverarbeitung! Danke, danke, danke :) Mehr davon! Kognition ist geil!
Fantastische und wirklich interessante Sendung! Bin froh, dass dieses Format wieder mal um eine Sendung erweitert wurde.
Der original PageRank war meines Wissens die Randverteilung eines Markov Models, mit den Websites als States und der Anzahl an Links als Transition Probabilities.
ich glaube das ist sogar immer noch halbwegs so
Hab grade bei Google earth rumgescrollt. Da werden ja jetzt schon alle Strukturen mit 3d Modellen abgebildet. Lieg ich da richtig dass so was auch mit neuronalen Netzen gemacht wird? Schreit ja eigentlich danach. Muster erkennen und dann 3d Struktur drauf werfen.
Vielen Dank für den interessanten Podcast. Es wurde erwähnt das neuronale Netzwerke caskadiert werden. Beispiel war ca. das Erste erkennt die Punkte, das Zweite verbindet Punkte zu Linien, das Dritte interpretiert die Linien. Was mich interessiert wer definiert wann das erste Netzwerk fertig ist und das nächste Netzwerk das Lernen beginnt/die Arbeit übernimmt? Passiert das automatisch, gibt das die Anzahl der Neuronen pro Netzwerk vor oder müssen da die Entwickler eingreifen?
Soweit ich das verstanden habe, passiert das automatisch. Die Entwickler geben vor, wieviele Schichten das Netzwerk hat und aus wievielen Neuronen jede Schicht besteht, sowie welche Ausgabe das Netz für jeden Input aus dem Trainingsdatensatz haben soll (und ein paar technische Parameter wie die Lernrate). Und der Rest passiert dann von alleine.
In diesem Video https://www.youtube.com/watch?v=AgkfIQ4IGaM wird wie ich finde recht gut dargestellt, wie ein gelerntes Netz aussieht bzw funktioniert (die unteren Schichten erkennen einfache geometrische Strukturen wie Hell-Dunkel-Übergänge, die oberen komplexere Dinge wie Gesichter).
Lange gewartet und die Hoffnung fast schon aufgegeben!
Klasse Folge! Weiter so…
Danke für die schöne Sendung. Ich hätte mit noch ein paar Worte zu konkreter Software oder Bibliotheken gewünscht. Nach dem Hören hätte ich gerne direkt selbst ein neuronales Netz gebastelt.
Brillant, vielen Dank!
Cooles Thema, bin gespannt wo uns das noch hinführt
Btw, we are all doomed: http://waitbutwhy.com/2015/01/artificial-intelligence-revolution-2.html
Der Podcast passt ja wirklich. Heute wurde Google Machine Learning Algorithmus mit einem umfassenden Tutorial veröffentlicht und das erste Projekt ist die MNIST Datenbank :D
Sehr interessante Sendung! Ich finde man sollte das ganze auch mal etwas kritisch sehen und klar stellen, dass diese Systeme nicht denken und keine „Bedeutung“ sondern nur Struktur erkennen können. D.h. die Bild Klassifikation „Katze“ wird sehr wohl von Menschen definiert, denn es gibt schlicht keine logische Verbindung zwischen dem Wort und der Bedeutung. Das ist ein altes semiotisches Problem. Außerdem werden die Strukturen nur rein formal bewertet, daher kommt nur „Bullshit“ raus, wenn man dem NN Sprache füttert. Hier wäre der Verweis auf Shannon sicher gut gewesen. Jede natürliche Sprache besteht aus 50% formalisierbaren und 50% nicht formalisierbaren Elementen. Ein System das rein formalisierbaren Strukturen besteht bildet Redundanz, was genau so 0 Information darstellt wie Rauschen. Ich denke es macht keinen Sinn solche Technologien von beiden Seiten zu mystifizieren, wie dies schon immer getan wurde. Und es gibt durchaus Probleme die nicht formalisierbar sind und man sollte dazu nicht vergessen, dass es sich bei einem NN nur um ein Modell handelt.
Komischer weise wird bei solchen Diskussionen oft eine fast esoterische Idee von „Intelligenz“ vermittelt. Ich denke ein wissenschaftlich/rational denkender Mensch müsste eigentlich lange aufgehört haben einen Unterschied zwischen Geist und Körper an zu nehmen. Dieser Körper lernt eben nicht nur Sprache etc. sondern auch den Umgang mit anderen, sprich ist sozial (oder auch nicht). Wer denkt man könnte dies alles mit einem formal logischen System abbilden ist den religiösen Vorstellungen von Leibniz ziemlich nahe…
Habt ihr einen Link zu dem angesprochenen Video in dem die verschiedenen Layer visualisiert werden? Also, diesen LSD-Trip ;-)
eindeutig nicht genau der Link, aber die gleiche Geschichte: http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
Toller Podcast, ein Zehntel so lang wie nötig.
Seitdem frage ich mich was passiert wenn ich ein neuronales Netz mit Primzahlen füttere? Könnte das Netz irgendwann in der Lage sein zumindest zu sagen welche Zahlen mit einer höheren Wahrscheinlichkeit Primzahlen sind als andere?
Hat das schon mal jemand probiert?
Ich nehme an ja und es hat nicht funktioniert sonst wäre wohl einiges im Eimer.
Gibt es jemanden der das weiß?
Cool, Herr Schöneberg hat mir auf dieselbe Frage per email geantwortet:
Hey Alex,
ist ne coole Frage, ich nehme an wenn man ein RNN Netzwerk mit genug
hidden units trainiert, dann wird das Ding die Riemannsche Zeta Funktion
erlernen, das ist so eine Art Näherungsfunktion für Primzahlen
LG
Ulf
Ich vermute eine Schwierigkeit ist, dass man nicht nicht sehr graduell besser werden kann im Primzahl erkennen.
Optimierung ist schwierig, wenn es nur Primzahl oder nicht Primzahl gibt.
Kleine Anmerkung dazu. Zur Entscheidung, ob eine Zahl eine Primzahl ist, gibt es bereits effiziente Verfahren.
Vielleicht hat es deshalb noch niemand probiert.
Wenn es irgendwann ein effizientes Verfahren gibt, dass aus dem Produkt zweier Primzahlen die beiden Faktoren ermittelt, wäre ein Großteil der heute verwendeten Verschlüsselung und Signierung im Eimer.
Das ist ja genau eines der wenigen Probleme, bei dem ein Quentencomputer dem klassischen Computer haushoch überlegen ist.
Themenvorschlag: Human Brain Project
Vieleicht sogar mit Karlheinz Meier, einer der Kodirektoren.
Da gibt’s wohl viel Kritik dran. U.a.:
http://mathbabe.org/2015/10/20/guest-post-dirty-rant-about-the-human-brain-project/
Guter Hinweis.
So wie ich das Projekt verstehe, ist das Geld nicht nur für die Simulation sondern auch für die Erforschung des Gehirns. Die Simulation soll am Ende stehen. Die Kritik richtet sich hauptsächlich daran, dass wir keine Ahnung haben wie das Gehirn funktioniert,aber genau dafür gibt es doch das Geld(für die Neurowissenschaft).
Oder habe ich da was falsch verstanden?
Deswegen ja ein Podcast, der mal alles aufbereitet:
Was für Vorbereitungen wurden bisher getroffen?
Wo geht das Geld hin?
Was gibt es für Kritik?
Was sind die Ziele?
Und alle 3 Jahre einen Zwischenbericht :-)
hätte ruhig was komplizierter werden dürfen. fand ich nun erstaunlich basic und historisch. (die Folge „Das Ohr“ fand ich da sehr toll. Ich hab in der Bahn lange gehadert ob ich einem Jungen mit Cochlea-Implantat den Podcast vorschlagen soll oder ob es unhöflich ist ihn auf sein Implantat anzusprechen. Hab ihn dann angesprochen und er hat mich nicht verstanden :/ )
Natürlich dennoch besten Dank für beste Unterhaltung! Und yay: weiter gehts!
@Tim: die Steuererklärungssache ist nur noch eine Frage des Geldes. Also: ob du an die Software dazu kommst. Ich habe neulich mal die Banking-App der Postbank ansehen dürfen: das Ding sortiert dir deine Kontoab- und Zugänge nach Kategorien. Und das läuft garantiert nicht in deinem Smartphone, sondern irgendwo auf einem Analyse-Server der Bank. Und ja, wenn was falsch zugeordnet wird, kannst du korrigieren, und das Ding lernt.
Und ja, das ist sehr, sehr scary, wenn ich darüber nachdenke, was aus solchen Daten alles herauszulesen ist.
@Ulf: ich würde gern mal mit dir ein wenig über die Vogelstimmen-App plaudern. Ich bin da nicht auf dem laufenden, was eine app angeht, aber es gibt unter http://www.xeno-canto.org eine unfassbar großartige Datenbank von Vogelstimmen-Enthusiasten – unter CC BY-NC-SA 4.0. Das NC machte mir da eigentlich immer Sorgen, denn wie will man eine Infrasturktur zur Erkennung ausziehen, wenn du das völlig non-commercial machen musst? Wenn Du da allerdings eine Idee hast oder sogar die richtigen Leute kennst, dann würde ich gern mal ein wenig Zeit in Überzeugungsarbeit stecken, um da irgendwie was anzustoßen.
Ich habe leider selber von machine learning noch keine Ahnung, habe viel mehr oder weniger klassische Statistik gemacht, v.A. multivariates Zeug. Bayesian stats hab ich nicht weiter verfolgt. Aber das Grundverständis kann ich mir draufschaffen, um mir Leuten zu kommunizieren – die dann sowas auf die Beine Stellen könnten, also: den machine learning -Teil erarbeiten.
Ich könnte möglicherweise Unterstützung von anderer Seite erarbeiten, traue mir sogar zu eventuell die Betreiber von xeno-canto für sowas zu begeistern.
Ulf, du weißt bestimmt schon mal, was im Bereich Vogelstimmen-Erkennung schon gelaufen ist, oder? Und was da aktuell passiert sollte man natürlich auch beachten – nicht, dass da schon jemand so tief drinsteckt, dass das ein totes Pferd ist. Oder man jemandem die Butter vom Brot nimmt.
Oh, BTW: können diese moving-window-Methoden schon mit Metaphern umgehen?
Darmok und Jalad auf Tanagra! Gilgamesch und Enkidu vor Uruk!
Habe gerade ein paar spannende Bilder gefunden, die mithilfe neuronaler Netze entstanden sind.
http://www.boredpanda.com/inceptionism-neural-network-deep-dream-art/?utm_source=facebook&utm_medium=link&utm_campaign=BPFacebook
http://playground.tensorflow.org/
Sehr interessante Folge!
@Tim: Du wirst dich vielleicht wundern, aber Bill Gates hat 1995 in seinem Buch „Der Weg nach vorn“ die Spam-Problematik bereits erkannt. Einer seiner Vorschläge war, dass das Versenden einer Mail zu einem unbekannten Empfänger (d.h der Empfänger hat den Sender der Mail nicht in seiner Kontaktdatenbank) 1 Dollar kostet, welches der Empfänger enthält. Wenn ich mich recht erinnere, wurde auch die dazugehörige Problematik des Micro-Payments thematisiert (was heute immer noch nicht zufriedenstellend gelöst ist)
Lieber Tim, lieber Ulf,
vielen Dank für diesen Beitrag. Für mich als jungen Data Scientist war der historische Abriss interessant.
Ein paar Anmerkungen:
– word2vec ist kein wirkliche tiefes Deep Learning, sondern hat nur einen einzigen Hidden Layer. Genau dieser Layer ist die Vektorrepräsentierung, also das „vec“ im Namen des Algorithmus. Für Input und Outputlayer schaut man sich zum Einen ein Wort und zum Anderen die x umgebenden Wörter (ohne das Wort selbst) an und sagt das Eine aus dem Anderen hervor. Dass damit Relationen wie „Berlin – Deutschland + Frankreich = Paris“ liegt somit daran, dass Länder und Städte in ähnlichen Satzumgebungen vorkommen, Hauptstädte und ihre Länder auch, aber der gemeinsame Kontext von „Berlin“ mit „Frankreich“ sowie „Paris“ mit „Deutschland“ eher klein ist. Ich sehe nicht, wie da behauptet werden kann, dass Grammatik oÄ gelernt wird.
– Betont wird viel der wirklich tolle Vorteil von NN, dass kein Featureengineering notwendig ist. Der Nachteil von NN, dass sie nicht nur langsam lernen sondern auch Riesendatenmengen brauchen (oft werden die Trainingsdaten noch mit vielen Tricks vervielfältigt) kam mir etwas kurz. Aber vielleicht habe ich das nur überhört. Featureengineering passiert übrigens auch für NN, da diesen durch Domänenwissen noch gut geholfen werden kann. (bevor ein NN von alleine auf eine radiale Projektion kommt, gibt man sie ihm lieber gleich mit, zB zum Testen beim bereits geposteten http://playground.tensorflow.org/)
– Mit dem eben beschriebenen Problem der benötigten Datenmengen und dem vielen Trial-and-Error sowie Black-Magic verknüpft kommen in der Praxis (wenn man eben nicht Google mit vielen Daten und Kohle ist) doch noch oft SVMs oder auch Entscheidungsbäume vor, zB das letztlich gehypte XGBoost.
Aber nochmal Danke für diesen Podcast. Bei der immer größeren politischen Relevanz von Algorithmen sollte ja auch mehr Wissen über diese vermittelt werden. Vielleicht wird zumindest die Grundlage damit weniger zu einer Black Box. Unbekannt bleibt hingegen wo Unternehmen ihre NNs nutzen und wie genau sie diese designen :(
Die Folge ist nach wie vor extrem unterhaltsam und spannend, und gerade bei diesem CRE-Highlight würde ich mir eine Fortsetzung wünschen.
Klar, Fortsetzungen sind in diesem Format eher unüblich und die letzte CRE-Veröffentlichung ist auch schon länger her, aber der Impact von neuronalen Netzen sieht im Moment eher nach Technologierevolution als nach vorübergehendem Hype aus.