Wie Deep Learning Video- SEO vorantreibt.

Die disruptive Entwicklung im Bereich der visuellen Information schreitet voran.

Bislang kaum realisierbare Video-Suchvorgänge, bei denen man innerhalb des Video-Bild-Kontextes suchen kann, sind nun dank fortgeschrittener Technologie wie Deep Learning möglich.

Es ist wirklich spannend zu sehen, wie Video-SEO dank der neuesten Algorithmen und der enormen Rechnerleistung Realität wird so SEJ.

Für kreative, schöpferische Menschen wird der Traum, die Suche nach Inhalten auf visuelle Medien auszuweiten, offenbar wahr. Bisher war es keinem Algorithmus möglich, Bildmaterial zu entschlüsseln. Die visuelle Videosuche öffnet nun ein komplett neues Feld, in dem Video zum neuen HTML wird: Das neue, visuelle SEO erfasst nun das, was sich im Bild befindet. Wir befinden uns in aufregenden Zeiten, mit neuen Playern, die sich auf die visuelle Videosuche eingeschworen haben.

Hinter den Kulissen des Deep Learning

Viele Forschungsgruppen haben die Köpfe zusammengesteckt, um den Bereich des Deep Learning voranzutreiben. Die Nutzung einer modernen Datenbank wie ImageNet hat dem Deep Learning einen großen Schub gegeben. Die Möglichkeit, ein Video zu untersuchen und festzustellen, was sich in den einzelnen Frames befindet und diese Inhalte zu beschreiben, erzeugt gigantische visuelle Keywords.

Was ist Deep Learning noch, neben einer fortgeschrittenen Technologie? Es ist, zusammen mit AI (Artificial Intelligence) eines der großen Themen unserer Zeit. Deep Learning hat seinen Ursprung in der höheren Mathematik der Datenverarbeitung und soll die Funktion des menschlichen Gehirns nachbilden. Das menschliche Gehirn ist zusammengesetzt aus ca. 80 bis 90 Milliarden Neuronen, deren Funktion man seit längerer Zeit versucht zur Gänze zu verstehen und künstlich abzubilden. In Ansätzen können Maschinen deshalb jetzt das tun, was früher nur Menschen und einigen, wenigen Tieren vorbehalten war: Lernen. Das stellt alles bisher Dagewesene auf den Kopf.

Die Evolution von Deep Learning wurde von Vordenkern wie Yann LeCrun (Facebook), Geoffrey Hinton (Google), Andrew Ng (Baidu) und Li Fei-Fei (Direktor des Stanford AI Lab und Gründer von ImageNet) ganz wesentlich vorangetrieben.

Das ist ein heißes Thema. Die Big Player auf dem Markt haben ihre Deep Learning-Plattformen frei zugänglich gemacht, um neuronale Netzwerke in allen Ausführungen laufen zu lassen. In einem Interview mit der New York Times sagte Fei-Fei: „Meiner Meinung nach sind Pixeldaten in Bildern und Videos die Dunkle Materie des Internets. Wir beginnen, diese Materie zu erhellen.“ Das war 2014.

Große Zahlen

Ein Denkanstoß: Ein Video ist eine Abfolge von Bildern, die miteinander verbunden sind und mit 30 Frames pro Sekunde abgespielt werden. Diese Menge an Frames zu analysieren ist eine große Herausforderung.

Für einen Menschen ist es keine besondere Leistung, Videos zu betrachten und diese Bilderflut in Echtzeit zu verarbeiten. Eine Maschine mit dieser Art Aufgabe beauftragen zu sollen, ist eine große Herausforderung für die Programmierer. Maschinen, die Bilder verarbeiten, müssen eine enorme Leistung erbringen; diese Aufgabe in Echtzeit zu bewältigen, ist noch einmal eine ganz andere Hausnummer. Es müssen zum Beispiel Umrisse, Symbole, Objekte und Bedeutungen entziffert werden. Klassifizierungssysteme für Videobilder zu kreieren bedeutet also, mit einer enormen Anzahl einzelner Frames in einem Video klarzukommen, damit die Maschine erkennen kann, was die Bilder enthalten bzw. darstellen, um sie anschließend kategorisieren (klassifizieren) zu können.

Leads generieren mit YouTube?
Wir rocken das für Sie!

Visuelle Suche

Am 28. September 2016 hat ein siebenköpfiges Google Forschungsteam „Youtube-8M“ veröffentlicht und damit ein zeitgemäßes Deep Learning Modell gelauncht. YouTube-8M besteht aus acht Millionen YouTube Video-URLs, was ungefähr 500.000 Stunden Videofilm entspricht, alle sind gelabelt mittels eines 4 800 grafische Einheiten (Knowledge-Graph-Entities) umfassenden Sets.

Das ist ein großer Schritt im visuellen Deep Learning. Das Ausmaß von YouTube-8M erforderte viel Aufwand für die Vorverarbeitung von Bildern, um die Bildfeldabmessungseigenschaften zu ermitteln. Das Team verwendete das Inception-V3 Bildnotierungssystem, das auf ImageNet entwickelt wurde. Das Tolle daran ist, dass wir alle nun Zugang zu einem sehr großen Video-Kennzeichnungssystem haben, wobei Google die Hauptarbeit beim Kreieren von 8 M geleistet hat.

Der Dreh, um mit diesen Unmengen an Daten klarzukommen: Die Anzahl der zu verarbeitenden Daten zu reduzieren. Der Schlüssel hierbei ist, die Frame Level Features auf ein Frame pro Sekunde zu reduzieren und auf diese Weise einen handhabbaren Datensatz zu erhalten.

Damit bleiben so wenig Bildinformationen übrig, dass eine Verarbeitung der Daten möglich wird. Bei dieser Größe kann man ein TensorFlow-Modell mit einer einzelnen grafischen Verarbeitungseinheit anlernen. Zum Vergleich: Der 8M hätte ohne diese Reduktion ein Petabyte an Videospeicher benötigt und 24 CPUs Rechnerkapazität für über ein Jahr in Beschlag genommen. Daran lässt sich ermessen, warum eine Vorverarbeitung für die Videodatenanalyse notwendig war und die Frame-Reduktion einen kontrollierbaren Datensatz erzeugen sollte.

Große Möglichkeiten für das Deep Learning

Google kann demnach zwei Teile des Deep Learning-Hattrick für sich reklamieren. Zunächst hat der Konzern ein videobasiertes Kennzeichnungssystem, das Youtube-8M, geschaffen. Dies wird der Branche große Unterstützung beim Analysieren von Videos liefern. Ohne ein Kennzeichnungssystem wie ImageNet wäre die ungeheure Arbeit der Video-Analyse nicht zu leisten. Zweitens hat Google die Open Source-Software Library Tensoflow geschaffen, diejenige Deep Learning-Plattform, die eine Revolution des Deep Learning im Videobereich ausgelöst hat.

Und weil der Zugang zu einer immensen Daten-Pipeline für Google eine leichte Übung ist, schließlich besitzt es YouTube, können alle, die große Mengen an Video kreieren, ebenso wie die Nutzer, daran partizipieren.

Nicht zu vergessen: Der Code des Deep Learning und seine Hardware wurden demokratisiert. Die visuelle Pipeline steht im Zentrum. Der Zugang zu einer robusten Datenpipeline macht den entscheidenden Unterschied: Anbieter, die über eine entsprechende Pipeline verfügen, werden aus dieser Konstellation einen Wettbewerbsvorteil ziehen.

Ein großer Anfang

Im Fahrwasser von Google mit seiner TensorFlow-Library hat Facebook seine eigene Plattform für künstliche Intelligenz namens FAIR gelauncht (wobei ihnen Baidu, die chinesische Suchmaschine, dicht auf den Fersen liegt).

Die disruptive Entwicklung im Bereich der visuellen Information schreitet voran. Wir befinden uns im Zeitalter sehender und denkender Maschinen, wobei „sehen“ das „Verstehen“ mehr und mehr einschließen wird. Das bedeutet nicht weniger als der nächste Sprung maschinengestützten Arbeitens. Video-SEO auf der Grundlage von Deep Learning ist auf dem Weg, die Bedeutung einzunehmen, die Schlüsselwörter für das HTML haben.

Eine visuelle Suche bietet neue Möglichkeiten und senkt die für weitere Innovationen erforderlichen Investitionen in Technologie. Die Anwendungsbereiche rund um das Deep Learning werden immer mehr erweitert, sei es bei der Verarbeitung von medizinischem Bildmaterial oder in selbst fliegenden Drohnen, und das ist erst der Anfang.

Deep Learning wird Auswirkungen auf unseren Alltag haben in einem Ausmaß, wie wir es uns jetzt noch gar nicht vorstellen können.

Sowohl Instagram als auch Snapchat nutzen bereits sticker overlays auf der Grundlage von Gesichtserkennung und Google Photo sortiert Fotos besser als jede andere App auf dem Markt. Bei Houzz werden mittlerweile Einkäufe durch Objekterkennung getätigt, was Produktidentifizierung auf der Grundlage von Deep Learning einen weiteren Schub gibt. Die Zukunft für Deep Learning sieht blendend aus, das gilt auch für das Generieren von Content. Schon sehr bald werden wir der künstlichen Intelligenz beim Produzieren und Editieren eines Videos über die Schulter schauen können …

Sie möchten eine strukturierte Analyse Ihres YouTube Channels?
Nutzen Sie unseren YouTube Channel Analyzer!