Opracowany na Politechnice Warszawskiej algorytm Comixify do przekształcania wideo w komiks, spotkał się z zainteresowaniem na całym świecie. W ciągu niespełna miesiąca strona Comixify zanotowała ponad 180 tys. wejść i wygenerowano na niej ponad 22 tys. komiksów – poinformował PAP dr inż. Tomasz Trzciński z PW.
Comixify automatycznie wybiera najciekawsze i najważniejsze klatki z przesłanego filmu, a następnie układa je, dopasowuje do ramek i przerabia graficznie. Tak powstają kadry komiksu.
Autorami projektu są studenci Wydziału Elektroniki i Technik Informacyjnych PW: inż. Maciej Pęśko, Adam Svystun i inż. Paweł Andruszkiewicz. Opiekę naukową sprawowali pracownicy Zakładu Grafiki Komputerowej Instytutu Informatyki: prof. dr hab. inż. Przemysław Rokita i dr. inż. Tomasz Trzciński.
Comixify narodził się z połączenia zainteresowań studentów związanych z komiksami i transferem stylu przy użyciu uczenia maszynowego oraz dotychczasowych publikacji Zakładu dotyczących m.in. przewidywania popularności treści w internecie.
W komunikacie zamieszczonym na stronie internetowej PW twórcy algorytmu wyjaśniają, że przekształcanie filmu w komiks jest podzielone na dwa główne etapy: ekstrakcję klatek i transfer stylu. Na początek wyodrębniane są reprezentatywne sceny z nagrania. Żeby to zrobić, naukowcy rozwinęli algorytm oparty o metodę uczenia ze wzmocnieniem (Reinforcement Learning), a mający na celu inteligentne podsumowanie filmu.
Poprzez dodanie modułu estymującego jakość zdjęcia oraz jego popularność, Comixify jest w stanie – zdaniem jego twórców – nie tylko wybrać z filmu klatki najbardziej reprezentatywne, ale również te, które prezentują najwyższy potencjał estetyczny i mają największą szansę na popularność.
Po uzyskaniu ramek następuje transfer stylu do obrazów, czyli nadanie im komiksowego charakteru. W tym celu naukowcy wdrażają generatywny model sieci neuronowych typu GAN. Jest to technika uczenia maszynowego za pomocą dwóch różnych sieci: generatora i dyskryminatora.
Podczas trenowania – tłumaczą twórcy – algorytm otrzymuje dane, np. obrazki, które generator wykorzystuje do tworzenia nowych instancji danych. Dyskryminator zaś ma na celu sprawdzenie, czy instancja pochodzi z zestawu danych treningowych (prawdziwych), czy wygenerowanych przez sieć generatora (fałszywych).
Proces trwa do momentu, w którym generator będzie tworzył instancje tak podobne do zestawu treningowego, że dyskryminator nie będzie już w stanie stwierdzić różnicy – opisują autorzy projektu.
Pomysł pozytywnie przyjęty na świecie
Na stronie Comixify można zobaczyć komiksy wygenerowane z fragmentów takich filmów jak m.in. „Pulp fiction”, „Gwiezdne wojny: Część I – Mroczne widmo”. Narzędzie opracowane przez zespół z Politechniki Warszawskiej można bezpłatnie przetestować, przesyłając własne pliki (do 50 MB) albo korzystając z linków z YouTube`a.
Według przedstawicieli uczelni, publikacja naukowa opisująca algorytm wywołała falę zainteresowania na całym świecie. Twórcy otrzymali liczne zapytania od zainteresowanych tym rozwiązaniem producentów filmowych oraz wydawców komiksów z Europy i Stanów Zjednoczonych. Aktualnie poszukują możliwości dalszego finansowania projektu i jego komercjalizacji – dodaje dr inż. Tomasz Trzciński.
Badacze z PW zamierzają udoskonalać swój projekt. rozszerzając go o nowe funkcjonalności m.in. rozpoznawanie głosu oraz generowanie tak zwanych „dymków”, czyli dodawanie tekstu do obrazów.
Źródło: Serwis Nauka w Polsce – www.naukawpolsce.pap.pl