Ilu polskich naukowców ogółem prowadzi badania nad sztuczną inteligencją?

Raport „Badacze SI i ich publikacje” przedstawia liczby dotyczące publikacji prac z obszaru sztucznej inteligencji w podziale na dyscypliny, ośrodki, czy prestiż periodyku, w którym opublikowano pracę naukową.

  • Ta część raportu zawiera wyniki przeszukiwań zawartości bazy Polska Bibliografia Naukowa z wykorzystaniem listy słów kluczowych pod kątem publikacji autorstwa badaczy reprezentujących wszystkie dyscypliny nauki.
  • W drugiej części opracowania analizy zawężono do grona naukowców reprezentujących informatykę w obrębie nauk ścisłych lub informatykę techniczną i telekomunikację. Szczegóły można znaleźć tutaj.
  • Trzecia część dotyczy statystyk opartych na przeszukiwaniach bazy PBN pod kątem artykułów, które ukazały się w prestiżowych czasopismach informatycznych o tematyce SI. Szczegóły można znaleźć tutaj.
  • Czwarta część przedstawia mapy, ranking ośrodków naukowych i przedstawia ich strategie publikacyjne. Szczegóły można znaleźć tutaj.

CAŁY RAPORT w formacie pdf dostępny TUTAJ (uwaga, ze względu na sposób prezentacji ta wersja różni się nieznacznie od internetowej, gdzie połączono w jedną część dwa ostatnie rozdziały).

Badacze sztucznej inteligencji i ich publikacje ogółem

W latach 2013-2018 w bazie Polska Bibliografia Naukowa zarejestrowanych zostało 11 766 publikacji, które w tytule lub abstrakcie zawierały co najmniej jedno słowo kluczowe charakterystyczne dla prac z obszaru sztucznej inteligencji. Aż 45% z tych prac powstało w ramach dwóch dyscyplin naukowych: informatyki oraz informatyki technicznej i telekomunikacji.

Analiza tych publikacji pozwala uznać, że w instytucjach naukowych w Polsce nad zagadnieniami SI pracuje obecnie około 1,5 tys. badaczy z obszaru informatyki.

W ramach pozostałych dyscyplin także powstają prace naukowe o zastosowaniach SI oraz dotyczące różnych aspektów rozwoju tych technologii. W analizowanych latach opublikowało je około 5 tys. badaczy.

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
*Dotyczy naukowców, którzy jako jedną ze swoich dyscyplin naukowych wymienili informatykę w ramach nauk ścisłych lub informatykę techniczną i telekomunikację, zgodnie z obowiązującą klasyfikacją dyscyplin.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Liczba badaczy SI i liczba prac naukowych z zakresu SI opublikowanych przez nich w latach 2013-2018

Skala współautorstwa i interdyscyplinarności publikacji związanych z tematyką SI w latach 2013-2018

Uwaga do obu powyższych rysunków: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło obu rysunków: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Liczba wszystkich badaczy zajmujących się SI, podobnie jak liczba tworzonych przez nich publikacji w latach 2013-2017 pozostawała stabilna i oscylowała w granicach 2000-2200 badaczy lub publikacji. Dane dla 2018 roku mają charakter jedynie poglądowy, ponieważ dane o opublikowanych wtedy pracach nadal rejestrowane są w systemie PBN.

W czterech na dziesięć przypadków publikacje dotyczące tematyki SI mają więcej niż jednego autora. Z kolei spośród publikacji wieloautorskich 40% to efekt pracy badaczy reprezentujących różne dyscypliny naukowe. Jedynie 11,8% wszystkich publikacji powstało w ramach współpracy naukowców zajmujących się różnymi dziedzinami nauki.

Liczba badaczy w ramach dziedziny nauk ścisłych i przyrodniczych oraz inżynieryjno-technicznych, którzy w latach 2013-2018 opublikowali co najmniej jedną pracę z zakresu SI, według dyscyplin naukowych

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

W latach 2013-2018 najwięcej naukowców z obszaru SI prowadziło badania w ramach nauk inżynieryjno-technicznych (3262 osób, które wskazały tę dyscyplinę jako swoją główną), z czego najwięcej w ramach informatyki technicznej i telekomunikacji (1150 osób). W ramach nauk ścisłych publikacje dotyczące SI stworzyło łącznie 825 naukowców, z czego 136 osób wskazywało informatykę jako swoją pierwszą bądź jedyną dyscyplinę naukową.

Warto zwrócić uwagę, że sztuczna inteligencja interesuje badaczy z wielu dyscyplin. Poniżej znajduje się wykres przedstawiający liczbę badaczy SI w ramach dziedzin humanistycznych, społecznych, teologicznych i sztuki. Przegląd tematów publikacji tworzonych przez naukowców z tych dziedzin pokazuje, że w obrębie nauk o zarządzaniu i jakości, a także ekonomii i finansów metody sztucznej inteligencji są stosowane do rozwiązywania zagadnień takich jak ryzyko czy konkurencyjność. Z kolei w ramach nauk prawnych, filozofii czy sztuki odnaleźć można analizy zastosowania sztucznej inteligencji w różnych obszarach życia. Łącznie w ramach nauk społecznych prace o SI w analizowanym okresie tworzyło 744 badaczy, natomiast w obrębie nauk humanistycznych – 85.

Liczba badaczy z nauk humanistycznych, społecznych, teologicznych i sztuki, którzy w latach 2013–2018 opublikowali co najmniej jedną pracę z zakresu SI, według dyscyplin naukowych

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Liczba badaczy z nauk medycznych, nauk o zdrowiu i nauk rolniczych, którzy w latach 2013–2018 opublikowali co najmniej jedną pracę z zakresu SI, według dyscyplin naukowych

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Metody SI znajdują także zastosowanie w naukach medycznych i o zdrowiu (łącznie w ramach tej dziedziny prace o zastosowaniu SI opublikowało 262 badaczy). Ciekawe są także tematy prac z obszaru nauk rolniczych, które zostały napisane łącznie przez 172 specjalistów, w tym przede wszystkim w ramach trzech dyscyplin: rolnictwa i ogrodnictwa, zootechniki i rybactwa oraz technologii żywności i żywienia.

Liczba badaczy, którzy w latach 2013-2018 opublikowali jedną, dwie lub co najmniej trzy prace naukowe z zakresu SI, według stopni i tytułów naukowych

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019

Temat sztucznej inteligencji poruszali w swoich publikacjach przede wszystkim badacze posiadający co najmniej stopień naukowy doktora (52%). Aktywność w tym zakresie osób z tytułem licencjata, magistra i równorzędnym była niewielka. Wśród badaczy SI reprezentujących wszystkie dyscypliny naukowe było 29% doktorów habilitowanych i 17% profesorów.

Jedna trzecia badaczy w ciągu sześciu analizowanych lat opublikowała co najmniej trzy prace naukowe z zakresu SI, natomiast niemalże połowa nie więcej niż jedną.

Liczba badaczy, którzy w latach 2013-2018 opublikowali co najmniej jedną pracę naukową z zakresu SI, według roku urodzenia

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Największa grupa specjalistów SI, którzy są aktywni publikacyjnie, to osoby w czwartej dekadzie życia (2158 osób) oraz badacze między trzydziestym a trzydziestym dziewiątym rokiem życia (1693 osoby).

Warto także zwrócić uwagę, że badacze, którzy w 2019 roku osiągnęli 60 lat lub więcej, stanowią niemalże jedną czwartą wszystkich aktywnych publikacyjnie specjalistów SI.

Odsetek prac naukowych z zakresu SI opublikowanych w latach 2013-2018 według ich typu, w podziale na dyscypliny nauki

Uwaga: uwzględniono jedynie dyscypliny, w ramach których w latach 2013–2018 opublikowano co najmniej 40 prac naukowych związanych tematyką SI. Prace naukowe (monografie, rozdziały, artykuły) wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI  w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

W zbiorze wszystkich publikacji naukowych o tematyce SI znalazło się 56% artykułów z czasopism naukowych oraz 44% monografii lub rozdziałów w pracach zbiorowych. Spośród wszystkich artykułów 43% stanowiły prace opublikowane w czasopismach z tak zwanej listy A.

Jak pokazano na wykresie, te ogólne statystyki wyglądają inaczej w poszczególnych dyscyplinach naukowych. Największy odsetek artykułów o tematyce SI opublikowanych w czasopismach z listy A charakteryzował nauki chemiczne (82%), biologiczne (82%) i fizyczne (58%). W przypadku informatyki technicznej i telekomunikacji oraz informatyki w ramach nauk ścisłych udział ten wyniósł 21%. Specjaliści SI w dyscyplinach informatycznych wyraźnie preferują publikowanie monografii (stanowią one 59% ogółu powstałych w ramach tych dyscyplin prac). Wśród nich znajdują się między innymi materiały pokonferencyjne.

Czasopisma z listy A posiadają współczynnik wpływu (impact factor) i znajdują się w bazie Journal Citation Reports. Często uznawane są za najlepszy sposób przedstawienia wyników badań możliwie szerokiemu gronu odbiorców.

Najpopularniejsze słowa kluczowe występujące w publikacjach badaczy SI z lat 2013-2018

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Autorzy prac naukowych z obszaru sztucznej inteligencji w swoich publikacjach najczęściej poruszali tematykę związaną ze sztucznymi sieciami neuronowymi (1 822 publikacje zawierające frazę „neural network” w tytule bądź abstrakcie).

W dalszej kolejności popularne w latach 2013–2018 były prace dotyczące przetwarzania obrazów, algorytmów genetycznych, analizy danych („data mining”, „big data”), systemów wspomagania decyzji oraz teorii zbiorów rozmytych („fuzzy set”, „fuzzy logic”). Rozwój technologii w tych obszarach uznać można za główny nurt tematyczny sztucznej inteligencji w Polsce.

Większość prac publikowana była w języku angielskim – wśród dziesięciu najczęściej występujących słów kluczowych nie ma żadnych w języku polskim.

Ranking instytucji naukowych z największą liczbą badaczy, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Za centra naukowe rozwijające technologię sztucznej inteligencji uznać można jednostki, które afiliowały najwięcej autorów prac naukowych z tego obszaru: Akademię Górniczo-Hutniczą, Politechnikę Warszawską, Politechnikę Śląską, Politechnikę Wrocławską i Uniwersytet Warszawski.

Na każdej z tych uczelni najwięcej naukowców publikujących w zakresie sztucznej inteligencji zatrudnionych jest na wydziałach związanych z informatyką. Na uwagę zasługuje to, że badania nad sztuczną inteligencją prowadzone są również na innych wydziałach (patrz wykres powyżej).

Ranking dwudziestu instytucji naukowych, w których powstało najwięcej publikacji o tematyce SI, zaprezentowano w tabeli na kolejnej stronie. W przypadku Instytutu Badań Systemowych PAN każdy z badaczy był autorem bądź współautorem średnio niemalże jedenastu publikacji. Ponad cztery prace naukowe przypadały na jednego badacza także na Politechnice Częstochowskiej, w Polsko-Japońskiej Akademii Technik Komputerowych oraz na Uniwersytecie Ekonomicznym we Wrocławiu.

Gdy weźmie się natomiast pod uwagę udział artykułów z tak zwanej listy A w ogóle publikacji, to prym wśród tych dwudziestu instytucji wiodą: Uniwersytet Śląski w Katowicach (44,6%), Instytut Badań Systemowych PAN (42,3%), Politechnika Gdańska (32,7%) oraz Uniwersytet Warszawski (31,4%).

Ranking instytucji naukowych, w których w latach 2013-2018 opublikowano największą liczbę prac naukowych z zakresu SI

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
* Dotyczy autorstwa lub współautorstwa publikacji z zakresu SI przypadającego na jednego badacza z danej instytucji.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Załączniki metodologiczne

Załącznik 1

Metoda doboru słów kluczowych do analizy danych z systemu Polska Bibliografia Naukowa

Wyboru publikacji oraz naukowców z obszaru sztucznej inteligencji dokonano z wykorzystaniem metod maszynowych (automatyczne przeszukiwanie baz danych), na podstawie listy słów kluczowych. Założono, że wyodrębnione w ten sposób prace naukowe powinny dotyczyć badań nad metodami sztucznej inteligencji, jej zastosowaniami lub też społecznych aspektów rozwoju nowych technologii, a zatem mogą przedstawiać wąskie (techniczne) lub szerokie ujęcie problematyki sztucznej inteligencji.

Lista słów kluczowych powstała w czterech krokach. Na początek wyodrębniono szeroki zbiór słów kluczowych na podstawie literatury przedmiotu. W kolejnym kroku został on zweryfikowany przez ekspertów: praktyków i naukowców z obszaru sztucznej inteligencji (łącznie sześć osób). Na tym etapie wyeliminowano słowa, które niewłaściwie identyfikują publikacje z obszaru sztucznej inteligencji lub też nie są dla nich unikatowe. Eksperci mieli także możliwość przedstawienia własnych propozycji słów kluczowych. Ustalona w ten sposób lista liczyła 294 terminy w języku angielskim.

Na kolejnym etapie lista słów w języku angielskim została przetłumaczona na język polski. Uwzględniono przy tym wszystkie możliwe wersje tłumaczeń, co oznacza, że słów kluczowych w języku polskim jest więcej niż tych w języku angielskim. Zastosowana technologia przeszukiwań pozwoliła wyodrębnić pracę na podstawie liczby pojedynczej, mnogiej i deklinacji zaproponowanych słów kluczowych.

Na ostatnim etapie, już po wyszukaniu publikacji w bazie PBN wybrano próbkę tytułów i abstraktów prac, aby ostatecznie zweryfikować efektywność wytypowanych słów kluczowych w identyfikacji właściwych prac. Na tym etapie wyeliminowano ze zbioru łącznie 29 fraz, które okazały się zbyt wieloznaczne, by precyzyjnie wskazywać na prace z zakresu SI. Ponadto w przypadku czterech fraz (emotion recognition, expression recognition, object recognition, pattern recognition) zdecydowano się na usunięcie ich z listy słów kluczowych jedynie w przypadku niektórych dyscyplin naukowych (np. psychologia, językoznawstwo, nauki medyczne), w ramach których frazy te wykorzystywane są w innym kontekście.

Weryfikacja listy słów kluczowych pozwoliła zatem na usunięcie zbyt szerokich pojęć, które nie są wyróżnikiem jedynie sztucznej inteligencji (np. clustering, casualty, Python, smart devices). Wybrane pojęcia natomiast są jednocześnie na tyle szerokie, że identyfikują także węższe frazy (np. convolutional neural network identyfikuje neural network).

Statystyki opracowane z wykorzystaniem tak opracowanej listy słów kluczowych są dobrym przybliżeniem realnych wartości. Opracowaną listę można w przyszłości poszerzać o nowe słowa kluczowe oraz inne języki obce oraz konsultować z kolejnymi ekspertami.

Najważniejsze źródła, które posłużyły do wyodrębnienia bazy słów kluczowych:

Załącznik 2

Metoda doboru prestiżowych czasopism informatycznych o tematyce SI do analizy danych z systemu Polska Bibliografia Naukowa

Zakres przeglądu publikacji w czasopismach informatycznych o tematyce SI ustalony został na podstawie listy takich czasopism, zamieszczonej w serwisie internetowym Guide2Research.com. Serwis ten gromadzi wiedzę o badaniach i międzynarodowych konferencjach naukowych. W zakładce „Top 600 Journals” serwisu znajduje się lista czasopism międzynarodowych, posiadających tak zwany impact factor, z podziałem na obszary tematyczne w ramach nauk informatycznych.

Na potrzeby przeglądu wykorzystano następujące listy:

  • 111 czasopism z obszaru machine learning, data mining and artificial intelligence,
  • 57 czasopism z obszaru image processing and computer vision,
  • 28 czasopism z obszaru human computer interaction.

W analizie uwzględniono wszystkie czasopisma z wymienionych wyżej list, w których naukowcy sprawozdający swój dorobek badawczy w systemie Polska Bibliografia Naukowa opublikowali swoje artykuły. Należy zauważyć, że czasopisma te znajdują się w wykazie czasopism punktowanych Ministerstwa Nauki i Szkolnictwa Wyższego na tak zwanej liście A.

Źródło listy prestiżowych czasopism informatycznych o tematyce SI:
http://www.guide2research.com/

Pytania dotyczące badania prosimy przesyłać na adres: labstat@opi.org.pl