Ilu polskich naukowców z dziedziny informatyki prowadzi badania nad sztuczną inteligencją?
Raport „Badacze SI i ich publikacje” przedstawia liczby dotyczące publikacji prac z obszaru sztucznej inteligencji w podziale na dyscypliny, ośrodki, czy prestiż periodyku, w którym opublikowano pracę naukową.
- Pierwsza część raportu zawiera wyniki przeszukiwań zawartości bazy Polska Bibliografia Naukowa z wykorzystaniem listy słów kluczowych pod kątem publikacji autorstwa badaczy reprezentujących wszystkie dyscypliny nauki. Szczegóły można znaleźć tutaj.
- Niniejsza, druga część zawęża analizy do grona naukowców reprezentujących informatykę w obrębie nauk ścisłych lub informatykę techniczną i telekomunikację.
- Trzecia część dotyczy statystyk opartych na przeszukiwaniach bazy PBN pod kątem artykułów, które ukazały się w prestiżowych czasopismach informatycznych o tematyce SI. Szczegóły można znaleźć tutaj.
- Czwarta część przedstawia mapy, ranking ośrodków naukowych i przedstawia ich strategie publikacyjne. Szczegóły można znaleźć tutaj.
CAŁY RAPORT w formacie pdf dostępny TUTAJ (uwaga, ze względu na sposób prezentacji ta wersja różni się nieznacznie od internetowej, gdzie połączono w jedną część dwa ostatnie rozdziały).
Badacze SI z dyscyplin informatycznych
Ta część raportu przedstawia statystyki dotyczące badaczy tematyki SI, którzy jako jedną ze swoich głównych dyscyplin naukowych podają informatykę lub informatykę techniczną i telekomunikację.
Analiza ich dorobku publikacyjnego z lat 2013-2018 przeprowadzona została na podstawie listy słów kluczowych identyfikujących prace o tematyce SI zarejestrowane w bazie Polska Bibliografia Naukowa.
Liczba badaczy z dyscyplin informatycznych i liczba prac naukowych z zakresu SI opublikowanych przez nich w latach 2013-2018
Skala współautorstwa i interdyscyplinarności publikacji związanych z tematyką SI wśród badaczy z dyscyplin informatycznych w latach 2013-2018
Liczba badaczy z dyscyplin informatycznych zajmujących się SI, podobnie jak liczba tworzonych przez nich publikacji w latach 2013-2016 pozostawała dość stabilna: w każdym kolejnym roku powstawały średnio 984 publikacje tworzone przez 673 autorów. Dane dla roku 2018 mają charakter jedynie poglądowy, ponieważ dane o opublikowanych wtedy pracach nadal wprowadzane są do bazy PBN.
Ponad połowa publikacji dotyczących tematyki SI autorstwa badaczy z dyscyplin informatycznych ma tylko jednego autora. Z kolei spośród publikacji wieloautorskich 36% stanowi efekt pracy badaczy reprezentujących różne dyscypliny naukowe. Co interesujące, 15% wszystkich publikacji powstało w ramach współpracy naukowców-informatyków z reprezentantami innych dziedzin nauki.
Liczba badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali jedną, dwie lub co najmniej trzy prace naukowe z zakresu SI, według stopni i tytułów naukowych
Prace naukowe o tematyce SI publikowali przede wszystkim badacze z dyscyplin informatycznych posiadający co najmniej stopień naukowy doktora. Stanowili oni 56% wszystkich autorów. W analizowanym okresie wśród autorów publikacji było więcej doktorów habilitowanych niż profesorów.
Największą grupę autorów z dyscyplin informatycznych stanowią osoby, które w ciągu sześciu analizowanych lat opublikowały co najmniej trzy artykuły lub monografie z zakresu sztucznej inteligencji (56%).
Liczba badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali co najmniej jedną pracę naukową z zakresu SI, według roku urodzenia, na tle autorów prac z pozostałych dyscyplin naukowych
W analizowanym zbiorze prace o tematyce SI opublikowało najwięcej badaczy z dyscyplin informatycznych w trzeciej lub czwartej dekadzie życia (odpowiednio 556 osób i 422 osoby). Łącznie stanowią oni 64% aktywnych publikacyjnie badaczy-informatyków.
W analizowanym zbiorze publikacji znalazło się także 290 osób powyżej sześćdziesiątego roku życia (19% ogółu).
Najpopularniejsze słowa kluczowe występujące w publikacjach z zakresu SI autorstwa badaczy reprezentujących dyscypliny informatyczne w latach 2013-2018
W przypadku wszystkich prac naukowych z obszaru SI autorstwa badaczy z dyscyplin informatycznych zdecydowanie najczęściej pojawiającym się słowem kluczowym były sieci neuronowe (711 publikacji zawierających frazę „neural network” w tytule bądź abstrakcie).
Publikacje naukowców dotyczyły także przetwarzania danych („data mining”, „big data” – łącznie 684 prace), przetwarzania obrazów („image processing” – 352 prace), algorytmów genetycznych (294 prace).
Warto zwrócić uwagę na popularność słów kluczowych charakterystycznych dla teorii zbiorów przybliżonych Zdzisława Pawlaka – polskiego matematyka i informatyka żyjącego w latach 1926–2006 („rough set” oraz „fuzzy set” – łącznie 493 prace). Zdaniem ekspertów SI, z którymi w ramach badania przeprowadzone zostały wywiady pogłębione, badania nad teorią Pawlaka stanowią jedną ze specjalizacji naukowców z Polski zajmujących się SI.
Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI
Wśród pięciu instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych publikujących prace naukowe o tematyce SI znajdują się: Akademia Górniczo-Hutnicza, Politechnika Warszawska, Politechnika Wrocławska, Politechnika Śląska oraz Politechnika Łódzka. Wydziałem, na którym zatrudnionych jest najwięcej tego typu specjalistów jest natomiast Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej.
Poniżej zaprezentowano ranking dwudziestu ośrodków naukowych, w których powstało najwięcej publikacji z zakresu SI autorstwa badaczy z dyscyplin informatycznych.
Należy podkreślić, że największy odsetek artykułów z tak zwanej listy A powstało w Instytucie Badań Systemowych (IBS) PAN (43,3%), na Politechnice Poznańskiej (40,5%), na Uniwersytecie Warszawskim (40%) oraz w Instytucie Podstaw Informatyki PAN (37,5%). IBS PAN charakteryzuje także największa intensywność prac nad tego typu zagadnieniami, wyrażona wysoką liczbą autorstw lub współautorstw publikacji przypadających na jednego badacza-informatyka (13,3).
Ranking instytucji naukowych, w których w latach 2013-2018 badacze z dyscyplin informatycznych opublikowali największą liczbę prac naukowych z zakresu SI
Załączniki metodologiczne
Załącznik 1
Metoda doboru słów kluczowych do analizy danych z systemu Polska Bibliografia Naukowa
Wyboru publikacji oraz naukowców z obszaru sztucznej inteligencji dokonano z wykorzystaniem metod maszynowych (automatyczne przeszukiwanie baz danych), na podstawie listy słów kluczowych. Założono, że wyodrębnione w ten sposób prace naukowe powinny dotyczyć badań nad metodami sztucznej inteligencji, jej zastosowaniami lub też społecznych aspektów rozwoju nowych technologii, a zatem mogą przedstawiać wąskie (techniczne) lub szerokie ujęcie problematyki sztucznej inteligencji.
Lista słów kluczowych powstała w czterech krokach. Na początek wyodrębniono szeroki zbiór słów kluczowych na podstawie literatury przedmiotu. W kolejnym kroku został on zweryfikowany przez ekspertów: praktyków i naukowców z obszaru sztucznej inteligencji (łącznie sześć osób). Na tym etapie wyeliminowano słowa, które niewłaściwie identyfikują publikacje z obszaru sztucznej inteligencji lub też nie są dla nich unikatowe. Eksperci mieli także możliwość przedstawienia własnych propozycji słów kluczowych. Ustalona w ten sposób lista liczyła 294 terminy w języku angielskim.
Na kolejnym etapie lista słów w języku angielskim została przetłumaczona na język polski. Uwzględniono przy tym wszystkie możliwe wersje tłumaczeń, co oznacza, że słów kluczowych w języku polskim jest więcej niż tych w języku angielskim. Zastosowana technologia przeszukiwań pozwoliła wyodrębnić pracę na podstawie liczby pojedynczej, mnogiej i deklinacji zaproponowanych słów kluczowych.
Na ostatnim etapie, już po wyszukaniu publikacji w bazie PBN wybrano próbkę tytułów i abstraktów prac, aby ostatecznie zweryfikować efektywność wytypowanych słów kluczowych w identyfikacji właściwych prac. Na tym etapie wyeliminowano ze zbioru łącznie 29 fraz, które okazały się zbyt wieloznaczne, by precyzyjnie wskazywać na prace z zakresu SI. Ponadto w przypadku czterech fraz (emotion recognition, expression recognition, object recognition, pattern recognition) zdecydowano się na usunięcie ich z listy słów kluczowych jedynie w przypadku niektórych dyscyplin naukowych (np. psychologia, językoznawstwo, nauki medyczne), w ramach których frazy te wykorzystywane są w innym kontekście.
Weryfikacja listy słów kluczowych pozwoliła zatem na usunięcie zbyt szerokich pojęć, które nie są wyróżnikiem jedynie sztucznej inteligencji (np. clustering, casualty, Python, smart devices). Wybrane pojęcia natomiast są jednocześnie na tyle szerokie, że identyfikują także węższe frazy (np. convolutional neural network identyfikuje neural network).
Statystyki opracowane z wykorzystaniem tak opracowanej listy słów kluczowych są dobrym przybliżeniem realnych wartości. Opracowaną listę można w przyszłości poszerzać o nowe słowa kluczowe oraz inne języki obce oraz konsultować z kolejnymi ekspertami.
Najważniejsze źródła, które posłużyły do wyodrębnienia bazy słów kluczowych:
- Association for the Advancement of Artificial Intelligence, AITopics
https://aitopics.org/search - China Institute for Science and Technology Policy at Tsinghua University (2018) China AI Development
http://www.sppm.tsinghua.edu.cn/eWebEditor/UploadFile/Executive_susmmary_China_AI_Report_2018.pdf - Corea F. (2018) AI Knowledge Map: How To Classify AI Technologies
https://www.forbes.com/sites/cognitiveworld/2018/08/22/ai-knowledge-map-how-to-classify-ai-technologies/#35a4feaf7773 - Glossary of artificial intelligence
https://en.wikipedia.org/wiki/Glossary_of_artificial_intelligence - Goodfellow I. et. al. (2019) Deep Learning
https://github.com/janishar/mit-deep-learning-book-pdf/blob/master/complete-book-pdf/deeplearningbook.pdf.
Załącznik 2
Metoda doboru prestiżowych czasopism informatycznych o tematyce SI do analizy danych z systemu Polska Bibliografia Naukowa
Zakres przeglądu publikacji w czasopismach informatycznych o tematyce SI ustalony został na podstawie listy takich czasopism, zamieszczonej w serwisie internetowym Guide2Research.com. Serwis ten gromadzi wiedzę o badaniach i międzynarodowych konferencjach naukowych. W zakładce „Top 600 Journals” serwisu znajduje się lista czasopism międzynarodowych, posiadających tak zwany impact factor, z podziałem na obszary tematyczne w ramach nauk informatycznych.
Na potrzeby przeglądu wykorzystano następujące listy:
- 111 czasopism z obszaru machine learning, data mining and artificial intelligence,
- 57 czasopism z obszaru image processing and computer vision,
- 28 czasopism z obszaru human computer interaction.
W analizie uwzględniono wszystkie czasopisma z wymienionych wyżej list, w których naukowcy sprawozdający swój dorobek badawczy w systemie Polska Bibliografia Naukowa opublikowali swoje artykuły. Należy zauważyć, że czasopisma te znajdują się w wykazie czasopism punktowanych Ministerstwa Nauki i Szkolnictwa Wyższego na tak zwanej liście A.
Źródło listy prestiżowych czasopism informatycznych o tematyce SI:
Pytania dotyczące badania prosimy przesyłać na adres: labstat@opi.org.pl