Gdzie w Polsce prowadzi się badania nad sztuczną inteligencją?
Raport „Badacze SI i ich publikacje” przedstawia liczby dotyczące publikacji prac z obszaru sztucznej inteligencji w podziale na dyscypliny, ośrodki, czy prestiż periodyku, w którym opublikowano pracę naukową.
- Pierwsza część raportu zawiera wyniki przeszukiwań zawartości bazy Polska Bibliografia Naukowa z wykorzystaniem listy słów kluczowych pod kątem publikacji autorstwa badaczy reprezentujących wszystkie dyscypliny nauki. Szczegóły można znaleźć tutaj.
- Druga część zawęża analizy do grona naukowców reprezentujących informatykę w obrębie nauk ścisłych lub informatykę techniczną i telekomunikację. Szczegóły można znaleźć tutaj.
- Trzecia część dotyczy statystyk opartych na przeszukiwaniach bazy PBN pod kątem artykułów, które ukazały się w prestiżowych czasopismach informatycznych o tematyce SI. Szczegóły można znaleźć tutaj.
- Niniejsza, czwarta część przedstawia mapy, ranking ośrodków naukowych i przedstawia ich strategie publikacyjne.
CAŁY RAPORT w formacie pdf dostępny TUTAJ (uwaga, ze względu na sposób prezentacji ta wersja różni się nieznacznie od internetowej, gdzie połączono w jedną część dwa ostatnie rozdziały).
Mapa ośrodków naukowych SI
Mapa instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI
Podział według województw
Mapa instytucji naukowych z największą liczbą badaczy, którzy w latach 2013-2018 opublikowali artykuły naukowe w prestiżowych czasopismach z zakresu SI
Podział według województw
Mapa instytucji naukowych z największą liczbą badaczy ze wszystkich dyscyplin nauki, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI
Podział według województw
Rankingi instytucji
Poniżej przedstawiono rankingi instytucji naukowych, w których zatrudnionych jest najwięcej badaczy reprezentujących dyscypliny informatyczne (informatyka w obrębie nauk ścisłych oraz informatyka techniczna i telekomunikacja) według województw w obrębie siedmiu makroregionów Polski. W tabeli znajdują się także informacje o liczbie badaczy z danej instytucji, którzy publikują w prestiżowych czasopismach o tematyce SI oraz o liczbie badaczy SI we wszystkich dyscyplinach nauki łącznie. Do opracowania tabeli wykorzystano dane o publikacjach zarejestrowanych w systemie PBN: zarówno tych zbieranych na podstawie listy słów kluczowych, jak i tych opublikowanych w prestiżowych czasopismach z zakresu SI, zgodnie z ich listą pochodzącą z portalu Guide2Research (patrz załączniki metodologiczne).
Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI, według województw: makroregion południowy
Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI, według województw: makroregion województwo mazowieckie
Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI, według województw: makroregion północny, wschodni i centralny
Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI, według województw: makroregion północno-zachodni i południowo-zachodni
Strategie publikacyjne ośrodków naukowych SI
Statystyki dotyczące badaczy tematyki SI i ich dorobku publikacyjnego opracowane na podstawie listy prestiżowych czasopism informatycznych o tematyce SI oraz listy słów kluczowych identyfikujących prace z zakresu SI.
Liczba publikacji w topowych czasopismach oraz liczba pozostałych publikacji o tematyce SI autorstwa badaczy zatrudnionych w wybranych instytucjach naukowych z lat 2013-2018
Analiza stosunku liczby publikacji w topowych czasopismach z zakresu SI do liczby pozostałych publikacji pozwala wskazać grupy najaktywniejszych instytucji naukowych o specyficznych strategiach publikacyjnych.
W grupie ośrodków naukowych, które publikują przede wszystkim w prestiżowych czasopismach z zakresu SI, znajduje się Instytut Badań Systemowych Polskiej Akademii Nauk oraz Politechnika Wrocławska (oznaczone kolorem niebieskim). Ich ogólna aktywność publikacyjna jest także wyróżniająca, jednak niższa niż w przypadku trzech dużych uczelni publicznych: Akademii Górniczo-Hutniczej, Politechniki Warszawskiej oraz Politechniki Śląskiej (oznaczone kolorem fioletowym).
Na tle pozostałych instytucji wyróżniają się także: Politechnika Poznańska, Uniwersytet Warszawski, Uniwersytet Śląski, Uniwersytet Jagielloński oraz Instytut Podstaw Informatyki PAN (oznaczone kolorem zielonym). Są to instytucje, których pracownicy opublikowali znaczącą liczbę artykułów w topowych czasopismach o tematyce SI, natomiast – w porównaniu z wymienionymi wcześniej grupami instytucji – niewielka jest ich aktywność w zakresie przygotowywania publikacji innego typu.
Z kolei Wojskowa Akademia Techniczna i Politechnika Lubelska (kolor jasnoniebieski) to przykłady uczelni o stosunkowo dużej liczbie publikacji, które nie znajdują się na liście czasopism topowych.
Liczba publikacji w topowych czasopismach oraz liczba pozostałych publikacji o tematyce SI autorstwa badaczy zatrudnionych w wybranych instytucjach naukowych i reprezentujących dyscypliny informatyczne z lat 2013-2018
Analizę stosunku liczby publikacji w topowych czasopismach z zakresu SI do liczby pozostałych publikacji można zawęzić także do dyscyplin informatycznych.
W grupie ośrodków naukowych, które publikują przede wszystkim w prestiżowych czasopismach z zakresu SI, znajduje się Instytut Badań Systemowych Polskiej Akademii Nauk oraz Politechnika Wrocławska (oznaczone kolorem niebieskim). Ich ogólna aktywność publikacyjna jest także wyróżniająca, jednak niższa niż w przypadku trzech dużych uczelni publicznych: Akademii Górniczo-Hutniczej, Politechniki Warszawskiej oraz Politechniki Śląskiej (oznaczone kolorem fioletowym).
Na tle pozostałych instytucji wyróżniają się także: Politechnika Poznańska, Uniwersytet Warszawski, Uniwersytet Śląski, Uniwersytet Jagielloński oraz Instytut Podstaw Informatyki PAN (oznaczone kolorem zielonym). Są to instytucje, których pracownicy opublikowali znaczącą liczbę artykułów w topowych czasopismach o tematyce SI, natomiast – w porównaniu z wymienionymi wcześniej grupami instytucji – niewielka jest ich aktywność w zakresie przygotowywania publikacji innego typu.
Z kolei przykłady uczelni o stosunkowo dużej liczbie publikacji, które nie znajdują się na liście czasopism topowych (kolor jasnoniebieski), to: Politechnika Łódzka, Polsko-Japońska Akademia Technik Komputerowych, Politechnika Świętokrzyska, Wojskowa Akademia Techniczna, Akademia Morska w Szczecinie, Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach oraz Uniwersytet Łódzki.
Załączniki metodologiczne
Załącznik 1
Metoda doboru słów kluczowych do analizy danych z systemu Polska Bibliografia Naukowa
Wyboru publikacji oraz naukowców z obszaru sztucznej inteligencji dokonano z wykorzystaniem metod maszynowych (automatyczne przeszukiwanie baz danych), na podstawie listy słów kluczowych. Założono, że wyodrębnione w ten sposób prace naukowe powinny dotyczyć badań nad metodami sztucznej inteligencji, jej zastosowaniami lub też społecznych aspektów rozwoju nowych technologii, a zatem mogą przedstawiać wąskie (techniczne) lub szerokie ujęcie problematyki sztucznej inteligencji.
Lista słów kluczowych powstała w czterech krokach. Na początek wyodrębniono szeroki zbiór słów kluczowych na podstawie literatury przedmiotu. W kolejnym kroku został on zweryfikowany przez ekspertów: praktyków i naukowców z obszaru sztucznej inteligencji (łącznie sześć osób). Na tym etapie wyeliminowano słowa, które niewłaściwie identyfikują publikacje z obszaru sztucznej inteligencji lub też nie są dla nich unikatowe. Eksperci mieli także możliwość przedstawienia własnych propozycji słów kluczowych. Ustalona w ten sposób lista liczyła 294 terminy w języku angielskim.
Na kolejnym etapie lista słów w języku angielskim została przetłumaczona na język polski. Uwzględniono przy tym wszystkie możliwe wersje tłumaczeń, co oznacza, że słów kluczowych w języku polskim jest więcej niż tych w języku angielskim. Zastosowana technologia przeszukiwań pozwoliła wyodrębnić pracę na podstawie liczby pojedynczej, mnogiej i deklinacji zaproponowanych słów kluczowych.
Na ostatnim etapie, już po wyszukaniu publikacji w bazie PBN wybrano próbkę tytułów i abstraktów prac, aby ostatecznie zweryfikować efektywność wytypowanych słów kluczowych w identyfikacji właściwych prac. Na tym etapie wyeliminowano ze zbioru łącznie 29 fraz, które okazały się zbyt wieloznaczne, by precyzyjnie wskazywać na prace z zakresu SI. Ponadto w przypadku czterech fraz (emotion recognition, expression recognition, object recognition, pattern recognition) zdecydowano się na usunięcie ich z listy słów kluczowych jedynie w przypadku niektórych dyscyplin naukowych (np. psychologia, językoznawstwo, nauki medyczne), w ramach których frazy te wykorzystywane są w innym kontekście.
Weryfikacja listy słów kluczowych pozwoliła zatem na usunięcie zbyt szerokich pojęć, które nie są wyróżnikiem jedynie sztucznej inteligencji (np. clustering, casualty, Python, smart devices). Wybrane pojęcia natomiast są jednocześnie na tyle szerokie, że identyfikują także węższe frazy (np. convolutional neural network identyfikuje neural network).
Statystyki opracowane z wykorzystaniem tak opracowanej listy słów kluczowych są dobrym przybliżeniem realnych wartości. Opracowaną listę można w przyszłości poszerzać o nowe słowa kluczowe oraz inne języki obce oraz konsultować z kolejnymi ekspertami.
Najważniejsze źródła, które posłużyły do wyodrębnienia bazy słów kluczowych:
- Association for the Advancement of Artificial Intelligence, AITopics
https://aitopics.org/search - China Institute for Science and Technology Policy at Tsinghua University (2018) China AI Development
http://www.sppm.tsinghua.edu.cn/eWebEditor/UploadFile/Executive_susmmary_China_AI_Report_2018.pdf - Corea F. (2018) AI Knowledge Map: How To Classify AI Technologies
https://www.forbes.com/sites/cognitiveworld/2018/08/22/ai-knowledge-map-how-to-classify-ai-technologies/#35a4feaf7773 - Glossary of artificial intelligence
https://en.wikipedia.org/wiki/Glossary_of_artificial_intelligence - Goodfellow I. et. al. (2019) Deep Learning
https://github.com/janishar/mit-deep-learning-book-pdf/blob/master/complete-book-pdf/deeplearningbook.pdf.
Załącznik 2
Metoda doboru prestiżowych czasopism informatycznych o tematyce SI do analizy danych z systemu Polska Bibliografia Naukowa
Zakres przeglądu publikacji w czasopismach informatycznych o tematyce SI ustalony został na podstawie listy takich czasopism, zamieszczonej w serwisie internetowym Guide2Research.com. Serwis ten gromadzi wiedzę o badaniach i międzynarodowych konferencjach naukowych. W zakładce „Top 600 Journals” serwisu znajduje się lista czasopism międzynarodowych, posiadających tak zwany impact factor, z podziałem na obszary tematyczne w ramach nauk informatycznych.
Na potrzeby przeglądu wykorzystano następujące listy:
- 111 czasopism z obszaru machine learning, data mining and artificial intelligence,
- 57 czasopism z obszaru image processing and computer vision,
- 28 czasopism z obszaru human computer interaction.
W analizie uwzględniono wszystkie czasopisma z wymienionych wyżej list, w których naukowcy sprawozdający swój dorobek badawczy w systemie Polska Bibliografia Naukowa opublikowali swoje artykuły. Należy zauważyć, że czasopisma te znajdują się w wykazie czasopism punktowanych Ministerstwa Nauki i Szkolnictwa Wyższego na tak zwanej liście A.
Źródło listy prestiżowych czasopism informatycznych o tematyce SI:
Pytania dotyczące badania prosimy przesyłać na adres: labstat@opi.org.pl