Gdzie w Polsce prowadzi się badania nad sztuczną inteligencją?

Raport „Badacze SI i ich publikacje” przedstawia liczby dotyczące publikacji prac z obszaru sztucznej inteligencji w podziale na dyscypliny, ośrodki, czy prestiż periodyku, w którym opublikowano pracę naukową.

  • Pierwsza część raportu zawiera wyniki przeszukiwań zawartości bazy Polska Bibliografia Naukowa z wykorzystaniem listy słów kluczowych pod kątem publikacji autorstwa badaczy reprezentujących wszystkie dyscypliny nauki. Szczegóły można znaleźć tutaj.
  • Druga część zawęża analizy do grona naukowców reprezentujących informatykę w obrębie nauk ścisłych lub informatykę techniczną i telekomunikację. Szczegóły można znaleźć tutaj.
  • Trzecia część dotyczy statystyk opartych na przeszukiwaniach bazy PBN pod kątem artykułów, które ukazały się w prestiżowych czasopismach informatycznych o tematyce SI. Szczegóły można znaleźć tutaj.
  • Niniejsza, czwarta część przedstawia mapy, ranking ośrodków naukowych i przedstawia ich strategie publikacyjne.

CAŁY RAPORT w formacie pdf dostępny TUTAJ (uwaga, ze względu na sposób prezentacji ta wersja różni się nieznacznie od internetowej, gdzie połączono w jedną część dwa ostatnie rozdziały).

Mapa ośrodków naukowych SI

Mapa instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019

Podział według województw

Mapa instytucji naukowych z największą liczbą badaczy, którzy w latach 2013-2018 opublikowali artykuły naukowe w prestiżowych czasopismach z zakresu SI

Uwaga: wzięto pod uwagę publikacje w czasopismach posiadających impact factor, z obszaru machine learning, data mining and artificial intelligence; image processing and computer vision oraz human computer interaction, zgodnie z ich listą zamieszczoną w serwisie internetowym Guide2Research.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Podział według województw

Mapa instytucji naukowych z największą liczbą badaczy ze wszystkich dyscyplin nauki, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI

Uwaga: uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac. Lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Podział według województw

Rankingi instytucji

Poniżej przedstawiono rankingi instytucji naukowych, w których zatrudnionych jest najwięcej badaczy reprezentujących dyscypliny informatyczne (informatyka w obrębie nauk ścisłych oraz informatyka techniczna i telekomunikacja) według województw w obrębie siedmiu makroregionów Polski. W tabeli znajdują się także informacje o liczbie badaczy z danej instytucji, którzy publikują w prestiżowych czasopismach o tematyce SI oraz o liczbie badaczy SI we wszystkich dyscyplinach nauki łącznie. Do opracowania tabeli wykorzystano dane o publikacjach zarejestrowanych w systemie PBN: zarówno tych zbieranych na podstawie listy słów kluczowych, jak i tych opublikowanych w prestiżowych czasopismach z zakresu SI, zgodnie z ich listą pochodzącą z portalu Guide2Research (patrz załączniki metodologiczne).

Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI, według województw: makroregion południowy

Uwaga: uwzględniono instytucje naukowe, w których zatrudnionych jest co najmniej sześciu badaczy SI reprezentujących dyscypliny informatyczne.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI, według województw: makroregion województwo mazowieckie

Uwaga: uwzględniono instytucje naukowe, w których zatrudnionych jest co najmniej sześciu badaczy SI reprezentujących dyscypliny informatyczne.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI, według województw: makroregion północny, wschodni i centralny

Uwaga: uwzględniono instytucje naukowe, w których zatrudnionych jest co najmniej sześciu badaczy SI reprezentujących dyscypliny informatyczne.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Ranking instytucji naukowych z największą liczbą badaczy z dyscyplin informatycznych, którzy w latach 2013-2018 opublikowali prace naukowe z zakresu SI, według województw: makroregion północno-zachodni i południowo-zachodni

Uwaga: uwzględniono instytucje naukowe, w których zatrudnionych jest co najmniej sześciu badaczy SI reprezentujących dyscypliny informatyczne.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Strategie publikacyjne ośrodków naukowych SI

Statystyki dotyczące badaczy tematyki SI i ich dorobku publikacyjnego opracowane na podstawie listy prestiżowych czasopism informatycznych o tematyce SI oraz listy słów kluczowych identyfikujących prace z zakresu SI.

Liczba publikacji w topowych czasopismach oraz liczba pozostałych publikacji o tematyce SI autorstwa badaczy zatrudnionych w wybranych instytucjach naukowych z lat 2013-2018

Uwaga: na osi X uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac (lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski), natomiast na osi Y znajdują się publikacje w czasopismach posiadających impact factor, z obszaru machine learning, data mining and artificial intelligence; image processing and computer vision oraz human computer interaction, zgodnie z ich listą zamieszczoną w serwisie internetowym Guide2Research.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Analiza stosunku liczby publikacji w topowych czasopismach z zakresu SI do liczby pozostałych publikacji pozwala wskazać grupy najaktywniejszych instytucji naukowych o specyficznych strategiach publikacyjnych.

W grupie ośrodków naukowych, które publikują przede wszystkim w prestiżowych czasopismach z zakresu SI, znajduje się Instytut Badań Systemowych Polskiej Akademii Nauk oraz Politechnika Wrocławska (oznaczone kolorem niebieskim). Ich ogólna aktywność publikacyjna jest także wyróżniająca, jednak niższa niż w przypadku trzech dużych uczelni publicznych: Akademii Górniczo-Hutniczej, Politechniki Warszawskiej oraz Politechniki Śląskiej (oznaczone kolorem fioletowym).

Na tle pozostałych instytucji wyróżniają się także: Politechnika Poznańska, Uniwersytet Warszawski, Uniwersytet Śląski, Uniwersytet Jagielloński oraz Instytut Podstaw Informatyki PAN (oznaczone kolorem zielonym). Są to instytucje, których pracownicy opublikowali znaczącą liczbę artykułów w topowych czasopismach o tematyce SI, natomiast – w porównaniu z wymienionymi wcześniej grupami instytucji – niewielka jest ich aktywność w zakresie przygotowywania publikacji innego typu.

Z kolei Wojskowa Akademia Techniczna i Politechnika Lubelska (kolor jasnoniebieski) to przykłady uczelni o stosunkowo dużej liczbie publikacji, które nie znajdują się na liście czasopism topowych.

Liczba publikacji w topowych czasopismach oraz liczba pozostałych publikacji o tematyce SI autorstwa badaczy zatrudnionych w wybranych instytucjach naukowych i reprezentujących dyscypliny informatyczne z lat 2013-2018

Uwaga: na osi X uwzględniono prace naukowe (monografie, rozdziały, artykuły), które wyszukano na podstawie listy słów kluczowych występujących w tytule bądź abstrakcie tych prac (lista słów kluczowych zawierała 294 terminy z obszaru SI w języku angielskim, które przetłumaczono dodatkowo także na język polski), natomiast na osi Y znajdują się publikacje w czasopismach posiadających impact fatctor, z obszaru machine learning, data mining and artificial intelligence; image processing and computer vision oraz human computer interaction, zgodnie z ich listą zamieszczoną w serwisie internetowym Guide2Research.
Źródło: opracowanie OPI PIB na podstawie systemu PBN, stan na 07.05.2019.

Analizę stosunku liczby publikacji w topowych czasopismach z zakresu SI do liczby pozostałych publikacji można zawęzić także do dyscyplin informatycznych.

W grupie ośrodków naukowych, które publikują przede wszystkim w prestiżowych czasopismach z zakresu SI, znajduje się Instytut Badań Systemowych Polskiej Akademii Nauk oraz Politechnika Wrocławska (oznaczone kolorem niebieskim). Ich ogólna aktywność publikacyjna jest także wyróżniająca, jednak niższa niż w przypadku trzech dużych uczelni publicznych: Akademii Górniczo-Hutniczej, Politechniki Warszawskiej oraz Politechniki Śląskiej (oznaczone kolorem fioletowym).

Na tle pozostałych instytucji wyróżniają się także: Politechnika Poznańska, Uniwersytet Warszawski, Uniwersytet Śląski, Uniwersytet Jagielloński oraz Instytut Podstaw Informatyki PAN (oznaczone kolorem zielonym). Są to instytucje, których pracownicy opublikowali znaczącą liczbę artykułów w topowych czasopismach o tematyce SI, natomiast – w porównaniu z wymienionymi wcześniej grupami instytucji – niewielka jest ich aktywność w zakresie przygotowywania publikacji innego typu.

Z kolei przykłady uczelni o stosunkowo dużej liczbie publikacji, które nie znajdują się na liście czasopism topowych (kolor jasnoniebieski), to: Politechnika Łódzka, Polsko-Japońska Akademia Technik Komputerowych, Politechnika Świętokrzyska, Wojskowa Akademia Techniczna, Akademia Morska w Szczecinie, Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach oraz Uniwersytet Łódzki.

Załączniki metodologiczne

Załącznik 1

Metoda doboru słów kluczowych do analizy danych z systemu Polska Bibliografia Naukowa

Wyboru publikacji oraz naukowców z obszaru sztucznej inteligencji dokonano z wykorzystaniem metod maszynowych (automatyczne przeszukiwanie baz danych), na podstawie listy słów kluczowych. Założono, że wyodrębnione w ten sposób prace naukowe powinny dotyczyć badań nad metodami sztucznej inteligencji, jej zastosowaniami lub też społecznych aspektów rozwoju nowych technologii, a zatem mogą przedstawiać wąskie (techniczne) lub szerokie ujęcie problematyki sztucznej inteligencji.

Lista słów kluczowych powstała w czterech krokach. Na początek wyodrębniono szeroki zbiór słów kluczowych na podstawie literatury przedmiotu. W kolejnym kroku został on zweryfikowany przez ekspertów: praktyków i naukowców z obszaru sztucznej inteligencji (łącznie sześć osób). Na tym etapie wyeliminowano słowa, które niewłaściwie identyfikują publikacje z obszaru sztucznej inteligencji lub też nie są dla nich unikatowe. Eksperci mieli także możliwość przedstawienia własnych propozycji słów kluczowych. Ustalona w ten sposób lista liczyła 294 terminy w języku angielskim.

Na kolejnym etapie lista słów w języku angielskim została przetłumaczona na język polski. Uwzględniono przy tym wszystkie możliwe wersje tłumaczeń, co oznacza, że słów kluczowych w języku polskim jest więcej niż tych w języku angielskim. Zastosowana technologia przeszukiwań pozwoliła wyodrębnić pracę na podstawie liczby pojedynczej, mnogiej i deklinacji zaproponowanych słów kluczowych.

Na ostatnim etapie, już po wyszukaniu publikacji w bazie PBN wybrano próbkę tytułów i abstraktów prac, aby ostatecznie zweryfikować efektywność wytypowanych słów kluczowych w identyfikacji właściwych prac. Na tym etapie wyeliminowano ze zbioru łącznie 29 fraz, które okazały się zbyt wieloznaczne, by precyzyjnie wskazywać na prace z zakresu SI. Ponadto w przypadku czterech fraz (emotion recognition, expression recognition, object recognition, pattern recognition) zdecydowano się na usunięcie ich z listy słów kluczowych jedynie w przypadku niektórych dyscyplin naukowych (np. psychologia, językoznawstwo, nauki medyczne), w ramach których frazy te wykorzystywane są w innym kontekście.

Weryfikacja listy słów kluczowych pozwoliła zatem na usunięcie zbyt szerokich pojęć, które nie są wyróżnikiem jedynie sztucznej inteligencji (np. clustering, casualty, Python, smart devices). Wybrane pojęcia natomiast są jednocześnie na tyle szerokie, że identyfikują także węższe frazy (np. convolutional neural network identyfikuje neural network).

Statystyki opracowane z wykorzystaniem tak opracowanej listy słów kluczowych są dobrym przybliżeniem realnych wartości. Opracowaną listę można w przyszłości poszerzać o nowe słowa kluczowe oraz inne języki obce oraz konsultować z kolejnymi ekspertami.

Najważniejsze źródła, które posłużyły do wyodrębnienia bazy słów kluczowych:

Załącznik 2

Metoda doboru prestiżowych czasopism informatycznych o tematyce SI do analizy danych z systemu Polska Bibliografia Naukowa

Zakres przeglądu publikacji w czasopismach informatycznych o tematyce SI ustalony został na podstawie listy takich czasopism, zamieszczonej w serwisie internetowym Guide2Research.com. Serwis ten gromadzi wiedzę o badaniach i międzynarodowych konferencjach naukowych. W zakładce „Top 600 Journals” serwisu znajduje się lista czasopism międzynarodowych, posiadających tak zwany impact factor, z podziałem na obszary tematyczne w ramach nauk informatycznych.

Na potrzeby przeglądu wykorzystano następujące listy:

  • 111 czasopism z obszaru machine learning, data mining and artificial intelligence,
  • 57 czasopism z obszaru image processing and computer vision,
  • 28 czasopism z obszaru human computer interaction.

W analizie uwzględniono wszystkie czasopisma z wymienionych wyżej list, w których naukowcy sprawozdający swój dorobek badawczy w systemie Polska Bibliografia Naukowa opublikowali swoje artykuły. Należy zauważyć, że czasopisma te znajdują się w wykazie czasopism punktowanych Ministerstwa Nauki i Szkolnictwa Wyższego na tak zwanej liście A.

Źródło listy prestiżowych czasopism informatycznych o tematyce SI:

Pytania dotyczące badania prosimy przesyłać na adres: labstat@opi.org.pl