Danetyka, czyli o polskim tłumaczeniu Data Science

Norbert Ryciak 3 października 2019
 

Ponad dwa lata temu na wydziale Matematyki i Nauk Informacyjnych Politechniki Warszawskiej zapadała decyzja o uruchomieniu nowego kierunku studiów, który po angielsku nazywałby się Data Science. Pojawił się wówczas oczywisty dylemat terminologii - jak w języku polskim zwięźle, zgrabnie i trafnie nazwać tę ścieżkę kształcenia.

Z problemem, z którym boryka się każdy, kto związany jest z tą tematyką - niekoniecznie w kontekście nazw studiów (to dotyczy uczelni), ale w biznesie w kontekście nazwy tej branży, nazw stanowisk pracy czy podczas codziennych rozmów poruszających tę tematykę. Wracając do studiów, w gronie specjalistów z tego obszaru zgodnie wybraliśmy nazwę “Inżynieria i Analiza Danych”. Osobiście lubię używać sformułowania, że data science stoi na dwóch nogach - “technicznej” i “analitycznej”. Część techniczną interpretuję jako informatyczną stronę tej dziedziny - programowanie, narzędzia i technologie z którymi pracuje się w tej branży. I tę część odzwierciedla hasło “inżynieria danych”. Część analityczna to matematyczny aparat do analizy danych - w tym uczenie maszynowe. I tę część ma odzwierciedlać bardzo uproszczone sformułowanie “analiza danych”. Sumarycznie, można powiedzieć, że studiowanie na kierunku Inżynieria i Analiza Danych, to poznawanie narzędzi do pracy z danymi i nauka metod wykorzystywania danych.

Danologia - zaakceptowana, ale niezatwierdzona

Jednakże, tłumaczenie Data Science na potrzeby nazwy kierunku studiów jest zdecydowanie łatwiejsze niż stworzenie ogólnego polskiego odpowiednika. Jak wyżej napisałem, nazwa Inżynieria i Analiza Danych trafnie odzwierciedla to, czego uczą się studenci tego kierunku, co jest kluczowe w tym przypadku. Ale przecież w biznesie nie powiemy, że ktoś pracuje w “inżynierii i analizie danych”….

Od jakiegoś czasu w Internecie można spotkać się z terminem “danologia”, który został zaproponowany na polskie tłumaczenie Data Science. Jest niewątpliwie naturalnym i logicznym tłumaczeniem, które “zaakceptował” wybitny autorytet od kwestii językowych - profesor Miodek. Bardzo chciałbym tutaj podkreślić słowo “zaakceptował”, ponieważ wypowiedź profesora sprowadza się do stwierdzenia, że ta nazwa nie jest niepoprawna językowo i jego “nie razi”. Wszak poprzez dodanie końcówki “logia” do jakiegoś słowa przedmiotu powstaje wiele nazw nauk, których przedmiotem jest dane słowo. Wówczas zawód data scientist automatycznie przyjmuje tłumaczenie jako danolog. Natomiast w żadnym wypadku nie ma powodu, by interpretować wypowiedź profesora Miodka jako “wyrok”, stwierdzający, że jest to jedyne słuszne tłumaczenie Data Science (w rozmowie pada komentarz do tylko jednego innego potencjalnego tłumaczenia - danoznawstwo, a ponadto w rozmowie traktuje się Data Science jako naukę, co jest błędnym założeniem, o czym wspominam poniżej). I tu chciałbym powiedzieć: “nie idźmy tą drogą!”. W dalszej części artykułu oczywiście jaką widzę inną - w moim przekonaniu zdecydowanie lepszą - możliwość i jakie argumenty za nią przemawiają. Zaznaczmy, że artykuł siłą rzeczy jest bardzo subiektywny i z założenia jest prezentacją opinii jednej osoby.

Danetyka - z politechniki pod strzechy

Nazwą, którą uważam za zdecydowanie trafniejszą jest Danetyka, która pojawia się w tytule artykułu. Tutaj zaznaczę, że nie jest to mój wymysł i chciałbym oddać honory osobie, od której po raz pierwszy usłyszałem tę propozycję - profesorowi Przemysławowi Grzegorzewskiemu z Politechniki Warszawskiej (na marginesie: propozycja ta padła podczas wspomnianych obrad nad nazwą kierunku studiów, ale nie została przyjęta, ponieważ nie chcieliśmy podejmować ryzyka tworzenia nowego terminu, gdyż nie wiadomo czy się przyjmie). Jeśli słyszysz ten termin po raz pierwszy, zapewne brzmi on dla Ciebie dziwnie. Ale tak to już jest z nowymi terminami. Dla mnie też na początku brzmiało to obco, ale już dawno “uleżało” mi się w głowie i jest ten termin dla mnie zupełnie naturalny. Myślę, że większość osób po oswojeniu się będzie miała podobne zdanie. Poniżej przedstawię argumenty (częściowo usłyszane od profesora Grzegorzewskiego), które w moim mniemaniu przemawiają za przetłumaczeniem Data Science jako danetyka, a stanowiska data scientist jako danetyk.

Wydaje się, że nazwy nauk (w szczególności tych, z którymi mamy styczność najczęściej) powstające poprzez dodanie końcówki -logia są częściej humanistyczne lub przyrodnicze niż techniczne (np. filologia, psychologia, socjologia, politologia, biologia, geologia, paleontologia). Stąd końcówka -logia jest w pewnym stopniu nacechowana tymi dziedzinami. Dlatego danologia rodzi we mnie odczucie, że jest to nauka humanistyczna o danych, w której prowadzi się rozważania filozoficzne o tym, czym są dane, jaką rolę odgrywają w życiu, itd. Dlatego zupełnie nie pasuje to do technicznej natury tej dziedziny, w której na co dzień się programuje, pracuje z różnymi technologiami, stosuje lub opracowuje algorytmy matematyczne. Ponadto, przyjęcie danologii, prowadzi w konsekwencji do tłumaczania zawodu Data Scientist jako danolog. Gdy myślę o specjalistach, którzy rozwijają sztuczną inteligencję, budują systemy przetwarzania danych, itd., to nazywanie ich danologami brzmi dla mnie bardzo dziwnie i nietrafnie. Ta nazwa przejmuje mylące nacechowanie danologii i dla mnie sugeruje, że takie osoby prowadzą humanistyczne rozważania i badania nad danymi. Trudno oprzeć się wrażeniu, że jest to toporne i podane “na siłę” tłumaczenie. To tłumaczenie wzbudza we mnie odczucie, że zostało wymyślone przez kilkuletnie dziecko, które wymyśla nazwy naukowców poprzez dodawanie do wszystkiego końcówki “olog” - badacz drzew to drzewolog, badacz psów to piesolog, a badacz danych to danolog. Po prostu dodanie końcówki -olog nie zawsze ma sens, a czasem może dać to bardzo słabe rezultaty…

Data Science - nauka czy biznes?

Tłumaczenie Data Science jako danologia w moim przekonaniu wypacza również samą naturę tej dziedziny. We wspomnianym wywiadzie zwracana jest uwaga, że końcówka -logia podkreśla, fakt, że tu chodzi o jakąś naukę. Dlatego uważam to za zupełnie nietrafiony kierunek i za niesamowicie krzywdzące dla prawdziwego znaczenia Data Science. Bo przecież Data Science to nie tylko nauka, ale również - a właściwie przede wszystkim - pewien obszar działań biznesowych. Według “źródłowej definicji” (patrz diagram poniżej), o Data Science mówimy wtedy, gdy spotykają się trzy aspekty - w uproszczeniu: informatyka, matematyka i biznes. Biznes tutaj nazywa się wiedzą dziedzinową (domain knowledge), ale można to interpretować, że data science jest wtedy, gdy dzięki technologii informatycznej stosujemy metody matematyczne w kontekście biznesowym. Bez kontekstu biznesowego - samo stosowanie algorytmów i wykorzystywanie jakichś technologii - to nie jest data science! Dlatego sprowadzanie data science do nauki jest całkowicie błędnym kierunkiem. To jest drugi z poważnych powodów, dla których o niebo lepszym tłumaczeniem jest danetyka - jest ona wolna on jednoznacznego interpretowania jej jako nauka (a po przyswojeniu sobie tego terminu, naturalnie będzie kojarzyć się z biznesem). Dlaczego? Ponieważ końcówka -tyka jest dużo częściej stosowana w przypadku praktycznych nauk, które jednocześnie są gałęziami biznesu. Spójrzmy na informatykę - czy czytając ten termin myślimy o jakiejś “nauce”? Ja automatycznie myślę o branży IT, chociaż oczywiście jest to też nauka. Robotyka - moje pierwsze skojarzenie to stosowane w przemyśle mechanizmy i inżynierowie konstruujący użytecznie maszyny/roboty. Ale jednocześnie robotyką można nazywać gałąź nauki. Astronautyka - moje pierwsze skojarzenie to praca inżynieryjna związana z lotami w kosmos. Oczywiście to też jest nauka. Dlatego danetyka wpisuje się w tę prawidłowość - mi nasuwa ona skojarzenie z “inżynierami” danych, którzy działają w biznesie. Gdy usłyszymy od kogoś z biznesu, że pracuje w danetyce, to brzmi to rozsądnie - od razu czuć, że pracuje w obszarze technicznym w dziale/zespole związanym z danymi. Z drugiej strony, wyobraźmy sobie, że osoba pracująca na stanowisku “data scientist” powiedziałaby o sobie: “pracuję w danologii”. Czyż nie brzmi to bardzo dziwnie?

Jakiś czas temu napisałem artykuł o przyszłości rynku pracy, na podstawie raportu “Pracownik przyszłości”. Wydźwięk raportu jest taki, że przyszłość naszego świata będzie kształtowana w ogromnej części przez rozwój technologiczny, a w tym przez inteligentne roboty. Można rzec, że kluczowymi naukami przyczyniającymi się do tego będą: informatyka, matematyka, robotyka oraz… Data Science. Spójrzmy zatem na poniższe dwa następujące warianty wylistowania tych dziedzin:

informatyka, matematyka, robotyka, danologia

informatyka, matematyka, robotyka, danetyka

Który z tych wariantów wygląda Twoim zdaniem “lepiej”? Nie mam najmniejszych wątpliwości, że drugi. Danetyka wpisuje się perfekcyjnie w nazewnictwo nauk pokrewnych (robotyka w tej chwili jeszcze za takową nie uchodzi, ale to tylko kwestia czasu, kiedy zacznie przenikać się z danetyką bardzo mocno). Dzięki tej zgodności, nazwa “danetyka” automatycznie nacechowana jest naturą tej dziedziny, wynikającą z nawiązania do pozostałych dziedzin - od razu kojarzy się z branżą cyfrową i czuje się, że jest to dziedzina ścisła i techniczna. Te cztery nauki/dziedziny to filary 4-tej rewolucji przemysłowej i danetyka genialnie się tu wpasowuje (w przeciwieństwie do dziwacznej danologii). Trudno oprzeć się wrażeniu, że Data Science wręcz prosi się o to, żeby je tak przetłumaczyć.

Podsumowanie

Można teraz powiedzieć “no dobrze, faktycznie nazwa “danetyka” brzmi sensownie, ale zawód “danetyk”, to porażka”. Spójrzmy na to tak: ile osób pracujących w branży informatycznej obejmuje stanowiska nazwane “informatyk”? A ile osób pracujących z matematyką (np. osoby liczące ryzyka finansowe w bankowości) pracuje na stanowiskach nazwanych “matematyk”? Jest to znikoma część. Z prostego powodu - informatyka i matematyka są tak obszernymi dziedzinami, że stanowiska się specjalizują i ich nazwy odnoszą do wąskiego wycinka całości. I obecnie “informatyk” czy “matematyk’ praktycznie nie są nazwami stanowisk pracy, lecz określenie na osoby pracujące w obszarze związanym z daną nauką. Tak samo będzie ze stanowiskiem “danetyk” - obecnie stanowisko to istnieje i nazywane jest data scientist, ale niedługo rozwój tej dziedziny doprowadzi do tego, że nigdy jedna osoba nie będzie “ogarniać” całości, co obecnie jeszcze czasem się zdarza. Dlatego danetyk będzie oznaczał kogoś kto pracuje w biznesie “przy danych”. I to brzmi chyba rozsądnie.

Czy te argumenty są przekonujące? Zachęcam do ich rozważenia i myślę, że gdy minie uczucie dziwnego brzmienia nowego terminu, to wówczas może pojawić się uczucie, że jest to sensowne rozwiązanie palącego problemu tłumaczenia Data Science. Tak przynajmniej było w moim przypadku.

Norbert Ryciak

Senior Data Scientist w SigDelta, trener w obszarze Data Science. W 2015 roku ukończył z wyróżnieniem matematykę na Politechnice Warszawskiej ze specjalizacją Statystyka Matematyczna i Analiza Danych. Na co dzień zajmuje się rozwiązywaniem rzeczywistych problemów z wykorzystaniem uczenia maszynowego i deep learningu. Specjalizuje się w obszarze przetwarzania języka naturalnego - brał udział w projektach związanych m.in. z rozwojem algorytmów rozpoznawania wydźwięku opini, implementacji systemów wyszukiwania informacji, czy klasyfikacji dokumentów tekstowych. Ważną rolę w jego życiu odgrywa działalność dydaktyczna - prowadzi szkolenia dla firm, zajęcia na uczelniach, a przede wszystkim jest opiekunem merytorycznym Bootcampu Data Science marki Kodołamacz, na którym kształci przyszłych specjalistów obszaru data science.
Komentarze
Ostatnie posty
Data Science News #204
Data Science News #203
Data Science News #202
Data Science News #201