1 stycznia 2024

Dziennikarstwo opierało się już dawno na zbiorach danych. Co zmienia ChatGPT?

W wiktoriańskim Londynie w 1855 r. wybuchła epidemia cholery... Co to może mieć wspólnego z nowoczesnymi bazami danych, które stanowią podstawę działania chatbotów z roku 2023? Otóż, dzięki pracy na zbiorach danych, udało się zlokalizować ognisko choroby pustoszącej Londyn, co pozwoliło wyeliminować jej przyczynę i zakończyć epidemię. I to w połowie XIX w., bez udziału sztucznej inteligencji, ani nawet systemów kart perforowanych IBM z początku XX w.

Maciej Danielewicz

0 komentarzy

Redaktor prowadzący HomoDigital, dziennikarz ekonomiczny, wcześniej redaktor naczelny serwisu dla inwestorów giełdowych i finansowych PAP Biznes i ekonomicznego portalu popularnonaukowego Obserwator Finansowy.

W wiktoriańskim Londynie w 1855 r. wybuchła epidemia cholery… Co to może mieć wspólnego z nowoczesnymi bazami danych, które stanowią podstawę działania chatbotów z roku 2023? Otóż, dzięki pracy na zbiorach danych, udało się zlokalizować ognisko choroby pustoszącej Londyn, co pozwoliło wyeliminować jej przyczynę i zakończyć epidemię. I to w połowie XIX w., bez udziału sztucznej inteligencji ani nawet systemów kart perforowanych IBM z początku XX w.

Całość projektu była dziełem jednego człowieka, który wpadł na pomysł, że choroba musi mieć swoje źródło. A jeśli uda się do niego dotrzeć i potwierdzić przyczynę zakażeń, możliwe stanie się powstrzymanie rozwoju epidemii i ostatecznie – uda się jej zwalczenie. Jak dotrzeć do źródła i jak to zrobić w połowie XIX w. – to już know how ówczesnego innowatora.

Nieświadomie, wiktoriański data researcher stał się protoplastą wielkiego działu dziennikarstwa opartego na danych. Bez danych i bez pracy na zbiorach danych trudno wyobrazić sobie dziennikarstwo ekonomiczne, to oczywiste. Ale właściwie to wszystkie tematy opisywane przez media – popularyzacja nauk przyrodniczych, historycznych, ścisłych, polityka, sprawy społeczne, międzynarodowe itp. – powinny opierać się na danych. Z ich udziałem można bowiem tworzyć zestawienia, porównania, wykresy i infografiki pokazujące podobieństwa, różnice i wszelkie zależności.

Dane to kopalnia wiedzy o rzeczywistości i nadzwyczajna skarbnica tematów dla dziennikarzy. Trzeba tylko prawidłowo je dobierać, umiejętnie wykorzystywać i dbać o to, żeby ukazywać fakty we właściwych proporcjach. Niestety, czasem zdarza się, że dane służą manipulacji, jeśli zestawia się np. specjalnie wybrane odcinki czasu czy nieporównywalne wydarzenia. Ekonomiści są na to wyczuleni i zawsze przestrzegają, żeby nie porównywać, jak to się mówi, jabłek z pomarańczami. Analizowane dane muszą należeć do tej samej kategorii. Ale… wróćmy jeszcze na chwilę do epoki wiktoriańskiej.

John Snow jednak coś wiedział. I stworzył mapę

A więc – w wiktoriańskim Londynie w 1855 r. doktor John Snow zastanawia się, jak zwalczyć epidemię cholery. Wpada na pomysł, żeby zebrać wszystkie dane o przypadkach chorobowych i stworzyć „bazę”/”zbiór danych” występowania choroby. Nanosi wszystkie zebrane informacje na mapę centrum miasta i… odkrywa, że choroba ma swoje ściśle identyfikowalne geograficznie źródło.

Największa koncentracja przypadków choroby to miejsce przy włączonej pompie – pump – czyli ujęciu wody pitnej przy Broad Street. To właśnie ta pompa była źródłem zakażeń. Analiza lekarza w sumie nie różni się od nowoczesnych metod wizualizacji danych z naszych czasów. Bardzo proste narzędzie, pomysł na zbieranie danych i zilustrowanie badanej sprawy:

W przybliżeniu mapa wygląda jeszcze konkretniej. Widać wyraźnie każdy dom i jasne jest, że dane umożliwiły dotarcie do źródła choroby. Bez nich byłoby to niemożliwe:

Skąd śmiertelność żołnierzy? Dane, głupcze!

Inna poddana królowej Wiktorii, Florence Nightingale, słynna pielęgniarka i… pionierka statystyki, poszukiwała przyczyn śmiertelności wśród żołnierzy brytyjskich walczących w wojnie krymskiej. W tym samym czasie co doktor Snow, stworzyła mapy przypadków zgonów wśród rannych żołnierzy. Pozwoliło jej to wykazać rolę, jaką w zwiększonej śmiertelności odegrały fatalne warunki sanitarne.

Jej najsłynniejszą wizualizacją danych jest diagram centryczny albo biegunowy, zatytułowany: „Schemat przyczyn śmiertelności w armii na Wschodzie”. Diagram został opublikowany w Notes on Matters Affecting the Health, Efficiency, and Hospital Administration of the British Army i wysłany do królowej Wiktorii w 1858 r. Grafika przedstawia roczny wskaźnik śmiertelności na 1000 żołnierzy w każdym miesiącu roku. Stąd koło podzielone na 12 wycinków.

Legenda diagramu wyjaśnia: obszary niebieskich, czerwonych i czarnych klinów są mierzone od środka ze wspólnego wierzchołka. Niebieskie kliny mierzone od środka okręgu reprezentują obszar zgonów z powodu chorób, którym można zapobiegać lub które można złagodzić, czerwone kliny mierzą od środka zgony z powodu ran, a czarne kliny mierzą od środka zgony z wszystkich innych przyczyn.

Czarna linia na czerwonym trójkącie w listopadzie 1854 r. wyznacza granicę zgonów ze wszystkich innych przyczyn w ciągu miesiąca. W październiku 1854 r. i kwietniu 1855 r. czarny obszar pokrywał się z czerwonym, w styczniu i lutym 1856 r. niebieski pokrywał się z czarnym. Całe obszary można porównać, podążając za niebieskimi, czerwonymi i czarnymi liniami otaczającymi pokolorowane pola.

Inspiracja – na zbiorach danych

Dla wielu dziennikarzy praca na zbiorach danych stanowi niewyczerpane źródło inspiracji. To pomysły, które się nie wyczerpują. Obserwacja danych przynosi czasem więcej informacji o świecie niż zbiory wywiadów i rozmów ze specjalistami i ekspertami. Ale pod warunkiem, że dziennikarz doda jakąś wartość od siebie. I na podstawie danych stworzy tak cenioną w mediach wartość dodaną. Czyli – sensowną opowieść o danych.

Same dane, nawet najsumienniej zbierane, nie dadzą wartości dodanej. Trzeba by wykonać podobną pracę do tej, którą wykonał doktor John Snow w poł. XIX w. Nie tylko zebrać dane, ale zinterpretować i opowiedzieć, przedstawić wnioski i pokazać efekty.

Jeśli ktoś mówi, że w związku z upowszechnieniem coraz nowszych wersji ChatGPT i innych narzędzi sztucznej inteligencji praca dziennikarzy stanie się za jakiś czas niepotrzebna, być może nie bierze pod uwagę tego, że na zbiorach danych trzeba zbudować właśnie wartość dodaną, która obiektywne dane przekształci w subiektywną, zindywidualizowaną story.

Żeby taką story zbudować, trzeba dane zebrać, umieścić je w kontekście i odnieść do źródeł – to zajmowało kiedyś dziennikarzom sporo czasu, było wyjątkowo czasochłonne, tak jak spisywanie długiego wywiadu czy opracowywanie materiałów do pogłębionego reportażu. Teraz można do tych czynności zaprząc narzędzia AI. I te podstawowe działania dziennikarskie, w rodzaju wstępnego researchu, po prostu zlecić maszynom.

Same dane rzadko stanowią centrum opowieści. Tak dzieje się raczej w depeszach agencyjnych, np. przeznaczonych dla inwestorów na rynkach finansowych. Czasem dane są głównym, a nawet jedynym składnikiem treści. Ale są to treści krótkie i bardzo skondensowane. To baza informacyjna dla odbiorców rynkowych lub innych mediów.

Rozproszone dane to dopiero początek. Trzeba je wyselekcjonować, ustawić w jakimś porządku, wyjaśnić znaczenie takiego właśnie, a nie innego szeregu dat, liczb czy faktów. To być może jeszcze częściowo zadanie dla maszyny, która pracę na zbiorach danych ma zapisaną w swoim algorytmie.

Taką pracę nad zebraniem i uporządkowaniem informacji widać w jednej z pierwszych wizualizacji danych w dziejach. To grafika statystyczna Williama Playfaira z 1801 r. przedstawiająca „Zasięg, populację i dochody głównych narodów Europy po podziale Polski i traktacie z Luneville”. Jest tu działanie na trzech kategoriach danych, ale na razie to zaledwie początek. Po prostu najważniejsze kraje Europy zostały ułożone w kolejności pod względem przyjętych parametrów.

Czy ChtGPT udzieli zaskakującej, nietypowej odpowiedzi?

Dane trzeba połączyć, zrozumieć i wyprowadzić nowe wnioski. Czy ta czynność łączenia danych i faktów, wyciągania wstępnych i ostatecznych wniosków i zależności powinna być prowadzona pod kierunkiem lub z udziałem człowieka-dziennikarza? Kto może najlepiej pociągnąć temat w stronę fascynującej opowieści, zaskakującej zwrotami akcji story albo przynajmniej – budzącej zaciekawienie czytelnika narracji?

Tutaj nie chodzi o obronę miejsc pracy dziennikarzy, tylko o to, że o ile algorytmy mają błyskawiczny dostęp do olbrzymiej bazy danych – i to jest ich przewaga nad człowiekiem – o tyle człowiek ma zdolność wyciągania zaskakujących, niebanalnych wniosków. To ceniona umiejętność nie tylko w dziennikarstwie ekonomicznym. Również w naukach społecznych czy w tak nieoczywistej dziedzinie jak analiza polityczna czy dziennikarstwo śledcze.

Sprawą raczej na drugim planie jest sam sposób prezentacji i wizualizacji. Bez wcześniejszej sumiennej pracy na zbiorach danych i bez błyskotliwych, niestandardowych i nietypowych wniosków, najlepsza nawet wizualizacja nie będzie stanowić wystarczającej wartości dodanej.

W tym miejscu jest coś szczególnie ważnego dla dziennikarzy. ChatGPT zapewne z szeregu danych wyciągnie wnioski typowe. Jeśli 100 dziennikarzy spyta sztuczną inteligencję na podstawie tych samych danych o wnioski, odpowiedzi będą standardowo takie same.

Wartościowe dziennikarstwo udziela odpowiedzi czasem zaskakujących, nietypowych, ale – inspirujących.

Czytaj też: Gorączka sztucznej inteligencji. Efekt? Koncentracja biznesu w metropoliach

Czytaj też: Wyszukiwarka Google ma już 25 lat. Czas na demonopolizację?

Źródło zdjęcia: AbsolutVision/Unsplash

Tagi:Sztuczna inteligencja