|
Chcesz wiedzieć więcej? Zamów dobrą książkę. Propozycje Racjonalisty: | | |
|
|
|
|
« Nauka Jak lingwistyka sądowa przechytrzyła J.K.Rowling Autor tekstu: Virginia Hughes
Tłumaczenie: Paulina Wojciechowska
Na początku
ubiegłego tygodnia brytyjska gazeta „Sunday
Times" wstrząsnęła światem wydawniczym, ujawniając, że Robert
Galbraith, świeżo upieczony autor nowej powieści kryminalnej The
Cuckoo's Calling, to nie kto inny, jak sama J.K.Rowling, autorka
bestsellerowej serii książek o Harrym Potterze. Zaraz po tym, w „New York
Times" opisano historię, jak redaktorowi do spraw sztuki „Sunday
Times", Richardowi Brooksowi, udało się dokonać tego odkrycia.
Jeden ze współpracowników Brooksa dostał anonimową
wiadomość na Twittera. Jej autor twierdził, że Galbraith to tak naprawdę
Rowling. Konto „tweetowe" informatora zostało następnie szybko usunięte.
Zanim Brooks skonfrontował się z wydawcą The Cuckoo's Calling, jego
pracownicy poszperali trochę w internecie. Odkryli, że obaj pisarze mieli tego
samego wydawcę i agenta. A po konsultacjach z dwójką ekspertów od IT,
odkryli, że The Cuckoo's Calling i inne książki Rowling wykazują
uderzające podobieństwa lingwistyczne. Usatysfakcjonowany tym, że
informator tweetowy miał rację, Brooks skontaktował się z Rowling.
Wreszcie w sobotę rano, jak donosi „New York Times", "otrzymał
odpowiedź od rzeczniczki Rowling, która powiedziała, że pisarka zdecydowała
się "wyznać prawdę'".
Kiedy świat literacki wrzał od pytań, czy anonimowym
informatorem nie był w rzeczywistości wydawca Rowling, ja sama chciałam dowiedzieć się, w jaki
sposób spece od IT przeprowadzili swoje analizy lingwistyczne. Wczoraj
zatelefonowałam do nich i dowiedziałam się nie tylko, jak przeprowadzono
„dochodzenie" w sprawie Rowling, ale też dostałam garść informacji o fascynującym świecie
lingwistyki sądowej.
Przy pomocy komputerów i wyrafinowanych analiz
statystycznych, badacze przeszukują różnego rodzaju słynne teksty, by
odkryć wskazówki co do ich autorstwa. Jeszcze bardziej zadziwiający jest
fakt, że przeczesują oni teksty nie tylko słynnych autorów, ale blogi, tweety,
aktualizacje statusu na Facebooku, a nawet recenzje na Amazonie, by określić
styl życia i zwyczaje zakupowe szarego człowieka. Cała sprawa jest
paradoksalna. Pisarze starannie dobierają słowa, aby
przekazać konkretne treści, ale, jak się okazuje, te same słowa niosą ze
sobą dane osobiste, o których nie wiemy, że je przy okazji zdradzamy.
„Z ideą, że szpieg komputerowy może odkryć cechy
ukryte w tekście wiąże się coś fascynującego. Takie cechy jak styl
pisania, którego czytelnik nie potrafi wykryć, a autor ukryć, to taki odcisk
palca lub DNA sposobu, w jaki różni ludzie piszą", mówi Peter Millican z Uniwersytetu w Oksfordzie, jeden z ekspertów, z którym konsultowała się
redakcja „The Sunday Times".
Cal Flyn, reporterka „The Sunday Times",
wysłał prośbę o pomoc do Millicana i Patricka Juoli, eksperta
komputerowego z Duquesne University w Pittsburgu, PA. Flyn przedstawiła im
hipotezę, że Galbraith to Rowling i załączyła pięć książek, aby
specjaliści mogli tę hipotezę zweryfikować. Wśród tych książek znalazło
się oczywiście Cuckoo, jak też inna powieść Rowling The Casual
Vacancy. Pozostałe trzy książki były również brytyjskimi kryminałami,
The St. Zita Society Ruth Rendell, The Private Patient P.D. James
oraz The Wire in the Blood Vala McDermida.
Juola poddał każdą z książek (a dokładniej,
sekwencję kilkudziesięciu tysięcy słów, które składają się na książkę)
badaniu przez program komputerowy nazwany JGAAP, nad którym przez
ponad dziesięć lat pracował wraz ze swoimi studentami. Porównał Cuckoo z pozostałymi książkami stosując cztery różne metody
analizy, z których każda koncentrowała się na innym aspekcie analizowanego
tekstu.
W jednym z tych tekstów, na przykład, porównywano
wszystkie pary słów lub zestawy słów będących obok siebie w każdej z książek.
„ Metoda ta jest pod wieloma względami lepsza niż porównywanie pojedynczych słów,
ponieważ można dzięki niej wychwycić nie tylko to, o czym mówisz, ale także
JAK o tym mówisz", mówi Juola. Np. test ten może pokazać, jakie rzeczy
autor opisuje jako „drogie": drogi samochód, drogie ubrania, drogie
jedzenie, itd. „To może być słowo, którego każdy z nas używa, właśnie
jak "drogie", ale w zależności od tego na czym się skupiamy, przekazuje inną myśl."
Juola przeprowadził także test wyszukujący „znaki
n-gramowe", czyli sekwencje sąsiadujących ze sobą liter. Skupił się na
4 gramach, czyli sekwencjach czteroliterowych. Np., wyszukanie sekwencji
„skok" ujawniało nie tylko użycie tego słowa, ale „skacze",
„skakał", „skaczący". „To pozwala nam przyjrzeć się różnym pojęciom i związanym z nimi słowom bez obawy o zastosowany czas i koniugację".
Takie testy wyszukują względnie rzadko stosowane słowa.
Ale również słowa, które najczęściej występują w książce — w języku
angielskim takie słowa jak „a, and, of, the" — pozostawiają ukryty odcisk. Dlatego w programie Juoli zestawiono też sto najczęściej występujących słów z każdej
książki i porównano niewielkie różnice w częstotliwości ich występowania. W jednej książce „the" mogło zostać użyte w 6%, podczas gdy w innych
tylko w 4%.
W ostatnim teście Juoli całkowicie odseparowano słowo
od jego znaczenia, sortując słowa wyłącznie w zależności od ich długości.
Jaki procent książki składa się ze słów trzyliterowych, a jaki z ośmioliterowych?
Takie rozkłady są zasadniczo podobne w różnych książkach, ale analizy
statystyczne potrafią wykryć pewne subtelne różnice. I ten konkretny test
„był bardzo charakterystyczny dla Rowling", twierdzi Juola. "Długość
słów stanowiła jeden z najsilniejszych dowodów na to, że autorem Cuckoo jest Rowling."
Rozwiązanie tych wszystkich zagadek słownych zajęło
Juoli około półtorej godziny i wszystkie cztery testy sugerowały, że Cuckoo jest bardziej podobna do innej powieści Rowling,
Casual Vacancy, niż do pozostałych. I to właśnie przekazał Flyn. Nadal jednak
nie był całkowicie przekonany co do wyników analizy. Nie mógł przecież
wiedzieć, czy prawdziwy autor to nie był inny autor kryminałów, który
przypadkiem pisze podobnie do Rowling. „Mógł to być ktoś, kto jest do
niej podobny. To samo zdarza się podczas konfrontacji policyjnej", mówi.
W tym samym czasie za oceanem, Peter Millican
przeprowadzał równoległą analizę pisarstwa Rowling. Po otrzymaniu emaila
od Flyn, Millican powiedział jej, że potrzebuje więcej danych porównawczych i otrzymał po jednej dodatkowej książce każdego z czterech znanych autorów
(skorzystał z powieści Harry Potter i Insygnia Śmierci jako drugiej znanej
książki Rowling). Poddał te osiem książek swojej analizie lingwistycznej
przy użyciu programu „Signature".
W „Signature" stosuje się wyszukaną metodę
statystyczną określaną mianem „analizy głównych elementów składowych" w celu
porównania wszystkich książek pod względem sześciu cech: długości słowa,
długości zdania, długości paragrafu, częstości występowania liter, częstości
stosowania różnych znaków interpunkcyjnych i zastosowania określonego słownictwa.
Testy częstości występowania określonych słów mogą
być wykonywane na różne sposoby. Jak opisałam wcześniej, Juola przyglądał
się parom słów i najczęściej występującym słowom. Inne podejście, które
może dać prawie pewną odpowiedź, jest według Millicana porównywanie
rzadko stosowanych słów. Klasycznym przykładem są „Federalist Papers",
zbiór esejów autorstwa Aleksandra Hamiltona, Jamesa Madisona i Johna Jaya
powstałych podczas tworzenia konstytucji Stanów Zjednoczonych. W 1963 roku
badacze zastosowali liczenie słów w celu określenia autorstwa dwunastu z tych esejów, które były napisane albo przez Madisona albo przez Hamiltona.
Wykryli, że Madison zwykle używał słowa „whilst" a nigdy „while", a także „on" raczej niż „upon". W odróżnieniu od Madisona,
Hamilton stosował „while", nie „whilst", a „on" i „upon"
stosował z tą samą częstotliwością. W dwunastu anonimowych dokumentach
nigdy nie użyto słowa „while" I rzadko stosowano „upon", co
wskazuje, że z dużym prawdopodobieństwem, że to Madison był ich autorem.
Millican wykrył kilka potencjalnie wyróżniających się
słów podczas „śledztwa Rowling". Inni autorzy używali słowa
„course" (jak w „of course",- po polsku „oczywiście), "someone"
(„ktoś") i „realized" („zdał sobie sprawę") trochę częściej
niż Rowling. Ale różnica nie była dostatecznie znacząca statystycznie dla
Millicana. Dlatego też, podobnie jak Juola, skoncentrował się na najczęściej występujących
słowach. Millican wyszukał pięćset najczęściej występujących słów w każdej z książek, a następnie własnoręcznie usunął słowa, które były
specyficzne dla tematu, jak „Harry", „wand" („różdżka") i „police" („policja").
Ze wszystkich testów, które Millican może
przeprowadzić przy pomocy swojego programu, traktuje te, gdzie porównuje się
użycie słów jako najbardziej wiarygodne. "Otrzymujemy wykres, a z wykresu
widać jasno, że Cuckoo Calling jest ściśle związana z Harrym
Potterem. Jest także oczywiste, że książki Ruth Rendell i Vala
McDermida są do siebie podobne, itd, twierdzi Millican. „Identyfikujemy coś
obiektywnego. Trudno opisać, co konkretnie wykrywają testy, ale zdecydowanie
wykrywają podobieństwa." We wszystkich tekstach Millicana, Cuckoo
wydawała się być najbardziej podobna do znanej powieści Rowling, a ze
wszystkich czterech obie książki Rowling były najbardziej podobne do
siebie. Millican otrzymał pliki około godziny ósmej w piątek wieczorem. Pięć godzin
później napisał do „The Sunday Times. "Powiedziałem: Jestem prawie
pewien, że jeśli to ma być któryś z tych autorów, to jest to Rowling."
Millican nie po raz pierwszy znalazł się w samym środku
debaty dotyczącej książki napisanej przez osobę publiczną. Jesienią 2008
roku, zaledwie na parę tygodni przed wyborami prezydenckimi w USA, otrzymał
on email od szwagra republikańskiego kongresmena ze stanu Utah. Ten
poinformował Millicana, że wykorzystano jego program „Signature", który
można ściągnąć ze strony naukowca, aby udowodnić, że książka Baracka
Obamy, „Dreams from my Father" (Sny od mojego Ojca), mogła być
napisana przez Billa Ayersa, amerykańskiego terrorystę. „Planowali
konferencję prasową w Waszyngtonie, aby zdemaskować Obamę na tydzień
przed wyborami i dlatego skontaktowali się ze mną", wspomina Millican, śmiejąc
się. „Znalazłem się w osobliwej sytuacji." Millican dokonał ponownej
analizy i definitywnie wykazał, że Dreams nie były napisane przez
Ayersa (można o tym przeczytać tutaj).
Juola też opowiedział mi kilka dziwacznych historii.
Kiedyś pracował przy pewnej
sprawie prawnej
dotyczącej człowieka, który wysyłał anonimowe artykuły do
gazet krytykujące rząd pewnego kraju. Groziła mu deportacja z USA, a wiedział,
że jeżeli zostanie deportowany, tajna policja tego rządu będzie
na niego czekała na lotnisku. Juola udowodnił przy pomocy swoich analiz, że
anonimowe artykuły były rzeczywiście napisane przez owego mężczyznę. Dzięki
temu mógł on pozostać w USA. „Udało nam się potwierdzić jego autorstwo,
co zadowoliło przysięgłych" — mówi Juola. Historia ta, dodaje, pokazuje,
jakim potężnym narzędziem może być ten rodzaj nauki. „Istnieje wiele
realnych kontrowersji z konsekwencjami dla zamieszanych w nie osób, i to wiele poważniejszych niż sprawa "czy tę
dość nijaką powieść napisała słynna
autorka"?
Słowa wielu z nas są prawdopodobnie właśnie teraz
przez kogoś przeglądane. Niektórzy naukowcy, powiedział mi Juola, pracują
nad analizą recenzji na stronach takich, jak Amazon.com. Dzięki tym badaniom
można będzie wyeliminować fałszywe pozytywne oceny produktów wystawione
przez przedstawicieli firm lub odnaleźć wartościowe wzorce demograficzne.
„Zabawne, ale mogą nam na przykład powiedzieć, że kobiety z zachodnich stanów USA oceniają nasz produkt o półtorej gwiazdki
gorzej niż mężczyźni z północnego-wschodu, więc musimy odpowiednio dostosować
nasze reklamy. Niewiele firm przyzna się, że przeprowadza takie analizy.
Jednak za każdym razem, gdy przeprowadzane jest jakieś badanie, niezależnie
od tego, czy jest to śledztwo policyjne, pozwolenie na dostęp do tajemnic państwowych,
czy też podanie o pracę, jedną z rzeczy, na które się patrzy, jest czyjś
publiczny profil w sieci. Tutaj wszystko jest grą fair."
How forensic linguistics outed J.K. Rrowling not to mention James
Madison, Barack Obama and the rest of us
Phenomena/National Geographic, 19 lipca 2013r.
« Nauka (Publikacja: 27-07-2013 )
Virginia HughesStudiowała neuronauki i dziennikarstwo naukowe, pisuje dla "The New Yorkera", "Popular Science" oraz "Slate", prowadzi blog "Only Human" przy National Geographic Magazine. Strona www autora
| Wszelkie prawa zastrzeżone. Prawa autorskie tego tekstu należą do autora i/lub serwisu Racjonalista.pl.
Żadna część tego tekstu nie może być przedrukowywana, reprodukowana ani wykorzystywana w jakiejkolwiek formie,
bez zgody właściciela praw autorskich. Wszelkie naruszenia praw autorskich podlegają sankcjom przewidzianym w
kodeksie karnym i ustawie o prawie autorskim i prawach pokrewnych.str. 9142 |
|