КулЛиб - Классная библиотека! Скачать книги бесплатно 

Пособие по журналистике данных [Д Грей] (fb2) читать онлайн


 [Настройки текста]  [Cбросить фильтры]
  [Оглавление]

Пособие по журналистике данных

Вступительная часть

К пожелавшим остаться неизвестными

Рис 1. Как все начиналось

Пособие по журналистике данных родилось на мероприятии Mozilla Festival (MozFest) 2011 в Лондоне. Впоследствии этот 48–часовой семинар вылился в совместные усилия на международном уровне, с участием десятков ведущих сторонников идеи журналистики данных и экспертов, обладающих лучшим опытом в ее применении.

За те шесть месяцев, которые прошли с момента задумки книги до ее первого полноценного релиза, сотни людей разными способами внесли свой вклад в этот процесс. И хотя мы сделали все возможное, чтобы отследить и вычленить их всех, у нас все равно осталась достаточная доля тех, кто принимал участие в правке книги анонимно, под псевдонимом или иным образом пожелав остаться неизвестным.

Всем тем, кто внес свой вклад в создание данного справочника, и кто не перечислен ниже, мы хотим сказать две вещи. Во–первых, спасибо. Во–вторых, сообщите нам, пожалуйста, о том, кто вы есть, с тем, чтобы мы могли отдать вам должное там, где это необходимо.

Список тех, кто принял участие в создании этой книги

Перечисленные ниже люди принимали участие в составлении текста или иным образом вносили прямой вклад в то, что сейчас является нынешней версией книги. Иллюстрации подготовила художник–иллюстратор Кейт Хадсон (Kate Hudson).

• Грегор Айш (Gregor Aisch), Фонд Open Knowledge

• Бригитте Альфтер (Brigitte Alfter), Journalismfund.eu

• Дэвид Эндертон (David Anderton), независимый журналист

• Джеймс Болл (James Ball), The Guardian

• Селен Барр (Caelainn Barr), Citywire

• Марианна Берруэзо (Mariana Berruezo), Hacks/Hackers Buenos Aires

• Майкл Бластлэнд (Michael Blastland), независимый журналист

• Мариано Блейман (Mariano Blejman), Hacks/Hackers Buenos Aires

• Джон Боунс (John Bones), «Верденс Ганг»

• Марианне Бушар (Marianne Bouchart), Bloomberg News

• Лилиана Бонегру (Liliana Bounegru), Европейский центр журналистики

• Брайан Бойер (Brian Boyer), Chicago Tribune

• Пол Брэдшоу (Paul Bradshaw), Бирмингемский городской университет

• Вэнди Карлайл (Wendy Carlisle), Австралийская вещательная корпорация (АВС)

• Люси Чемберс (Lucy Chambers), Фонд Open Knowledge

• Сара Коэн (Sarah Cohen), Университет Дьюка

• Алистер Дант (Alastair Dant), The Guardian

• Хелен Дэрбишир (Helen Darbishire), Access Info Europe

• Чейз Дэвис (Chase Davis), Центр расследовательской журналистики

• Стив Дойг (Steve Doig), Школа журналистики Уолтера Кронкайта, Университет штата Аризона

• Лайза Эванс (Lisa Evans), The Guardian

• Том Фриз (Tom Fries), Фонд Bertelsmann Stiftung

• Данкан Гир (Duncan Geere), Wired UK

• Джек Гиллум (Jack Gillum), Associated Press

• Джонатан Грей (Jonathan Gray), Фонд Open Knowledge

• Алекс Говард (Alex Howard), O’Reilly Media

• Белла Харрел (Bella Hurrell), BBC

• Николас Кайзер–Бриль (Nicolas Kayser–Bril), Journalism++

• Джон Киф (John Keefe), WNYC

• Скотт Клейн (Scott Klein), ProPublica

• Александр Лехне (Alexandre Léchenet), Le Monde

• Марк Ли Хантер (Mark Lee Hunter), Школа бизнеса INSEAD

• Эндрю Леймдорфер (Andrew Leimdorfer), BBC

• Фридрих Линденберг (Friedrich Lindenberg), Фонд Open Knowledge

• Майк Линксвейер (Mike Linksvayer), Creative Commons

• Мирко Лоренц (Mirko Lorenz), Deutsche Welle

• Еса Мекинен (Esa Mäkinen), «Хельсингин Саномат»

• Педро Маркун (Pedro Markun), Transparência Hacker

• Исао Мацунами (Isao Matsunami), Tokyo Shimbun

• Лоренц Матцат (Lorenz Matzat), OpenDataCity

• Джефф Макги (Geoff McGhee), Стэнфордский университет

• Филип Мейер (Philip Meyer), почетный профессор, Университет Северной Каролины в Чапел–Хилл

• Клэр Миллер (Claire Miller), WalesOnline

• Синтия О'Мурчу (Cynthia O’Murchu), Financial Times

• Олусун Онигбинде (Oluseun Onigbinde), BudgIT

• Дьердь Падейский (Djordje Padejski), член общества рыцарей журналистики, Стэнфордский университет

• Джейн Парк (Jane Park), Creative Commons

• Ангелика Перальта Рамос (Angélica Peralta Ramos), La Nacion (Аргентина)

• Шерил Филипс (Cheryl Phillip), The Seattle Times

• Арон Пилхофер (Aron Pilhofer), New York Times

• Лулу Пинней (Lulu Pinney), фриланс–дизайнер инфографики

• Пол Раду (Paul Radu), Проект по организованной преступности и коррупции (Organised Crime and Corruption Reporting Project – OCCRP)

• Саймон Роджерс (Simon Rogers), The Guardian

• Мартин Розенбаум (Martin Rosenbaum), BBC

• Аманда Росси (Amanda Rossi), Friends of Januária

• Мартин Сарсале (Martin Sarsale), Hacks/Hackers Buenos Aires

• Фабрицио Скроллини (Fabrizio Scrollini), Лондонская школа экономики и политических наук

• Сара Слобин (Sarah Slobin), Wall Street Journal

• Серджио Сорин (Sergio Sorin), Hacks/Hackers Buenos Aires

• Джонатан Стрэй (Jonathan Stray), The Overview Project

• Брайан Суда (Brian Suda), (optional.is)

• Крис Тэггарт (Chris Taggart), OpenCorporates

• Джер Торп (Jer Thorp), научно–исследовательская группа в New York Times

• Энди Тоу (Andy Tow), Hacks/Hackers Buenos Aires

• Люк Н. ван Вассенхове (Luk N. Van Wassenhove), бизнес–школа INSEAD

• Саша Венор (Sascha Venohr), Zeit Online

• Джерри Верманен (Jerry Vermanen), NU.nl

• Сезар Виана (César Viana), Университет Гойяс

• Фарида Вис (Farida Vis), Университет Лестера

• Пит Уорден (Pete Warden), независимый эксперт по анализу данных и разработчик

• Крис Ву (Chrys Wu), Hacks/Hackers

Чем является эта книга (и чем она не является)

Эта книга предназначена для того, чтобы стать полезным источником информации для каждого, кто полагает, что ему может быть интересно стать профессионалом в области журналистики данных, или как минимум по–любительски заниматься или поверхностно ознакомиться с журналистикой данных.

Многие внесли свой вклад в создание этой книги, и посредством нашей редакторской работы мы постарались, чтобы их разные голоса и взгляды смогли прозвучать. Мы надеемся, что книга будет читаться и восприниматься как насыщенный и информативный разговор о том, что такое журналистика данных, почему она важна, и как ею заниматься.

Как ни жаль, но сам факт прочтения данной книги не даст вам всеобъемлющего набора всех знаний и опыта на любые случаи жизни, которые вам потребуются, чтобы стать дата–журналистом. Для этого потребуется огромная библиотека и сотни экспертов, способных помочь с ответами на вопросы по сотням разных тем. К счастью, такая библиотека существует и называется «интернет». Но вместо этого, мы рассчитываем, что эта книга даст вам ощущение того, как начать, и куда смотреть, если вы хотите двигаться дальше. Примеры и учебные материалы скорее выполняют иллюстративную функцию, нежели являются исчерпывающими и всесторонними источниками.

Мы считаем, что нам очень повезло, что у нас в распоряжении оказалось так много времени, энергии и терпения со стороны всех тех, кто внес вклад в появление на свет этой книги, и мы сделали все возможное, чтобы мудрым образом этим всем распорядиться. Мы надеемся, что – в дополнение к тому, что она станет полезным справочным материалом – эта книга также станет свидетельством страстного увлечения, пыла и энтузиазма, отражением взглядов и энергии зарождающегося движения. В книге делается попытка дать ощущение того, что происходит за кулисами, что скрывается за тем или иным сюжетом или материалом.

Пособие по журналистике данных – это незавершенное произведение, работа над ним продолжается. Если вы считаете, что в книге есть что–то, что нужно изменить, или же что в ней чего–то подозрительным образом не хватает, тогда, пожалуйста, дайте нам знать об этом, чтобы этот материал можно было включить в следующую версию справочника. Пособие также свободно доступно для копирования, изменения, коммерческого использования на условиях лицензии Creative Commons Attribution–ShareAlike , и мы настоятельно рекомендуем вам делиться данной книгой со всеми, кому она, на ваш взгляд, может быть интересна.

Джонатан Грэй (@jwyg)

Лилиана Бонегру (@bb_liliana)

Люси Чемберс (@lucyfedia)

Март 2012 г.

Вкратце о справочнике

Специалист в области инфографики Лулу Пинней создал этот великолепный постер, который дает наглядное краткое представление о содержании книги «Пособие по журналистике данных».

Рис 2. Пособие вкратце

Все подписи по ходу голубой толстой стрелочки подряд:

Пособие по журналистике данных

1. Введение. Что такое журналистика данных?

2. В ньюсруме. Самый важный аспект.

3. Конкретные примеры. Взгляд на вдохновляющие примеры исследований.

Журналисты–создатели кода/Журналисты–программисты. Найм программиста высшего класса.

Набор вашей команды.

Данные.

4. Получение данных.

Свобода информации. Открытые порталы данных. Обработка данных, удаление лишнего. Краудсорсинг.

Права в данных.

Грамотность в отношении данных.

5. Понимание, осмысливание данных.

Инструменты.

Написание статей/создание сюжетов с данными.

6. Предоставление данных.

Журналистика данных.

Снабжение данных сюжетами. Приложения на основе данных. Визуализация данных.

Аудитория.

Вовлеченность сообществ.

Введение

Что такое журналистика данных?

Рис 3. Узнайте о расходах ваших парламентариев(The Guardian)

Что такое журналистика данных? Я могу просто ответить, что это журналистика, которая делается при помощи данных. Но это вряд ли особо поможет.

И «данные», и «журналистика» — ненадежные и неудобные термины. Кто–то считает, что данные – это любой набор цифр, чаще всего в таблице. 20 лет назад это был фактически единственный вид данных, с которыми имели дело журналисты. Но сейчас мы живем в цифровом мире, мире, в котором практически все можно описать при помощи цифр – и в котором практически все и описывается при помощи цифр.

Ваш послужной список, 300 000 конфиденциальных документов, кто кого знает в вашем кругу друзей – все можно описать (и описывают) всего двумя цифрами – нулями и единицами. Фотографии, видео, аудио – все описывается теми же двумя цифрами – нулями и единицами. Убийства, заболевания, политические голосования, коррупция и вранье – снова нули и единицы.

Что же отличает журналистику данных от остальной журналистики? Возможно, это новые возможности, которые открываются, когда вы объединяете традиционный «нюх на новости», умение выведать все, что случилось, со способностью рассказать захватывающую и наглядную историю, с настоящим масштабом и разнообразием цифровой информации, которая ныне доступна.

И эти возможности могут появиться на любой стадии процесса журналистской работы: с использованием программирования для автоматизации процесса сбора и объединения информации от местных властей, полиции и других гражданских источников, как сделал, например, Эдриан Головатый (Adrian Holovaty) с ChicagoCrimeи потом c EveryBlock.

Или можно использовать программное обеспечение для поиска связей между сотнями тысяч документов, как сделала The Telegraph с проектом «Расходы парламентариев».

Журналистика данных может помочь журналисту рассказать сложную историю за счет задействования инфографики. Яркие и эффектные наглядные рассказы Ханса Рослинга о визуализации нищеты в мире при помощи Gapminder, например, собрали миллионы просмотров по всему миру. А популярная работа Дэвида Маккендлесса по извлечению сущности из больших чисел – как–то, например, представление государственных расходов в контексте, или исследование о том, какое загрязнение окружающей среды было и какое было предотвращено во время извержения исландского вулкана — демонстрирует важность чистого дизайна на портале Information is Beautiful.

Или же она может помочь объяснить, какое отношение тот или иной сюжет имеет к индивидууму, это, например, сейчас уже очень часто делают BBC и Financial Times в своих проектах интерактивного бюджета (где вы можете узнать, как бюджет затрагивает лично вас, а не обывателей в целом). Или же она может открыть сам процесс сбора новостей, The Guardian успешно делает это, делясь данными, контекстной информацией и вопросами в своем проекте Datablog.

Данные могут служить источником журналистики данных, или же они могут быть тем инструментом, при помощи которого рассказывается история – или же они могут быть и тем, и другим одновременно. Как к любому источнику, к нему нужно относиться скептически, и как с любым инструментом, мы должны осознавать и понимать, как этот инструмент может придать форму или ограничить истории, которые создаются с его помощью.

Пол Брэдшоу, Бирмингемский городской университет

Почему журналисты должны использовать данные?

Журналистика в осаде. В прошлом мы, как отрасль, полагались на то, что являемся единственными, кто обладает технологией для размножения и распространения информации о том, что случилось накануне вечером. Печатная пресса служила эдакими воротами, если кто–либо хотел достучаться до людей, до аудитории города или региона, следующим утром, он обращался за помощью к газетам. Но эти времена прошли.

Сегодня информационные материалы и новостные репортажи передаются сразу же, как что–то происходит, новости поступают из многочисленных источников, от непосредственных свидетелей, из блогов, и то, что произошло, проходит через обширную сеть социальных связей — там все эти новости ранжируются, обрастают комментариями, а чаще всего сплошь и рядом просто игнорируются.

Вот почему журналистика данных столь важна. Сбор, фильтрация и визуализация того, что происходит за рамками видимого глазу, приобретает все большую ценность. Апельсиновый сок, который вы пьете утром, кофе, который вы завариваете — в современной глобальной экономике существуют невидимые связи между этими продуктами, другими людьми и вами. Языком же этой сети являются данные: маленькие порции информации, которые зачастую не имеют значения сами по себе по отдельности, становятся чрезвычайно важными, когда на них взглянешь под правильным углом.

Уже сейчас несколько журналистов–первопроходцев вовсю демонстрируют, как можно использовать данные для обеспечения более глубокого понимания того, что происходит вокруг нас и как оно может на нас повлиять.

Анализ данных способен раскрыть «форму сюжета» (Сара Коэн), или предоставить нам «новую фотокамеру» (Дэвид Маккендлесс). С использованием данных работа журналиста сдвигает свой основной акцент, переключая внимание с задачи быть первым, кто сообщит о чем–то, на задачу быть тем, кто расскажет нам, что может на самом деле означать определенный ход развития событий. При этом набор тем может быть самым что ни на есть широким. Следующий финансовый кризис, который сейчас находится в процессе становления. Экономический расчет и хозяйственная жизнь, которые скрываются за теми или иными продуктами, которые мы используем. Нецелевое использование средств или политические ошибки, представленные в форме веской и убедительной визуализации данных, которые практически не оставляют пространства для оспаривания.

Вот почему журналисты должны рассматривать данные как перспективу, как шанс, как удобный случай и благоприятную возможность. Они могут, например, рассказать о том, как некая абстрактная угроза, такая как, допустим, безработица, может повлиять на людей в зависимости от их возраста, пола, уровня образования. Использование данных превращает нечто абстрактное в что–то такое, что каждый может понять и с чем каждый может соотнести себя.

Они могут создать персонализированные калькуляторы, чтобы помочь людям принимать решения, будь то покупка машины, дома, решение вопроса об образовании или выбор профессионального пути в жизни или осуществление жесткого контроля за затратами, чтобы не наделать долгов.

Они могут анализировать динамику сложных ситуаций, таких как мятежи, восстания или политические дебаты, продемонстрировать частые заблуждения и помочь всем увидеть возможные решения сложных проблем.

Знакомство с такими процессами, как поиск, очистка и визуализация данных, также трансформирует профессию сборщика информации. Журналисты, которые освоят эти процессы на высоком уровне, на собственной шкуре узнают, что создание статей на основе данных, уникальной информации и аналитических наработок, приносит четкость, разнообразие и перемены, а также облегчение. Меньше предположений, меньше поиска цитат – вместо этого журналист может создать сильную позицию при поддержке данных, и это может в значительной мере повлиять на роль журналистики.

Вдобавок, если начать заниматься журналистикой данных, это дает перспективу на будущее. Сегодня, когда редакции сокращаются, большинство журналистов рассчитывают переключиться на занятие пиаром. А журналисты данных или специалисты по работе с данными уже представляют собой популярную, модную и пользующуюся спросом группу сотрудников, и не только в области медиа. Компании, организации и институты по всему миру ищут так называемых «сенсмейкеров», тех, кто способен придать смысл данным и накопленному опыту, ищут профессионалов, которые знают, как продраться через массивы данных и превратить их в нечто осязаемое и поддающееся оценке.

В данных имеется многообещающее начало, и именно это наполняет вдохновением редакции, заставляя их искать журналистов нового типа. Фрилансерам опыт и профессиональные навыки в области работы с данными предоставляют также путь к новым предложениям и стабильному доходу. Взгляните на это следующим образом: вместо того, чтобы нанимать журналистов для быстрого наполнения страниц и вебсайтов малоценным контентом, использование данных может создать спрос на интерактивные проекты, где трата недели на решение одного вопроса является единственным способом достичь интересного результата. Это приветствуемое изменение во многих сферах области медиа. Но есть одно препятствие, удерживающее журналистов от использования данного потенциала: нужно учиться для того, чтобы узнать, как работать с данными на всех этапах – от первого вопроса до большого раскапывания чего–то важного и интересного в массивах данных.

Работа с данными – это все равно что вступление на обширную и неизвестную территорию. На первый взгляд, исходные данные выглядят просто головоломными и сбивающими с толку, и для глаз, и для мозга. Данные как таковые – очень громоздкие и неуклюжие. Достаточно сложно оформить их правильным образом для визуализации, для наглядного зрительного восприятия. Данным требуется опытный журналист, у которого имеется достаточный запас жизненной энергии, упорства и выдержки, чтобы просматривать зачастую приводящую в замешательство, зачастую скучную исходную информацию и «видеть» в ней спрятанные сюжеты и интересные истории.

Рис 4. Исследование Европейского центра журналистики о нуждах по обучению

Исследование

Европейский центр журналистики провел исследованиес целью выяснить, чему должны научиться журналисты. Мы обнаружили, что имеет место быть большая готовность выйти за пределы зоны комфорта традиционной журналистики и вкладывать свое время в получение новых знаний и нового опыта. Результаты исследования показали нам, что журналисты видят возможность, но им требуется некоторая поддержка, чтобы продраться через первоначальные проблемы, удерживающие их от работы с данными. Есть уверенность в том, что если журналистика данных будет в большей степени усвоена, и рабочий процесс, и инструменты, и результаты весьма быстро улучшатся. Первопроходцы в этом направлении, такие как Guardian, New York Times, Texas Tribune и Die Zeit, продолжают поднимать планку своими основанными на данных статьями и сюжетами.

Останется ли журналистика данных прерогативой небольшой группы пионеров в этой области, или вскоре любая новостная организация будет обладать собственной отдельной командой, занимающейся журналистикой данных? Мы надеемся, что это руководство поможет многим журналистам и редакциям извлечь выгоду из этой перспективной области.

Мирко Лоренц, Deutsche Welle

Почему журналистика данных важна?

Мы задали некоторым из ведущих представителей практического направления журналистики данных и сторонникам данного метода вопрос, почему, на их взгляд, журналистика данных является важной вещью. Вот, что они ответили.

Фильтрация потока данных

Когда информация была в дефиците, большая часть наших усилий была направлена на розыск и сбор оной. Сейчас, когда информации предостаточно, она имеется буквально в изобилии, более важна обработка. Мы обрабатываем информацию на двух уровнях: (1) анализ, чтобы придать ей смысл и структурировать непрекращающийся поток данных, и (2) представление – чтобы получить и ясно продемонстрировать то, что важно для читателя и что отложится у потребителя информации в голове. Словно наука, журналистика данных раскрывает свои методы и представляет свои выводы таким способом, который может быть скреплен, подтвержден и выверен посредством репликации.

Филип Мейер, почетный профессор, Университет Северной Каролины в Чапел–Хилл

Новый подход к созданию сюжетов

Журналистика данных – это зонтичный термин, который, по моему мнению, охватывает многое, включая в себя все новый и новый набор инструментов, техник и подходов к рассказыванию историй, описанию событий, созданию сюжетов. Она может включать в себя все – от традиционных репортажей, которые готовятся при помощи компьютера (с использованием данных в качестве «источника») до самых современных и передовых способов визуализации данных и новостных приложений. Объединяющая цель – журналистская: предоставление информации и анализа, чтобы помогать информировать нас обо всех важных проблемах дня.

Арон Пилхофер, New York Times

Словно фотожурналистика с ноутбуком

«Журналистика данных» отличается от «журналистики слов» лишь тем, что мы используем другой набор инструментов. Мы все разнюхиваем–разузнаем, сообщаем и связываем в сюжеты, зарабатывая на жизнь. Это как «фотожурналистика», только вместо фотоаппарата – ноутбук.

Брайан Бойер, Chicago Tribune

Журналистика данных – это будущее

Журналистика, основанная на данных – это будущее. Журналисты должны хорошо уметь работать с данными и ориентироваться в них, как рыба в воде. Мы привыкли к тому, что сюжеты создаются, допустим, по итогам общения с людьми в барах, и периодически такой способ все еще актуален. Но сейчас все больше и больше приходится углубляться в данные и снабжать себя инструментами их анализа и отбора того, что действительно интересно. Представлять информацию в истинном свете, помогать людям действительно увидеть, как все данные сочетаются друг с другом, и что происходит в государстве.

Тим Бернерс–Ли, основатель всемирной паутины

То, благодаря чему обработка числовой информации встречается с работой мастеров слова

Журналистика данных наводит мосты между техническими статистиками и мастерами художественного слова. Она отделяет ненужное и определяет тенденции, которые не только являются статистически значимыми, но и позволяют отобрать то, что по сути своей составляет основу сложного современного мира.

Дэвид Эндертон, независимый журналист

Обновление своего набора навыков

Журналистика данных – это новый набор навыков для поиска, понимания и визуализации цифровых источников во времена, когда базовых навыков из области традиционной журналистики уже недостаточно. Это не замена традиционной журналистики, а добавка к ней.

Во времена, когда источники становятся цифровыми, журналисты могут и вынуждены быть ближе к этим источникам. Интернет открыл такие возможности, которые ныне находятся за пределами нашего понимания. Журналистика данных – это только начало процесса развития нашего прошлого опыта с целью адаптировать его к режиму онлайн.

Журналистика данных помогает новостным организациям решить две задачи: поиска уникальных сюжетов (не с новостных лент) и выполнения нашей сторожевой и отслеживательской функции. Особенно во времена финансовых рисков это очень важные цели для газет, которых им нужно достичь.

С точки зрения региональной газеты, журналистика данных критически важна. У нас есть поговорка: «нехватка одной плитки перед дверью вашего дома считается более важной, чем восстание в далекой стране». Она бьет вас по лицу и влияет на вашу жизнь более непосредственно. В то же самое время цифровизация наблюдается везде. Из–за того, что местные газеты получают это прямое, непосредственное воздействие прямо у себя по соседству, а источники цифровизируются, журналист должен знать, как найти, проанализировать и визуализировать сюжет из этих данных.

Джерри Верманен

Средство для борьбы с асимметричностью информации

Асимметричность информации —  не недостаток информации, а невозможность проникнуть в нее и обработать ее из–за высокой скорости и огромных объемов, в которых она поступает к нам – является одной из наиболее значительных проблем, с которыми сталкиваются граждане, делая выбор относительно того, как жить своей жизнью. Информация, извлекаемая из печатных, визуальных и аудио средств массовой информации влияет на выбор и действия граждан. Качественная журналистика данных помогает бороться с асимметричностью информации.

Том Фриз, Фонд Bertelsmann Stiftung

Ответ на создаваемый при помощи данных пиар

Доступность средств измерения и снижение цен на них, в устойчивой, самоподдерживающейся комбинации с упором на производительность и эффективность во всех аспектах деятельности общества, вынудили руководителей, лиц, принимающих решения, давать количественную оценку достижениям своей политики, отслеживать тенденции и определять возможности.

Компании продолжают выдавать новые количественные показатели и проводить измерения, показывающие, насколько хорошо они работают. Политики любят хвастаться, говоря о сокращениях цифр безработицы и росте числовых показателей ВВП. Отсутствие или нехватка журналистской проницательности в делах Enron, Worldcom, Madoff или Solyndra является доказательством неспособности многих журналистов ясно видеть суть происходящего за потоками цифр. Цифры чаще принимаются за чистую монету, чем другие факты, так как они несут с собой ауру серьезности, даже когда они являются полностью сфабрикованными.

Уверенная работа с данными поможет журналистам заострить их критическое ощущение, когда они будут иметь дело с цифрами, и, хочется надеяться, поможет им отвоевать обратно некоторые территории в схватке с пиар–отделами.

Николас Кайзер–Бриль, Journalism++

Предоставление независимой интерпретации официальной информации

После разрушительного землетрясения и последовавшей за ним ядерной катастрофы на АЭС «Фукусима» в 2011 году важность журналистики данных была наглядно продемонстрирована работниками медиасферы в Японии, стране, которая отстает в плане цифровой журналистики.

Мы были в недоумении, когда оказалось, что у правительства и экспертов нет надежных и достоверных данных о нанесенном ущербе. Когда чиновники спрятали данные SPEEDI (информация о предполагаемом распространении радиоактивных материалов) от общественности, мы были не готовы к их расшифровке, даже если бы они стали доступны вследствие какой–нибудь утечки. Добровольцы начали собирать данные о радиоактивности при помощи своих собственных устройств, но нам не хватало знаний статистики, интерполяции, визуализации, и так далее. Журналистам нужно иметь доступ к исходным данным, и учиться не полагаться на официальную интерпретацию оных.

Исао Мацунами, Chunichi/Tokyo Shimbun

Работа с лавиной данных

Вызовы и возможности, предлагаемые цифровой революцией, продолжают подрывать и дезорганизовывать журналистику. В век информационного изобилия журналисты и граждане, как и все остальные, нуждаются в лучшем инструментарии, будь то когда мы имеем дело с самиздатом XXI века на Ближнем Востоке, или с обработкой и разгрузкой данных поздней ночью, или ища наилучший способ визуализации качества воды для нации потребителей. Когда мы боремся с потребительскими вызовами, которые представляет эта куча данных, новые публикационные платформы также дают возможность всем собирать данные и делиться ими цифровым образом, превращая их в информацию. В то время как журналисты и редакторы являются традиционными векторами для сбора и распространения информации, выдыхающееся и становящееся вялым и безвкусным информационное окружение 2012 года приводит к тому, что новости сначала появляются в онлайне, а не на редакционном столе.

По всему миру фактически связь между данными и журналистикой становится сильнее. В век больших данных растущая важность журналистики данных берет свою основу в возможности тех, кто ею занимается, обеспечивать контекст, чистоту, и, возможно, самое важное, находить правду во все увеличивающемся количестве цифрового контента в мире. Это не означает, что интегрированные медийные организации сегодняшнего дня не играют критически важной роли. Отнюдь. В информационный век журналистам нужно большее, нежели просто извлечение, верификация, анализ и синтез потоков данных. В этом контексте журналистика данных имеет глубокую важность для общества.

Сегодня, извлечение смысла из больших объемов данных, в частности, неструктурированных данных, станет главной целью для ученых, работающих с данными по всему миру, неважно, работают ли они в ньюсрумах, на Уолл–Стрит или в Кремниевой долине. И самое важное, что эта цель будет реализовываться за счет растущего набора общих инструментов, неважно, используются ли они правительственными технологами, открывающими Чикаго, технологами в области здравоохранения или работниками ньюсрумов.

Алекс Говард, O’Reilly Media

Наша жизнь – это данные

Качественная журналистика данных – сложное дело, потому что качественная журналистика – вообще сложное дело. Это означает знать, как получить данные, как понять их, и как найти сюжет. Порой выходит дохлый номер, порой заходишь в тупик, а порой просто оказывается, что нет хорошей темы. В конце концов, если бы все сводилось к тому, чтобы нажать на нужную кнопку, это была бы не журналистика. Но именно это делает ее целесообразной, и – в мире, в котором наши жизни все больше превращаются в данные – категорически необходимой для свободного и справедливого общества.

Крис Тэггарт, OpenCorporates

Способ сэкономить время

У журналистов нет времени, которое они могли бы бездарно потратить на переписывание чего–то от руки, и бездельничанье в попытке вытащить данные из PDF–файлов, поэтому некоторое знакомство с основами программирования, или знание того, где искать людей, которые могут помочь, невероятно ценно.

Один журналист из газеты «Фола де Сан–Паулу» (Folha de São Paulo) работал с местным бюджетом и позвонил мне поблагодарить за то, что мы выложили счета муниципалитета Сан–Паулу в онлайн (два дня работы одного хакера!). Он сказал, что он переписывал их от руки последние три месяца, пытаясь создать сюжет. Я также помню решение «PDF–ной проблемы» для Contras Abertas, парламентской организации, занимающейся мониторингом новостей: 15 минут и 15 строк в программе – и сделана работа, которая в противном случае занимает месяцы.

Педро Маркун, Transparência Hacker

Неотъемлемая часть набора инструментов журналиста

Я думаю, важно подчеркнуть слово «журналистика», или репортерский аспект «журналистики данных». Дело должно быть не в том, чтобы анализировать данные или визуализировать данные ради самих данных, а в использовании этого метода как инструмента для того, чтобы подобраться ближе к правде о том, что происходит в мире. Я вижу в анализе и интерпретации данных жизненно необходимую часть современного багажа инструментов журналистики, а не отдельную дисциплину. В конечном итоге все это имеет отношение к качественной журналистике, к созданию профессиональных репортажей и рассказыванию историй самым подходящим способом.

Журналистика данных – еще один способ критически изучать мир и сдерживать власти, призывая их к ответу. В условиях, когда объемы доступной информации все увеличиваются, сейчас более чем когда–либо важно, чтобы журналисты знали о технике журналистики данных. Она должна быть инструментом, присутствующим в арсенале любого журналиста: будь то за счет изучения того, как работать с данными напрямую, или посредством сотрудничества с кем–то, кто умеет это делать.

Ее реальная сила – в том, чтобы помочь вам получить информацию, которую в противном случае было бы трудно отыскать или доказать. Хорошим примером этого является статья Стива Дойга (Steve Doig), в которой он проанализировал примеры ущерба от урагана «Эндрю». Он объединил два разных набора данных: один, показывающий уровень разрушений, причиненных ураганом, и второй, демонстрирующий скорости ветра. Это позволило ему выделить зоны, где слабые законы в области жилищного строительства и практика некачественного строительства внесли свой вклад в результаты урагана. Он завоевал Пулитцеровскую премию за эту свою статью в 1993 году, и это отличный, вдохновляющий пример того, чего можно достичь.

В идеале вы используете данные для того, чтобы точно определить и выделить секреты и провалы и всплески значений, очертить области интереса, или выделить факты, которые удивляют. В этом смысле данные могут служить исходником или источником конфиденциальной информации. Но хотя сами цифры тоже могут быть интересными, просто написать о данных недостаточно. Надо на их основе сделать репортаж, чтобы объяснить, что они значат.

Синтия О'Мурчу, Financial Times

Приспособление к изменениям в нашем информационном окружении

Новые цифровые технологии приносят новые способы производства и распространения знаний в обществе. Журналистика данных может пониматься как попытка средств массовой информации адаптироваться к изменениям в нашем информационном окружении и отреагировать на эти перемены – в том числе, путем более интерактивного, более многомерного представления тем и сюжетов, давая возможность читателям использовать источники, лежащие в основе новостей, и подталкивая их к участию в процессе создания и развития историй и сюжетов.

Сезар Виана, Университет Гойяс

Способ видеть вещи таким образом, каким бы вы их иначе не увидели

Некоторые сюжеты и темы можно понять и объяснить только с помощью анализа – и порой визуализации – данных. Связи между влиятельными людьми или организациями могли бы остаться нераскрытыми; смерти, связанные с борьбой с наркотиками, остались бы тайной; политика в области экологии, которая наносит вред окружающей среде, по–прежнему оставалась бы без внимания. Но все вышеозначенное изменилось – из–за данных, которые получили журналисты – получили, проанализировали и предоставили читателям. Данные могут быть простыми как простая таблица или список телефонных звонков, или сложными, как школьные таблицы или данные о больничных инфекциях, но внутри себя все они содержат истории, которые стоит рассказать.

Шерил Филлипс, The Seattle Times

Способ создавать более насыщенные сюжеты

Мы можем рисовать картину всей нашей жизни при помощи цифровых следов. Начиная с того, что мы потребляем и просматриваем, и заканчивая тем, куда и когда мы путешествуем, нашими музыкальными предпочтениями, нашей первой любовью, важными моментами в жизни наших детей, даже нашей последней волей – все это может быть отслежено, переведено в цифровой вид, может храниться в облаке и распространяться. Эту вселенную данных можно использовать, извлекая из нее нужную информацию, чтобы создавать сюжеты, отвечать на вопросы и распространять понимание жизни такими способами, которые сейчас превосходят даже самые строгие и тщательные исторические реконструкции.

Сара Слобин, Wall Street Journal

Несколько известных примеров

Мы попросили некоторых из наших авторов привести их любимые примеры журналистики данных, и рассказать о том, что им в них нравится. Вот они.

Не навредив Las Vegas Sun

Рис 5. Не навреди(The Las Vegas Sun)

Мой любимый пример – это проект «Не навреди» Do No Harmв газете Las Vegas Sun 2010 года – серия статей о больничной помощи (смотри Рис 5). Sun проанализировала более 2,9 миллиона больничных записей, счетов, которые позволили раскрыть информацию о 3 600 предотвратимых травмах, инфекциях и хирургических ошибках. Они получили данные из запросов о предоставлении информации из открытых источников и идентифицировали более трехсот случаев, когда пациенты умирали из–за ошибок, которые можно было предотвратить. Этот проект содержит различные элементы, включая: интерактивный график, который дает возможность читателю просматривать информацию по каждой больнице, какие хирургические травмы происходили наиболее часто, чаще, чем можно было бы ожидать; картус временной шкалой и графиком, который показывает распространение инфекций от больницы к больнице; и интерактивный график, который позволяет пользователям отсортировать данные по предотвратимым травмам или по больницам, чтобы посмотреть, где людям наносится вред. Мне нравится этот проект, потому что он очень понятный и по нему легко ориентироваться. Пользователи могут пользоваться данными очень интуитивно понятным способом. Также от него есть реальная польза: законодательный орган Невады отреагировал шестью законодательными актами. Участвовавшие в реализации проекта журналисты упорно работали над тем, чтобы собрать данные и очистить их от ненужного. Один из журналистов, Алекс Ричардс (Alex Richards), отправлял данные обратно в больницы, а также в органы государственной власти, как минимум, десяток раз, чтобы ошибки были исправлены. — Ангелика Перальта–Рамос, La Nación, Аргентина

База данных о зарплатах государственных служащих

Рис 6. Зарплаты государственных служащих (The Texas Tribune)

Мне нравится работа, которую каждый день выполняют небольшие независимые организации, такие как ProPublica или Texas Tribune, у которой есть великолепный журналист данных в лице Райана Мерфи (Ryan Murphy). Если бы меня попросили выбрать, я бы отметил Базу данных о зарплатах государственных служащих ( Government Employee Salary Database)Government Employee Salary Database), проект Texas Tribune ( Рис 6). В этом проекте собраны данные о зарплатах 660 000 государственных служащих, они сведены в базу данных, в которой пользователи могут осуществлять поиск и на основе которой могут создавать сюжеты. Можно осуществлять поиск по организации, по фамилии или по уровню зарплаты. Этот проект прост, выразителен, полон смысла и делает недоступную информацию публичной. Его легко использовать, и не менее легко автоматически генерировать сюжеты на его основе. Это великолепный пример того, почему большую часть трафика Texas Tribune набирает за счет своих страниц данных.

Саймон Роджерс, The Guardian

Полнотекстовая визуализация документов о войне в Ираке, Associated Press

Рис 7. Анализ военных отчетов (Associated Press)

Работа Джонатана Стрэя (Jonathan Stray) и Джулиан Берджесс (Julian Burgess) на основе документов о войне в Ираке ( Iraq War Logs) ) является воодушевляющим примером проникновения в текстовый анализ и визуализацию с использованием экспериментальной техники, чтобы разобраться в темах, заслуживающих пристального внимания, за счет большого набора текстовых данных ( Рис 7).

Средствами техники текстового анализа и алгоритмов Джонатан и Джулия создали метод, который позволяет демонстрировать кластеры ключевых слов, содержащихся в тысячах отчетов американских властей по Иракской войне, которые подверглись утечке благодаря WikiLeaks, в визуальной форме.

Хотя у представленных методов есть ограничения, и подход носит экспериментальный характер, он представляет собой инновационный подход. Вместо того, чтобы пытаться прочитать все файлы или просматривать записи о войне с предвзятым мнением о том, что там можно найти, вводя определенные ключевые слова и анализируя полученный на выходе результат, эта техника подсчитывает и визуализирует темы/ключевые слова, имеющиеособое значение.

В условиях увеличивающихся объемов данных – как текстовых (сообщения электронной почты, отчеты), так и цифровых, оказывающихся в распоряжении общественности, поиск путей для выделения ключевых областей интересов будет становиться все более и более важным – это великолепная подобласть журналистики данных.

Синтия О'Мурчу, Financial Times

Тайны убийств

Рис 8. Тайны убийств(Scripps Howard News Service)

Одним из моих любимых примеров журналистики данных является проект «Тайны убийств»Тома Харгроува (Tom Hargrove) из Scripps Howard News Service ( Рис 8). На основе правительственных данных и запросов на получение данных из открытых источников он составил демографически детализованную базу данных из более чем 185 тысяч нераскрытых убийств, а потом сконструировал алгоритм для поиска по ней образцов, позволяющих объединять те или иные дела на основании предположений о наличии серийных убийц. В этом проекте есть все: упорный труд по сбору данных и составлению базы лучше, чем правительственная, мудрый анализ с использованием техники социальной науки, и интерактивное представление данных в режиме онлайн таким образом, чтобы читатели могли сами в этой базе работать.

Стив Дойг, Школа журналистики Уолтера Кронкайта, Университет штата Аризона

Машина текстовых сообщений (Message Machine)

Рис 9. Message Machine(ProPublica)

Мне нравится проект ProPublica под названием «Машина текстовых сообщений» ( Message Machine) и поств блоге ( Рис 9). Все это началось тогда, когда несколько пользователей твиттера выразили любопытство по поводу получения разных сообщений электронной почты во время проведения избирательной кампании Обамы. Ребята в ProPublica заметили это и попросили читателей форвардить им любые e–mail–ы, которые они получают от деятелей избирательной кампании. Представление этих данных весьма элегантно, а визуализация выгодно отличается от обычных сообщений электронной почты, которые обычно отправляешь вечерами. Этот проект классный, потому что они собрали свою собственную информацию (хотя, признаем, и небольшую по объему, но достаточную для того, чтобы рассказать историю). Но что еще более здорово, так это то, что они рассказывают историю развивающегося явления, повествуют о масштабных данных, используемых в политических кампаниях с целью целевой рассылки сообщений конкретным лицам. Это лишь первое знакомство, позволяющее попробовать на вкус то, что грядет.

Брайан, Chicago Tribune

Проект Chartball

Рис 10. Список побед и поражений (Проект Chartball)

Одним из моих любимых примеров проектов из области журналистики данных является проект Эндрю Гарсиа Филипса (Andrew Garcia Phillips) под названием Chartball( Рис 10). Эндрю – великий фанат спорта, испытывающий при этом ненасытный аппетит к данным, умеющий создавать отличный дизайн и писать программные коды. В «Чартболле» он визуализирует не только размах истории, но и выдает детальную информацию об успехах и неудачах конкретных игроков и команд. Он создает контекст, делает приятную, пробуждающую интерес графику, его работа представляет собой глубокое исследование, она приятна и интересна – и при этом я не особо интересуюсь спортом!

Сара Слобин, Wall Street Journal

Журналистика данных в перспективе

В августе 2010 года некоторые коллеги и я организовали то, что, как мы считаем, было первыми международными конференциями по журналистике данных, which took place in Amsterdam. At this time there wasn’t a great deal of discussion around this topic and there were only a couple of organizations that were widely known for their work in this area.

1. Они проходили в Амстердаме. В то время на эту тему не велось особых дискуссий, и была лишь пара организаций, которые были широко известны своими работами в данной области.

Способ, которым медийные организации, такие как Guardian и New York Times, обрабатывали огромные объемы данных, опубликованных WikiLeaks, стал одним из основных шагов, которые придали данному термину известность. Примерно в это время термин начал более широко использоваться, вместе с «компьютерной журналистикой», для того, чтобы описать, как журналисты используют данные для улучшения качества освещения событий и увеличения числа глубоких исследований на заданную тему.

Общаясь с опытными журналистами данных и учеными в области журналистики в Twitter, приходишь к выводу, что одна из самых ранних формулировок того, что мы ныне признаем журналистикой данных, была дана в 2006 году Эдрианом Головатым (Adrian Holovaty), основателем проекта EveryBlock – информационной службы, которая позволяет пользователям искать и находить то, что произошло в их районе, в их квартале. В своем коротком эссе под названием «Фундаментальный путь, которым должны измениться газетные сайты» ( «A fundamental way newspaper sites need to change»)он заявляет, что журналисты должны публиковать структурированные, машиночитаемые данные, вместе с традиционными «большими массами текста»:

Например, предположим, в газете опубликована печатная заметка о местном пожаре. Если есть возможность прочитать эту статью на сотовом телефоне – это здорово и прекрасно, просто щегольски. Ура, технологии! Но что я действительно хочу, чтобы было возможно сделать, так это изучить исходные данные этой истории, один за другим, со всеми слоями атрибуции и ссылок на источники, с инфраструктурой для сравнения данных пожара – даты, времени, места, жертв, номера пожарной части, расстояния от пожарной части, имен и уровня опыта пожарных на месте события, времени, которое потребовалось пожарным для того, чтобы прибыть на место происшествия – с подробными данными о предыдущих пожарах. И последующих пожаров, когда/если они произойдут.

Но что отличает это от других форм журналистики, которые используют базы данных или компьютеры? Как – и до какой степени – журналистика данных отличается от других форм журналистики прошлого?

«Компьютерная журналистика» и «точность журналистики»

Использование данных для улучшения репортажей и предоставления структурированной (если не машиночитаемой) информации общественности имеет долгую историю. Возможно, наиболее непосредственное отношение к тому, что мы сейчас называем журналистикой данных, имеет «компьютерная журналистика» (computer–assisted reporting – CAR), которая была первым организованным, систематическим подходом к использованию компьютеров для сбора и анализа данных для улучшения новостей.

CAR впервые была использована в 1952 году CBS для предсказания результатов президентских выборов. С 1960–х годов журналисты (в основном, занимавшиеся расследовательской журналистикой, и в основном из США) стремятся независимым образом контролировать власть путем анализа баз данных по информации из открытых источников научными методами. В рамках этого подхода, также известного как «журналистика общественного служения», сторонники этой журналистской техники, реализуемой при помощи компьютера, стремились выявлять тенденции, развенчивать общеизвестные истины или заблуждения и раскрывать данные о всяческих несправедливостях, творимых государственными властями или частными корпорациями. Например, Филип Мейер (Philip Meyer) пытался развенчать общепринятую трактовку беспорядков 1967 года в Детройте – чтобы показать, что в них участвовали не только малообразованные южане. Сюжеты Билла Дедмена (Bill Dedman) из серии «Цвет денег» в 1980–е годы раскрывали информацию о систематических расовых предрассудках в кредитной политике ведущих финансовых институтов. В своей работе «Что пошло не так» Стив Дойг стремился проанализировать ущерб от урагана «Эндрю» в начале 1990–х годов, чтобы понять, в какой степени на силу этого ущерба оказали влияние недостатки в области политики и практики городского развития. Репортажи на основе данных стали ценной общественной работой и позволили журналистам завоевать известные награды.

В начале 1970–х был придуман термин «прецизионная журналистика» , чтобы описать этот новый тип сбора новостей: «применение социальных и поведенческих научно–исследовательских методов к журналистской практике». Прецизионная журналистика, как предполагалось, должна была использоваться в ведущих медийных организациях профессионалами в области журналистики и общественных наук. Этот термин родился в ответ на другой термин, «новый журнализм» или «новая журналистика» — форма журналистики, при которой к созданию репортажей применялась литературно–художественная техника. Мейер предполагает, что научная техника сбора данных и анализ – это именно то, что нужно журналистике, чтобы осуществлять свой поиск объективности и правды, а вовсе не литературные приемы.

Прецизионную журналистику можно понять как реакцию на некоторые из часто упоминаемых слабостей и недостатков журналистики: зависимость от пресс–релизов (позднее ее стали называть «чурналистикой»), предвзятость и предубеждение по отношению к авторитетным источникам, и так далее. По мнению Мейера, все это вытекает из недостатка информационной научной техники и научных методов, таких как опросы, документы публичного характера, общественные архивы, информация из открытых источников. В 1960–х годах практиковалось, чтобы прецизионная журналистика представляла маргинальные группы и связанные с ними сюжеты. По словам Мейера:

«Прецизионная журналистика была способом расширить набор инструментов репортера, чтобы освещать темы, которые ранее были недоступны, или лишь псевдодоступны, в зависимости от степени журналистской въедливости и тщательности журналиста. Она была особенно полезной, когда надо было заставить услышать голос меньшинства и групп диссидентов, которые боролись за представительство».

Влиятельная статья, опубликованная в 1980–е годы об отношениях между журналистикой и социальными, общественными науками, перекликается с нынешними дискуссиями вокруг журналистики данных. Авторы, два американских профессора в области журналистики, предполагают, что в 1970–е и 1980–е годы общественное понимание того, что такое новости, расширяется, и начинает представлять собой уже не узкую концепцию «новостных событий», а «создание ситуационных репортажей», или информирование о социальных тенденциях, тенденциях общественного развития. Используя базы данных по, например, переписи или какому–то исследованию, журналисты могут «выйти за рамки создания репортажей по конкретным, изолированными событиям, и начать предлагать контекст, который будет придавать этим событиям смысл и значение».

Как и следовало ожидать, практика использования данных для улучшения репортажей берет свое начало еще из тех времен, когда вокруг нас просто появились «данные». Как отмечаетСаймон Роджерс, первым примером журналистики данных в Guardian был материал еще 1821 года. Это список школ Манчестера с указанием числа школьников, которые их посещали, и затрат на школу. По данным Роджерса, это дало возможность впервые показать реальное количество учеников, получающих бесплатное образование, и это число было гораздо выше, чем демонстрировали официальные данные.

Рис 11. Журналистика данных в Guardian в 1821 году (The Guardian)

Еще один ранний пример в Европе – это Флоренс Найтингейл и ее ключевое исследование «Смертность в британской армии» ( ‘Mortality of the British Army’), опубликованное в 1858 году. В своем отчете перед парламентом она использовала графики, чтобы выступить за улучшения в системе здравоохранения в британской армии. Самыми известными являются ее круговые секторные диаграммы, каждая из которых представляла собой информацию о смертях за месяц, и эти диаграммы ярко показали, что подавляющее большинство смертельных случаев было связано с предотвратимыми заболеваниями, а не с вражескими пулями.

Рис 12. Смертность в британской армии – от Флоренс Найтингейл (Florence Nightingale) (Изображение с Википедии)

Журналистика данных и создание репортажей при помощи компьютера

В настоящее время вокруг термина «журналистика данных» идут по всему миру споры о «преемственности и изменениях», а также о ее связи с этими предшествующими журналистскими практиками, в которых задействуется вычислительная техника для анализа наборов данных.

Некоторые считают, что есть разница между CAR и журналистикой данных. Они говорят, что CAR – это техника для сбора и анализа данных как способ усовершенствования и повышения качества журналистики (как правило, расследовательской), в то время как журналистика данных обращает внимание на способ, которым эти данные укладываются в общий журналистский рабочий процесс. В этом смысле журналистика данных уделяет столько же – если не больше – внимания самим данным, вместо того, чтобы использовать данные просто как средство для обнаружения или совершенствования сюжетов. Отсюда получаем, что Guardian Datablog или Texas Tribune публикуют наборы данных вместе с сюжетами, или даже просто наборы данных сами по себе, чтобы люди их исследовали и анализировали.

Еще одним отличием является то, что в прошлом журналисты, занимавшиеся расследовательской журналистикой, страдали бы от скудности информации по тому вопросу, на который они пытались ответить, или по той проблеме, о которой они собирались бы писать. И хотя это и сейчас, конечно, имеет место быть, тем не менее, в наличии имеется также подавляющее изобилие информации, с которой журналисты не обязательно знают что делать. Они не знают, как извлечь пользу из данных. Свежим примером является «Объединенная онлайн–информационная система» (Combined Online Information System), крупнейшая в Великобритании база данных, составленная из информации по расходам – создания которой так долго требовали сторонники прозрачности, но которая при этом озадачила и поставила в тупик многих журналистов после своего выхода. Как недавно написал мне Филип Мейер, «пока информации было мало, большая часть наших усилий была направлена на то, чтобы разыскать и собрать ее. Сейчас, когда информации в изобилии, более важна ее обработка».

С другой стороны, некоторые считают, что нет какого–то особого, значимого различия между журналистикой данных и компьютерной журналистикой. Сейчас совершенно очевидно, что даже у самых современных медийных практик, методов и норм есть история, а в них самих присутствует что–то новое. Вместо того, чтобы спорить о том, является ли журналистика данных совершенно новым явлением или нет, более плодотворной позицией было бы считать ее частью давней традиции, но появившейся при этом в ответ на новые обстоятельства и условия. Даже если бы не было разницы в целях, задачах и технике, возникновение термина «журналистика данных» в начале века означает новую фазу, в которой огромные объемы данных совершенно открыто доступны в сети, объединены со сложными пользовательско–центричными инструментами, а инструменты самостоятельной публикации и краудсорсинга позволяют большему количеству людей работать с бОльшими объемами данных легче, чем когда бы то ни было.

Журналистика данных связана с массовой грамотностью в том, что касается данных

Цифровые технологии и интернет фундаментальным образом меняют способ, которым публикуется информация. Журналистика данных – одна из частей экосистемы инструментов и методов, которая выросла вокруг сайтов и услуг данных. Цитировать и делиться первоисточниками – эти действия заложены в самой природе гиперссылочной структуры всемирной паутины, это такой способ навигации по информации и по данным, к которому мы привыкли сегодня. Пойдем дальше: принцип, который лежит в основе гиперссылочной структуры сети – это суть тот же принцип цитирования, применяемый в академических трудах. Цитировать и делиться источниками и данными, которые лежат в основе сюжетов – это один из базовых, основных способов, которыми журналистика данных может улучшить журналистику вообще, это то, что основатель проекта WikiLeaks Джулиан Ассанж называет «научной журналистикой».

Давая возможность всем и каждому копаться в источниках данных и искать и находить информацию, которая имеет отношение к ним самим, а также проверять утверждения и бросать вызов общепринятым предположениям, допущениям и гипотезам, журналистика данных фактически представляет собой массовую демократизацию источников, инструментов, техник и методологий, которые ранее использовались специалистами – будь то журналистами, занимающимися расследовательской журналистикой, социологами, обществоведами, статистиками, аналитиками или другими экспертами. И хотя в настоящее время цитирование и ссылки на источники данных являются особенностью журналистики данных, мы движемся по направлению к такому миру, в котором данные будут легко интегрированы в ткани СМИ. Журналисты данных играют важную роль, способствуя снижению барьеров понимания и детального исследования и изучения данных, а также увеличивают грамотность своих читателей в том, что касается данных, в массовом масштабе.

В настоящий момент зарождающееся сообщество людей, которые называют себя журналистами данных, в значительной степени отличается от более зрелого сообщества экспертов в области компьютерной журналистики. Хочется надеяться, что в будущем мы увидим более сильные связи между этими двумя сообществами, во многом в таком же виде, в каком мы видели связь и сотрудничество между новыми неправительственными организациями и организациями альтернативной, гражданской журналистики, такими как ProPublica и Бюро расследовательской журналистики (Bureau of Investigative Journalism), с традиционными новостными СМИ, в том, что касается расследований. Хотя сообщество журналистики данных, возможно, обладает более инновационными способами предоставления данных, создания сюжетов и представления итоговых репортажей, глубоко аналитический и критический подход сообщества компьютерной журналистики – это такой подход, у которого журналистика данных определенно может поучиться.

Лилиана Бонегру, Европейский центр журналистики

В ньюсруме

Журналистика данных в АВС

Работа АВС с журналистикой данных

Сейчас, на семидесятом году своего существования, Австралийская вещательная корпорация (АВС) является общенациональным общественным вещательным органом Австралии. Ежегодный объем финансирования составляет примерно 1 миллиард австралийских долларов, который распределяется между семью радиосетями, 60 местными радиостанциями, тремя цифровыми телеканалами, новой международной телевизионной службой и онлайн–платформой по представлению этого все более расширяющегося предложения цифрового и пользовательского контента. Во время последнего подсчета указывалось, что в компании в общем и целом на полную ставку работает 4 500 человек, и 70% из них имеют отношение к созданию контента.

Мы являемся национальной вещательной компанией, которая решительно гордится своей независимостью – потому что хотя мы и финансируемся правительством, мы находимся, тем не менее, на почтительном расстоянии от властей посредством закона. Нашей традицией является независимая общественная журналистика. АВС считается самой надежной информационной организацией в стране, организацией, которой в наибольшей степени доверяют.

Это волнующие и увлекательные времена, и при нынешнем управляющем директоре – бывшем руководителе газеты Марке Скотте (Mark Scott) – создателей контента в АВС побуждают к тому, чтобы, как гласит корпоративная мантра, «быть быстрыми, сообразительными, маневренными и динамичными».

Конечно, это легче сказать, чем сделать.

Одной из инициатив, выдвинутых в последнее время для того, чтобы способствовать этому, была борьба на конкурентной основе между представителями персонала за предоставление средств на разработку мультиплатформенных проектов.

Так был задуман первый в истории АВС проект в сфере журналистики данных.

Где–то в начале 2010 года я ходила на индивидуальную встречу с тремя высокопоставленными людьми, чтобы представить им свое предложение.

Я обдумывала его уже некоторое время. Жадно упиваясь журналистикой данных, образцы которой предлагал ставший ныне легендарным блог журналистики данных газеты Guardian. И это было только начало.

Моим аргументом была мысль о том, что нет и не может быть никаких сомнений в том, что в течение пяти лет у АВС появится свой собственный отдел журналистики данных. Это было неизбежно, полагала я. Но вопрос в том, как мы собираемся к этому прийти, и кто начнет.

Те читатели, кто не знаком с Австралийской вещательной корпорацией, могут просто вообразить себе, какая бюрократическая машина могла быть построена более чем за 70 лет. Ее основным предложением всегда было радио и телевидение. С приходом онлайна в последнее десятилетие это предложение контента развилось в текст, изображения и определенную степень интерактивности, какую ранее невозможно было бы себе представить. Интернет–пространство вынуждало АВС переосмысливать и то, как разрезать пирог (в смысле, как распределять деньги), и то, какого рода пирог компания предполагала готовить (контент).

И конечно, эта работа продолжается, и отнюдь не завершена.

Но кое–что еще происходило с журналистикой данных. Правительство 2.0 (которое, как мы обнаружили, часто грешит нарушениями в Австралии), начинало предлагать новые пути создания сюжетов, материалов, и рассказывания историй, которые до того были похоронены в точках и нулях.

Все это я сказала парням во время моей питч–сессии. Я также сказала, что нам нужно идентицифировать новые наборы навыков, обучать журналистов работе с новыми инструментами. Нам нужен был проект, который будет иметь успех.

И они дали мне деньги.

24 ноября 2011 года заработал мультиплатформенный проект АВС, и сервис ABC News Online вышел в интернет–пространство с проектом «Газ угольных пластов в цифрах» ( ‘Coal Seam Gas by the Numbers’).

Рис 13. Газ угольных пластов в цифрах (ABC News Online)

Это были пять страниц интерактивных карт, визуализированных данных и текста.

Это не была чисто журналистика данных – это был гибрид разных видов журналистики, который родился из сочетания людей, членов команды, готовивших проект, и сюжета, который, если рассмотреть его в контексте, поднимал один из самых горячих и наболевших вопросов в Австралии. Венцом проекта была интерактивная карта, показывающая скважины и участки с газом угольных пластов в Австралии. Пользователи могли осуществлять поиск по местонахождению и переключаться между режимами, показывающими либо скважины, либо арендованные участки. Приближая тот или иной участок, пользователь мог посмотреть, кто является разработчиком, статус скважины и дату бурения. Другая карта показывала расположение участков, на которых ведется активная деятельность в плане добычи газа угольных пластов, в сравнении с расположением участков систем грунтовых вод в Австралии.

Рис 14. Интерактивная карта газовых скважин и арендованных участков в Австралии (ABC News Online)

У нас имелись визуализированные данные, которые конкретно касались проблемы появления соляных пустошей и производства воды, которая могла стать реальностью, в зависимости от реализованного сценария.

Другой раздел проекта исследовал ситуацию со сливом химикатов в местную систему рек.

Состав нашей команды:

 Веб–разработчик и дизайнер

 Ведущий журналист

 Внештатный исследователь с опытом в области извлечения данных, работы с таблицами в Excel и очистки данных

 Внештатный младший журналист

 Консультант–директор производства

 Научный консультант с опытом в области сбора и добычи данных, графической визуализации, и с передовыми исследовательскими навыками

 Услуги проект–менеджера и административная помощь со стороны мультиплатформенного отдела АВС

 Важно также, что у нас была референтная группа журналистов и иных экспертов, с которыми мы консультировались в случае возникновения необходимости

Откуда мы брали данные?

Данные для интерактивных карт были извлечены из шейп–файлов (популярный векторный формат географических файлов), загруженных с правительственных вебсайтов.

Остальные данные по соли и воде были взяты из разных отчетов и источников.

Данные по химическим выбросам были взяты из экологических разрешений, выданных властями.

Что мы узнали?

«Газ угольных пластов в цифрах» был амбициозным проектом как по содержанию, так и по масштабу. Самым главным, на мой взгляд, было то, чему мы научились и как мы могли бы сделать это по–другому в следующий раз.

Проект из области журналистики данных собрал в одном месте много людей, которые обычно не встречаются друг с другом в АВС. Говоря простыми словами, наемных авторов, газетных репортеров, и компьютерщиков–хакеров. Многие из нас не могли разговаривать на одном языке или даже оценить то, что делают другие. Журналистика данных – просто очень мощная, радикальная вещь!

Практические выводы:

 Совместное размещение, работа в одном месте – жизненно важный фактор. Наши разработчик и дизайнер работали в другом месте, и приезжали только на встречи и совещания. Это определенно не оптимальный вариант! Они должны работать в том же помещении, что и журналисты.

 Наш производственный консультант обитал на другом этаже здания. Нам нужно было быть гораздо ближе, чтобы всегда можно было заскочить к нему за советом.

 Выбирайте сюжет, который будет основан только на данных.

Картина в целом: некоторые идеи

Крупные медийные организации должны участвовать в процессе наращивания потенциала и повышения компетентности для того, чтобы принять вызов журналистики данных, встретить ее во всеоружии и удовлетворять ее требованиям. У меня есть предчувствие, что в технических департаментах СМИ прячется огромное количество компьютерных фанатов и хакеров, экспертов и программистов высшего класса, которые отчаянно хотят выбраться. Поэтому нам нужны семинары из серии «журналист встречается с программистом», где тайные компьютерные фанаты, молодые журналисты, веб–разработчики и дизайнеры будут работать с более опытными журналистами, в рамках обмена навыками и процессов наставления. Задача: скачиваем этот набор данных и действуем!

В силу самого факта журналистика данных является комплексной, межотраслевой дисциплиной. Команды и группы, которые занимаются журналистикой данных, составляются из людей, которые в прошлом не стали бы никогда работать вместе. Цифровое пространство размыло границы.

Мы живем в треснувшем, не вызывающем доверия и полном сомнений и подозрительности политическом образовании. Бизнес–модель, которая раньше обеспечивала возможность профессиональной, независимой журналистики – несовершенной самой по себе – находится на грани краха. Мы должны спросить себя – и многие уже так поступают – как бы выглядел мир без жизнеспособной «четвертой власти»? Американский журналист и представитель мыслящей интеллигенции Уолтер Липман (Walter Lippman) писал в 1920–х годах: «всеми признается, что гласное общественное мнение не может существовать без доступа к новостям». Это заявление ничуть не утратило своей актуальности и верности и сегодня. В XXI веке каждый тусуется в блогосфере. Трудно определить сплетников, лжецов, лицемеров или группы, представляющие личную заинтересованность из числа профессиональных журналистов. Практически любой сайт или источник может быть сделан так, что он будет выглядеть вызывающим доверие, убедительным и честным. Надежные и солидные издания бьются до конца, но они при смерти. И в этом новом пространстве нежелательной, «мусорной» журналистики гиперссылки могут бесконечно водить читателя от одного источника к другому, причем все они будут великолепно выглядящими, но бесполезными, и в итоге весь этот процесс похода по гиперссылкам будет оставаться в эдакой цифровой комнате смеха с ее искривленными зеркалами. Вот какой технический термин для этого есть: «чушь сбивает с толку мозги» (bullshit baffles brains). В цифровом пространстве каждый сейчас является рассказчиком, так? Не так. Если профессиональная журналистика – а под этим я подразумеваю тех, кто занимается этичным, уравновешенным, смелым сторителлингом, цель коего – поиск истины – собирается выжить, тогда профессия должна переформулировать и вновь утвердить свой авторитет в цифровом пространстве. Журналистика данных – просто еще один инструмент, посредством которого мы будем осуществлять навигацию в цифровом пространстве. Именно в ней мы будем составлять карты, изучать, отсортировывать, отфильтровывать, извлекать и выискивать сюжет, историю, за всеми этими нулями и единицами. В будущем мы будем работать плечом к плечу с программистами и хакерами, разработчиками, дизайнерами и кодерами. Это процесс, который требует серьезного наращивания потенциала, мобилизации сил и повышения компетентности. Нам нужны ньюс–менеджеры, которые «заставят» связку между цифровым миром и журналистикой начать вкладывать силы и средства в это строительство.

Вэнди Карлайл, Австралийская вещательная корпорация (АВС)

Журналистика данных в ВВС

Рис 15. Мир в семь миллиардов.(BBC)

Термин «журналистика данных» может охватывать ряд дисциплин и используется разными способами в новостных организациях, так что может быть полезным определить, что мы подразумеваем под «журналистикой данных» у нас в ВВС. В широком смысле термин охватывает проекты, которые используют данные, чтобы сделать одно из следующего:

 Дать возможность читателю найти информацию, которая будет для него персонально значимой.

 Рассказать историю или осветить тему, которая будет значимой и ранее не освещенной.

 Помочь читателю лучше понять сложный вопрос.

Эти категории могут пересекаться, частично совпадать, и в онлайн–среде могут зачастую заиграть новыми красками благодаря определенному уровню визуализации.

Сделать это личным

На сайте BBC News мы используем данные для предоставления услуг и инструментов для наших пользователей уже ощутимо больше десяти лет.

Самый подходящий и самый последовательный пример, который мы впервые опубликовали в 1999 году – это наши рейтинги школ, в которых используются данные, ежегодно публикуемые правительством. Читатели могут найти местные школы, введя почтовый индекс, и сравнить их по ряду показателей. Журналисты, специализирующиеся на вопросах образования, также работают вместе с командой этого проекта над просмотром и отбором данных для сюжетов перед публикацией.

Когда мы начали это делать, не было официального сайта, который давал бы возможность представителям общественности исследовать данные. Но сейчас Министерство образования имеет свой собственный сопоставимый сервис, и в связи с этим наша служба переключила свое внимание скорее уже на сюжеты, создаваемые на основе этих данных, чем на сами данные.

Основной задачей в этой сфере должно быть предоставление доступа к данным, к которым имеется явный интерес со стороны общественности. Свежим примером проекта, в котором мы раскрыли большой набор данных, в обычной ситуации недоступных широкой общественности, был специальный репортаж «Все смертельные случаи на всех дорогах» ( Every death on every road). Мы предоставили возможность поиска по индексу, который позволял пользователям искать и находить места, где происходили все смертельные случаи на дорогах Великобритании за последнее десятилетие.

Мы визуализировали некоторые из основных цифр и фактов, взятых из данных полиции, и, чтобы придать проекту более динамичный характер и человеческое лицо, объединились с Лондонской ассоциацией скорой помощи (London Ambulance Association) и с телерадиодепартаментом BBC London, чтобы отследить аварии в столице, когда они происходили. Результаты этого исследования сообщались в режиме онлайн, а также через Твиттер посредством хэштега #crash24, кроме того, все столкновения и аварии наносились на картусразу, как только они происходили.

Простые инструменты

Вместе с предоставлением способов для изучения больших объемов данных, мы также добились успеха в создании простых инструментов для пользователей, которые обеспечивают выделение лично значимых фрагментов информации. Эти инструменты апеллируют в первую очередь к тем, у кого мало времени, и кто не особо захочет осуществлять длительный анализ. Возможность легко поделиться «персональным» фактом – это то, что мы начали встраивать в наши проекты в качестве стандартной функции.

Непринужденным примером данного подхода является наш материал «Мир при семи миллиардах: Каков ваш номер?» ( The world at 7 billion: What’s your number?The world at 7 billion: What’s your number?), опубликованный в соответствии с официальными данными о дате, в которую население планеты превысит 7 миллиардов человек. Введя дату своего рождения, пользователь мог выяснить, какой у него самого был порядковый номер, в плане глобального населения, когда он родился, и потом поделиться этим номером через Твиттер или Facebook. В приложении использовались данные, предоставленные фондом ООН в области народонаселения. Этот проект был очень популярным, и ссылка на него стала самой популярной ссылкой в Facebook в Великобритании в 2011 году.

Еще одним свежим примером является бюджетный калькуляторBВС, который дает возможность пользователям выяснить, насколько лучше или хуже им будет жить в финансовом плане с вводом в действие нового бюджета – и затем поделиться полученной цифрой. Мы скооперировались с бухгалтерско–аудиторской компанией KPMG LLP, которая предоставила нам расчеты, основанные на данных годового бюджета, и затем мы упорно потрудились над тем, чтобы создать привлекательный интерфейс, который побудит пользователей сделать предлагаемое им задание.

Добывание данных

Но где во всем в этом журналистика? Поиск сюжетов в данных – это более традиционное определение для журналистики данных. Имеется ли тут эксклюзив, закопанный в этой базе данных? Все ли цифры точны? Они доказывают или опровергают? Все это – те вопросы, которые должен задавать себе журналист, работающий с данными, или журналист, занимающийся компьютерной журналистикой. Но можно потратить очень много времени на то, чтобы перелопатить огромные массивы данных в надежде найти что–нибудь примечательное.

В этом смысле мы обнаружили, что самым продуктивным является вариант вступить в партнерские отношения с исследовательскими группами или программами, у которых есть опыт и время на то, чтобы расследовать ту или иную историю. Информационная программа ВВС под названием «Панорама» (Panorama) потратила месяцы, работая с Центром расследовательской журналистики и собирая данные о зарплатах в государственном секторе. Результатом стал телевизионный документальный фильм и онлайн–материал в виде специального репортажа «Зарплаты в госсекторе: Цифры» ( Public Sector pay: The numbers), где все данные были опубликованы и визуализированы, и сопровождались анализом — область за областью, сектор за сектором.

Вместе с партнерством с журналистами, работающими в секторе расследовательской журналистики, наличие доступа к умеющим считать и разбирающимся в математике журналистам, обладающим специальными знаниями, является жизненно важным и необходимым. Когда коллега по бизнесу нашей команды проанализировал данные о сокращении расходов, озвучиваемые правительством, он пришел к выводу, что правительственное изложение этих данных заставляет их звучать более весомо и выглядеть более значимыми и более масштабными, чем они есть на самом деле. Результатом стал эксклюзивный материал, «Извлекая смысл из данных» ( Making sense of the data), дополнением к которому служила четкая и ясная визуализация, которая даже получила награду Королвеского статистического общества.

Понимание проблемы

Но журналистике данных не обязательно нужно быть эксклюзивом, который не заметил никто другой. Работа группы по визуализации данных заключается в том, чтобы объединить отличный дизайн с четким редакционным повествованием – чтобы дать пользователю убедительный и аргументированный опыт. Создание визуализационных решений на основе правильных данных может использоваться для того, чтобы дать людям лучшее понимание проблемы или сюжета, и мы часто используем этот подход в процессе создания наших сюжетов на ВВС. Одним из методов, используемых, например, в нашем проекте по отслеживанию количества подающих заявления на пособия по безработице ( UK claimant count tracker), стало составление карты, данные на которой время от времени меняются, чтобы дать пользователю четкое представление о происходящих переменах.

Проект в области данных под названием «Сеть долгов еврозоны» ( Eurozone debt web) исследует запутанную паутину межгосударственных долговых отношений. Этот проект помогает объяснить сложный вопрос визуально воспринимаемым способом, с использованием цветов и пропорциональных стрелок вместе с ясным и понятным текстом. Важным соображением является задача побудить пользователя исследовать проект, или следовать теме повествования, а также задача обеспечить то, чтобы он не чувствовал себя перегруженным цифрами.

Описание команды

Команда, которая занимается производством продуктов из области журналистики данных для сайта BBC News, состоит примерно из двадцати журналистов, дизайнеров и разработчиков.

Наряду с проектами в области данных и визуализациями, команда делает всю инфографику и интерактивные мультимедиа–решения на новостном вебсайте. Все вместе это образует набор сюжетной техники, который мы стали называть «визуальной журналистикой». У нас нет людей, которых отдельно идентифицируют как «журналистов данных», но весь редакционный персонал команды должен уметь пользоваться базовыми табличными приложениями, такими как Excel и Google Docs, для анализа данных.

Главным и ключевым для любых проектов в области данных являются технические навыки и советы наших разработчиков, а также навыки наших дизайнеров в области визуализации. И хотя все мы либо журналисты, либо дизайнеры, либо разработчики «в первую очередь», мы продолжаем упорно трудиться над увеличением степени нашего понимания и умения ориентироваться в профессиональных областях другого.

Ключевыми продуктами для исследования данных являются Excel, Google Docs и Fusion Tables. Команда также использовала, но в меньшей степени, базы данных MySQL и Access, и Solr для обработки бОльших массивов данных, а также пользовалась RDF и SPARQL для того, чтобы начать искать способы, которыми мы можем моделировать события с использованием технологий Linked Data. Разработчики также использовали и используют языки программирования по своему вкусу, будь то ActionScript, Python или Perl для сверки, разбора и, возможно, опровержения наборов данных, над которыми мы работаем. Perl используется также для решения некоторых издательско–публикационных задач.

Для изучения и визуализации географических данных мы используем Google, Bing Maps и Google Earth, а также сервис ArcMAP от Esri.

Для графиков мы используем приложение Adobe Suite, включая Adobe After Effects, Adobe Illustrator, Adobe Photoshop и Adobe Flash, хотя мы редко публикуем флэш–файлы сейчас на сайте, так как JavaScript, в частности, JQuery и другие библиотеки JavaScript, такие как Highcharts, Raphael и D3, все больше отвечают нашим требованиям в области визуализации данных.

Белла Харрел и Эндрю Леймдорфер, BBС

Как работает группа подготовки новостных приложений в Chicago Tribune

Рис 16. Команда по новостным приложениям Chicago Tribune (Фото Брайана Бойера)

Команда подготовки новостных приложений в Chicago Tribune – это просто сборище радостных компьютерщиков, внедренных в ньюсрум. Мы работаем в тесном контакте с редакторами и журналистами, помогая: (1)проводить исследования и создавать информационные материалы, (2) иллюстрировать сюжеты в онлайне, и (3) создавать неувядающие, незабываемые веб–ресурсы для прекрасных людей Чикаго.

Это очень важно, что мы сидим в ньюсруме. Мы обычно находим работу посредством диалогов лицом к лицу с журналистами. Они знают, что мы с удовольствием поможем написать скрин–скрэпер для отвратительного правительственного вебсайта, разорвем в клочки пачку PDF–ов, или каким–нибудь еще способом превратим то, что еще не является данными, в нечто, что вы сможете проанализировать. Это своего рода рекламная продажа с целью привлечения покупателей в нашей команде – таким способом мы узнаем о потенциальных проектах в области работы с данными еще на этапе их начала.

В отличие от многих других команд и групп подготовки в этой области, наша команда была основана технологами, для которых заняться журналистикой означало серьезную перемену в развитии карьеры. Некоторые из нас приобрели магистерскую степень в журналистике спустя несколько лет работы программистами в бизнес–целях, а других взяли из сообщества открытого правительства.

Мы работаем в очень подвижной и динамичной манере. Чтобы убедиться в этом и гарантировать, что мы всегда в синхронизированном режиме и готовы к бою, каждое утро начинается с пятиминутной летучки. Мы часто программируем парами – два разработчика за одной клавиатурой – зачастую такой вариант оказывается более продуктивным, чем вариант «два разработчика за двумя клавиатурами». Процесс производства большинства проектов занимает не более недели, но иногда бывают и более длительные проекты, над которыми мы работаем недельными циклами, а потом показываем результаты нашей работы заинтересованным группам лиц – обычно журналистам и редакторам – каждую неделю. Как мантра произносятся слова «Терпи неудачу быстро» (Fail fast). Если ты делаешь что–то неправильно, то нужно узнать об этом как можно скорее, особенно когда ты пишешь программу, что называется, «в жесткие сроки»!

Существует огромный плюс в программировании итерационно, в жесткие сроки. Мы всегда обновляем наш набор инструментов. Каждую неделю мы выдаем в свет одно или два приложения, потом, в отличие от обычных фабрик и магазинов программного обеспечения, мы имеем возможность задвинуть его на самую дальнюю полку нашего мозгового склада и перейти к следующему проекту. Это та радость, которую мы разделяем с журналистами, каждую неделю мы узнаем что–то новое.

Все идеи относительно приложений поступают от редакторов и журналистов в ньюсруме. Это, я уверен, отличает нас от команд, занимающихся приложениями, в других ньюсрумах, которые часто рожают свои собственные идеи. Мы построили крепкие личные и профессиональные отношения в редакции, и парни знают, что когда у них есть данные, они приходят к нам.

БОльшая часть нашей работы в ньюсруме – это поддержка журналистов. Мы помогаем репортерам раскапывать данные, превращать PDF–файлы в таблицы, разрабатывать скрин–скрэповые сайты, и так далее. Это услуги, которые нам нравится предоставлять, потому что благодаря им мы раньше всех знакомимся с данными, с работой над этими данными, которая идет в редакции. Какая–то часть этой работы превращается в новостное приложение – карту, таблицу, или порой крупномасштабный сайт.

Ранее мы делали ссылку на приложение с опубликованного материала, и в этом случае такой вариант не давал особого трафика. Сейчас же приложения появляются где–то рядом с верхней частью главной страницы нашего сайта, и уже приложение содержит ссылку на сам материал, и такой вариант отлично работает, идя на пользу и приложению, и новостному материалу. Есть на сайте специальный раздел для результатов нашей работы, но трафик на него не очень хороший. Но это и неудивительно. «Эй, сегодня мне нужны кое–какие данные» – это не особо распространенный подход со стороны пользователей.

Нам нравится большое количество просмотров, и нам нравятся награды наших коллег, но это, тем не менее, слабая приправа к интересу. Мотивация все время должна наносить удар, воздействовать – на жизнь людей, на законы, на призвание к отчету политиков, и так далее. Написанная статья будет высказываться в поддержку тенденции и гуманизировать ее парой историй или рассказов. Но что должен делать читатель, когда мы закончим историю? В безопасности ли его семья? Обучаются ли должным образом его дети? Наша работа оправдывает себя, когда она помогает читателю найти его или ее собственную историю в массиве данных. Примеры имеющей ударную силу, эффективной и персонализированной работы, которую мы проделали, можно найти в наших приложениях «Отчеты по безопасности в домах престарелых» ( Nursing Home Safety Reports) и «Сводные таблицы школ» ( School Report Card).

Брайан Бойер, Chicago Tribune

За кулисами в Guardian Datablog

Рис 17. Визуализированный производственный процесс Guardian Datablog (The Guardian)

Когда мы запустили проект Datablog, мы не имели понятия, кто будет интересоваться исходными данными, статистикой и визуализациями. Как сказал некто весьма высокопоставленный в моем офисе, «зачем это может кому–то понадобиться?»

Проект Guardian DatablogGuardian Datablog — который я редактирую — должен был стать небольшим блогом, предлагающим полные наборы данных, лежащих в основе наших материалов. Сейчас он состоит из первой страницы (guardian.co.uk/data); функции поиска по данным мирового правительства и глобального развития; решений в области визуализации данных из сети и от художников–графиков Guardian, и инструментов для изучения данных о государственных расходах. Каждый день мы используем таблицы Google, чтобы делиться с людьми данными, которые мы использовали в нашей работе; мы визуализируем и анализируем эти данные, потом используем их для создания сюжетов и материалов для газеты и интернет–сайта.

Для редактора новостей и журналиста, работающего с графикой, это было логическим продолжением и расширением работы, которую я уже делал, аккумулируя новые наборы данных и споря с ними в попытке разобраться и увидеть смысл в новостных сюжетах дня.

На вопрос, который мне задавали, уже был у нас ответ. Это были невероятные несколько лет для общедоступных данных. Обама своим первым законодательным актом открыл хранилища данных американского правительства, и за ним последовали сайты правительственных данных по всему миру – в Австралии, в Новой Зеландии, и британский портал правительственных данных Data.gov.uk.

У нас был скандал с расходами парламентариев – самый неожиданный пример журналистики данных в Британии – а его итогом стало то, что английский парламент стал приверженцем публикации огромных объемов данных каждый год.

У нас были всеобщие выборы, на которых каждая из ведущих политических партий была привержена идее прозрачности в том, что касается данных, открывая наши собственные хранилища данных для доступа всего мира. Наши газеты посвящали ценнейшие абзацы и места на полосах раскрытию информации из базы данных казначейства COINS.

В то же самое время, по мере того как интернет выдает все больше и больше данных, читатели со всего мира начинают гораздо больше, чем раньше, интересоваться исходными данными, которые лежат в основе тех или иных сюжетов и информационных материалов. Когда мы запускали Datablog, мы думали, что его основную аудиторию составят разработчики, конструирующие приложения. Но на самом деле основную аудиторию проекта составили простые люди, которые хотели больше знать о выбросах СО2 или о восточноевропейской иммиграции или о росте смертельных случаев в Афганистане, или даже о том, сколько раз группа Beatles использовала слово «любовь» (love) в своих песнях (613).

Постепенно работа Datablog’а дала результат и начала вносить свой вклад в сюжеты, которые мы готовили и с которыми сталкивались. Мы осуществили поиск по 485 000 документов, имеющих отношение к расходам парламентариев, и проанализировали подробную информацию о том, какие парламентарии что говорили и заявляли. Мы помогли нашим читателям исследовать и изучить подробные базы данных о расходах Министерства финансов и опубликовали данные в дополнение к новостям.

Но фактором, который без преувеличения стал переломным моментом для журналистики данных, стала одна таблица, появившаяся весной 2010 года: 92 201 строчка данных, каждая из которых содержала подробный расклад какого–то военного события в Афганистане. Это были документы о войне, раскрытые WikiLeaks. Часть первая, кстати говоря. За которой последовали еще две – документы о войне в Ираке и дипломатические депеши. Официальный термин для обозначения первых двух частей – SIGACTS: База данных американского военного ведомства о значимых действиях.

В информационных организациях очень важна география – и близость к редакции. Если вы близки к ней, легко предлагать сюжеты и быть частью процесса; и наоборот, если вы физически далеко, то и обо всем остальном в плане проявления активности можно забыть. До появления массивов документов от WikiLeaks мы сидели на разных этажах с графической службой. Со времен WikiLeaks мы поселились на одном этаже, и прямо рядом с редакционным блоком. Это означало, что нам стало легче предлагать и продвигать свои идеи, а журналистам в ньюсруме стало проще просить нас о помощи при подготовке сюжетов и материалов.

Еще не так давно журналисты были блюстителями и цензорами официальных данных. Мы писали сюжеты о цифрах и выдавали их благодарной публике, которая не интересовалась исходной статистикой. Идея о том, что мы можем поделиться с кем–то нашими исходными данными, выдать их для публикации в наших газетах, была просто кощунственной, по крайней мере, это казалось точно чем–то невообразимым.

Сейчас данная динамика изменилась до неузнаваемости. Наша роль начинает заключаться в том, чтобы служить переводчиками, помогая людям понимать данные – и даже просто публикуя их потому, что они интересны сами по себе.

Но цифры без анализа – это просто цифры, и тут нам стоит вмешаться. Когда британский премьер–министр заявил, что беспорядки августа 2011 года не были связаны с проблемой нищеты, мы смогли составить карту, нанеся на нее адреса участников беспорядков и наложив информацию об уровне бедности по этим адресам, чтобы продемонстрировать правду, стоящую за этим заявлением.

Ну и наконец, важно то, что сюжеты и материалы из области журналистики данных – это процесс. Наполнение в них все время меняется, по мере того, как мы используем новые методы, новую технику, новые инструменты. Некоторые говорят, что главной фигурой становится своего рода супер–программист, пишущий код и погружающийся в SQL. Можно решить использовать и такой подход. Но значительная часть работы, которую мы делаем, выполняется просто в Excel.

Прежде всего, мы определяем и дислоцируем данные, или получаем их из разных источников, из срочных новостей, из правительственных данных, из результатов журналистских поисков, и так далее. Затем мы начинаем анализировать, что мы можем сделать с данными – и нужно ли нам объединить их с другим массивом данных? Как мы можем продемонстрировать происходящие с течением времени изменения? Эти таблицы часто приходится серьезно отчищать – все эти посторонние столбцы и странным образом объединенные ячейки на самом деле не помогают. И это еще мы исходим из того, что это не PDF – наихудший формат представления данных из всех, известных человечеству.

Часто официальные данные поступают с добавленными к ним официальными кодами – каждая школа, больница, избирательный округ и местный орган власти имеют свой уникальный идентификационный код.

У стран они тоже есть (код Великобритании, например – GB). Они полезны, потому что вы можете захотеть начать смешивать базы данных, соединяя их, и тогда по–настоящему впечатляет – насколько же много различных вариантов произношения, написания и сочетания слов может встретиться вам на этом пути. Например, это Бирма и Мьянма, или округ Файетт в США – таковых округов, под одинаковым названием, в стране 11 – в самых разных штатах, от Джорджии до Западной Вирджинии. Коды позволяют нам сравнивать подобное с подобным.

В конце этого процесса получаем результат; будет ли это сюжет, или графический проект, или визуализация, и какие инструменты мы будем применять? Нашими основными инструментами являются бесплатные инструменты, с помощью которых мы можем что–то сделать быстро. Более сложную графику делает наша команда разработчиков.

Что означает, что чаще всего мы пользуемся Google Charts для небольших графиков и диаграмм или Google Fusion Tables для быстрого и легкого создания карт.

Все это может показаться новым, но на самом деле таковым не является.

В самом первом выпуске Manchester Guardian, который вышел в свет в субботу, 5 мая 1821 года, новости были на последней странице, как у всех газет в тот день. А первым номером на первой странице было большое объявление о пропавшем лабрадоре.

И, помимо сюжетов и поэтических отрывков, треть последней страницы занимают, ну, скажем так, факты. Всеобъемлющая таблица стоимости обучения в школах в районе никогда ранее «не выкладывалась на обозрение общественности», — пишет «NH».

NH хотел, чтобы его данные были опубликованы, потому что в противном случае факты будут оставлены на долю неподготовленных священнослужителей. Его мотивация заключалась в том, что «та информация, которая в них содержится, является ценной; потому что, без знаний о той степени, в которой образование… преобладает, даже самое лучшее мнение, которое можно будет составить о состоянии и будущем прогрессе общества, обязательно будет неверным». Другими словами, если люди не знают, что происходит, как может общество становиться лучше?

Я не могу представить себе лучшего разумного объяснения для того, чем мы пытаемся заниматься. Сейчас то, что когда–то было материалом для последней страницы, выходит на лучшие места на первых полосах.

Саймон Роджерс, The Guardian

Журналистика данных в Zeit Online

Рис 18. Сравнение благосостояния на основе PISA(Zeit Online)

Проект «Сравнение уровня благосостояния» ( PISA based Wealth Comparison) на основе данных Международной программы по оценке образовательных достижений учащихся (Programme for International Student Assessment – PISA) представляет собой интерактивную визуализацию, которая позволяет сравнивать стандарты жизни в разных странах. Данный интерактив использует данные из всеобъемлющего отчета ОЭСР по рейтингу образования в мире, PISA 2009, опубликованного в декабре 2010 года. Отчет основан на данных из опросника, в котором пятнадцатилетних школьников спрашивали об условиях проживания у них дома.

Идея заключалась в том, чтобы проанализировать и визуализировать эти данные, чтобы представить уникальный способ сравнения стандартов жизни в разных странах.

В первую очередь, наша внутренняя редакционная команда решила, какие факты кажутся полезными для того, чтобы сделать стандарты жизни сравнимыми, и какие факты должны быть визуализированы, включая:

 Богатство и благосостояние (количество телевизоров и автомобилей во владении, а также доступность ванных комнат в домах)

 Семейная ситуация (живут ли бабушки и дедушки вместе с семьей в одном доме, процентная доля семей с одним ребенком, безработица родителей и рабочий статус матерей)

 Доступ к источникам знаний (интернет в домах, частота использования электронной почты и количество книг во владении)

 Три дополнительных индикатора уровня развития каждой страны.

При помощи внутренней дизайнерской группы эти факты были переведены в формат очевидных и не требующих пояснений значков–иконок. Был создан внешний интерфейс, чтобы можно было делать сравнения между странами, словно в карточной игре.

Следующим шагом стало то, что мы связались с немецкой сетью Open Data Network, чтобы найти разработчиков, которые могли бы помочь нам с проектом. Это сообщество высоко мотивированных людей предложило кандидатуру Грегора Айша (Gregor Aisch), очень талантливого информационного дизайнера, который должен был написать программу, благодаря которой наши мечты должны были реализоваться (не используя Flash – это было для нас очень важно!). Грегор создал очень высококачественную и интерактивную визуализацию в прекрасном стиле кругов–пузырей, на основе библиотеки Raphaël–Javascript ( Raphaël–Javascript Library).

Результатом нашего сотрудничества стал очень успешный интерактив, который собрал хороший трафик. С его помощью легко сравнивать любые две страны, что делает его полезным в качестве информационно–поисковой системы. Это означает, что мы можем пользоваться им еще неоднократно в нашей каждодневной редакторской работе. Например, если мы освещаем какую–либо проблему, связанную с жизненной ситуацией в Индонезии, мы можем быстро и легко вставить графическую иллюстрацию со сравнением условий жизни в Индонезии и, скажем, в Германии. Переданное нашей команде ноу–хау стало отличной инвестицией в будущие проекты.

В Zeit Online мы выяснили, что наши проекты в сфере журналистики данныхобеспечили нам много трафика и помогли привлечь аудиторию новыми способами. Например, после цунами в Японии широко освещалась ситуация на атомной электростанции в Фукусиме. После того, как произошел выброс радиоактивных материалов со станции, были эвакуированы все люди в радиусе 30 километров от АЭС. Пользователи могли прочесть и посмотреть многое об эвакуации. Zeit Online нашла инновационный способ объяснить воздействие этой ситуации немецкой аудитории. Мы спросили: сколько людей живет рядом с атомной электростанцией в Германии? Сколько людей живет в радиусе 30 километров? Карта показывает, сколько людей было бы эвакуировано в подобной же ситуации в Германии. Результат: много–много трафика и проект с невероятной скоростью ушел в народ и распространился в социальных сетях. Проекты в сфере журналистики данных могут сравнительно легко быть адаптированы под другие языки. Мы создали англоязычную версию проекта по близости к АЭС и запустили ее в США, и она стала великолепным генератором трафика. Информационные организации хотят, чтобы их читатели признавали их авторитетным и заслуживающим доверия источником. Мы выяснили, что проекты в области журналистики данных в сочетании с предоставлением нашим читателям возможности просмотра и повторного использования исходных данных обеспечивают нам высокую степень доверия.

В течение двух лет научно–исследовательский департамент и главный редактор Zeit Online Вольфганг Блау (Wolfgang Blau) выступали в защиту журналистики данных как важного способа рассказывать истории и представлять материал. Прозрачность, достоверность и участие пользователей являются важными компонентами нашей философии. Вот почему журналистика данных является естественной частью нашей нынешней и будущей работы. Визуализация данных может придать ценность восприятию сюжета, а также является привлекательным способом для всей редакционной команды представить контент.

Например, 9 ноября 2011 года Deutsche Bank пообещал прекратить финансирование производителей кластерных бомб. Но, по данным исследования некоммерческой организации Facing Finance, банк продолжал одобрять кредиты производителям кластерных боеприпасов и после того, как данное обещание было дано. Наша визуализацияна основе имеющихся данных демонстрирует различные денежные потоки нашим читателям. Различные части и подразделения компании Deutsche Bank собраны наверху, а компании, обвиняемые в причастности к созданию кластерных боеприпасов, внизу. Посредине на временной шкале представлены индивидуальные кредиты. Прокручивая информацию, можно увидеть подробности относительно каждой транзакции. Конечно, эта история могла быть рассказана и при помощи печатной статьи. Но визуализация дает возможность нашим читателям понять и изучить финансовые зависимости более интуитивно понятным способом.

Рис 19. Бизнес бомб (Zeit Online)(Zeit Online)

Возьмем еще один пример: the Федеральная немецкая служба статистикиопубликовала большую базу данных по жизненно важным статистическим показателям Германии, включая моделирование различных демографических сценариев на период до 2060 года. Типичным способом представить такие данные является пирамида народонаселения – такая, как аналогичная пирамида от Федерального статистического агентства.

Вместе с нашими коллегами из научного департамента мы попытались предоставить нашим читателям лучший способ изучить прогнозируемые демографические данные о нашем будущем обществе. С нашей визуализациеймы представили статистически репрезентативную группу из сорока человек разного возраста в период с 1950 по 2060 годы. Они организованы в восемь разных групп. Это выглядит словно групповая фотография немецкого общества в разные моменты времени. Те же самые данные, визуализированные в виде традиционной пирамиды народонаселения, дают лишь очень абстрактное представление о ситуации, но группа с детьми, молодыми людьми, взрослыми и пожилыми гражданами означала, что наши читатели могут более легко работать с этими данными и понимать их. Достаточно было просто нажать кнопку «play», чтобы отправиться в путешествие через одиннадцать десятилетий. Вы также могли ввести свой собственный год рождения и пол, чтобы стать частью этой самой групповой фотографии: увидеть ваше собственное демографическое путешествие сквозь десятилетия и вашу собственную продолжительность жизни.

Саша Венор, Zeit Online

Рис 20. Визуализация демографических данных (Zeit Online)

Как нанять хакера/программиста

Один из вопросов, который мне регулярно задают журналисты, это вопрос о том, где я беру хорошего кодера, или программиста, который будет помогать мне с проектом? Не стоит обманываться, полагая, что это односторонний процесс; хакеры и специалисты в области данных с развитым чувством гражданского долга зачастую не менее склонны входить в контакт с журналистами.

Журналисты – опытные пользователи инструментов и услуг на основе данных. С точки зрения разработчиков: журналисты мыслят нестандартно и способны благодаря этому использовать инструменты работы с данным в таком контексте или в таком ключе, о которых разработчики раньше даже и не задумывались (обратная связь имеет неоценимое значение!), они также способствуют созданию фона, контекста и молвы, разговоров вокруг проектов, помогают делать их важными и значимыми. Это симбиотические отношения.

К счастью, по счастливой случайности, это означает, что пытаетесь ли вы нанять хакера или находитесь ли в поисках возможного сотрудничества в условиях ограниченного бюджета, с большой долей вероятности будет кто–то, кто будет заинтересован в том, чтобы помочь вам.

Так как же вам их искать? Говорит Арон Пилхофер из New York Times:

Вы можете обнаружить, что в вашей организации уже есть люди с теми навыками и тем опытом, который вам нужен, но они не обязательно сидят в вашем ньюсруме, в вашей редакции. Оглянитесь вокруг, сходите в технологический отдел, в IT–отдел, и вы, вполне вероятно, наткнетесь на золотую жилу. Также важно правильно оценить тип и степень увлеченности, общий уровень кодера/программиста, лучше всего найти такого, у которого компьютер будет выглядеть примерно так…

Рис 21. Знак почета: хакеров/кодеров зачастую достаточно легко обнаружить

…и тогда получится, что вы, вероятно, сделали ставку на победителя.

Вот еще несколько идей:

Запостите объявления на сайтах по поиску работы

Определите, что вам нужно, и запостите объявление на сайтах, ориентированных на разработчиков, которые работают с разными языками программирования. Например, на сайте Python Job Board.

Воспользуйтесь соответствующими списками рассылки

Например, списками рассылки NICAR–Lили списком рассылки «Журналистика данных» ( Data Driven Journalism).

Свяжитесь с соответствующими организациями

Например, если вы хотите привести в порядок или очистить данные из сети, вам стоит связаться с организацией типа Scraperwiki, у которой имеется большая адресная книга пользующихся доверием, старательных и готовых работать кодеров/программистов.

Присоединитесь к соответствующим группам или сетям

Обратите ваше внимание на инициативы, подобные Hacks/Hackers, которые сводят вместе журналистов и технарей–компьютерщиков. Группы Hacks/Hackers сейчас возникают по всему миру. Вы можете также попробовать опубликовать что–нибудь в их рассылку о работе.

Местные сообщества по интересам

Вы также можете попробовать провести быстрый поиск по ключевым словам, например, по нужному вам району и требующемуся опыту (например, ‘javascript’ + ‘лондон’). Отличным местом, с которого можно начать, также могут служить такие сайты, как, например, Meetup.com.

Хакатоны и соревнования/конкурсы

Вне зависимости от того, предполагается ли в них денежный приз или нет, но конкурсы различных приложений и вариантов визуализаций, а также различные семинары по профессиональному развитию (development days) часто могут стать благодатной почвой для сотрудничества и налаживания связей. Спросите компьютерщика: Компьютерщики общаются с другими компьютерщиками. Молва, сарафанное радио – это всегда хороший способ найти хороших людей, с кем будете работать.

Когда вы уже нашли хакера, как вам узнать, хорош ли он и насколько хорош? Мы попросили Алистера Данта (Alastair Dant), ведущего технолога по интерактивам в Guardian, поделиться своим взглядом на то, как распознать хорошего программиста:

Это универсальные специалисты, умеющие работать с разными задачами

Когда имеешь дело с необходимостью работать быстро и соблюдать дедлайны/крайние сроки, лучше быть мастером на все руки, чем суперпрофессионалом в чем–то одном. Новостные приложения требуют умения разбираться в данных, динамичной графики и отчаянной храбрости на грани с безрассудством.

Они видят картину в целом

Целостность мышления подразумевает превосходство сюжетно–тематической картины и изложения фактов над техническими деталями. Я предпочту услышать одну ноту, но сыгранную с чувством, чем непрерывную, безостановочную виртуозность в неясных масштабах. Выясните, насколько ему понравится работать в паре с дизайнером.

Они рассказывают хорошую историю

Повествовательная презентация требует размещения вещей в пространстве и во времени. Выясните, каким проектов они больше всего гордятся, и попросите подробно рассказать вам, поэтапно, о том, как создавался этот проект – это продемонстрирует и их способность общаться, и их уровень технических знаний, понимания технической сути.

Они все тщательно обсуждают

Создание чего–либо быстро требует работы смешанной команды над общими целями. Каждый участник команды должен уважать своих коллег и быть готовым к переговорам, к диалогу и компромиссу. Непредвиденные обстоятельства зачастую требуют быстрого перепланирования и коллективного компромисса.

Они самообучаются

Технологии быстро движутся вперед. Чтобы не отставать, нужно прилагать усилия, бороться. Встречая хороших разработчиков с самым разным бэкграундом, могу сказать, что наиболее общей чертой среди них является готовность узнавать новое, учиться новому, при необходимости или по требованию.

— _Люси Чемберс, Фонд Open Knowledge _

Как найти девелопера вашей мечты

Разница в производительности между хорошим и плохим разработчиком – это зависимость не линейная, а скорее экспоненциальная, отличие идет в геометрической прогрессии. Грамотно нанять хорошего специалиста – чрезвычайно важно. К сожалению, нанять хорошего эксперта очень трудно. Очень сложно просматривать кандидатов, если ты не являешься опытным техническим менеджером. Добавим сюда зарплаты, которые новостные организации могут себе позволить платить (а они невелики), и мы получим весьма проблематичный вопрос.

У нас в Tribune мы при наборе специалистов отталкиваемся от двух углов, заманивая их к себе: эмоциональная привлекательность и техническая привлекательность. Эмоциональный позыв такой: журналистика жизненно важна для функционирования демократии. Работайте здесь и вы сможете изменить мир. С технической точки зрения, мы продвигаем прежде всего идею о том, сколькому вы сможете научиться. Наши проекты маленькие, быстрые и циклические, повторяющиеся. Каждый проект – это новый набор инструментов, новый язык, новая тема (пожарная безопасность, пенсионная система, и т.п.), которую вам нужно будет узнать. Ньюсрум – это суровое испытание. Я никогда не встречал команды, которая могла бы столь же многому обучиться и столь же быстро, как наша команда.

Что касается того, куда смотреть и где искать, то нам, например, очень повезло найти отличных хакеров в сообществе открытого правительства. А список рассылки Sunlight Labs – это место, где по ночам появляются всякие чудики–благодетели, у которых днем – обычная рутинная работа. Еще одним потенциальным источником является проект Code for America (CfA). Каждый год оттуда выходит группа товарищей, которая ищет себе следующий большой проект. А в качестве бонуса – у CfA очень тщательный процесс интервью – они уже проделывают работу по отбору за вас. В наши дни интересующиеся программированием журналисты также выходят из школ журналистики. Они, конечно, еще очень «зеленые», но у них просто тонны потенциала.

И наконец, недостаточно просто нанять разработчиков. Вам нужен технический менеджмент. Одинокий разработчик (особенно свежий выпускник журналистской школы, без опыта работы в отрасли) наверняка примет много плохих решений. Даже самый лучший программист, если его оставить наедине со своими устройствами, предпочтет делать технически интересную работу, а не то, что наиболее важно для вашей аудитории. Называйте это наймом редактора новостных приложений, проект–менеджера, неважно как назвать. Ровно как авторам и писателям, программистам тоже нужны редакторы, наставничество, а также кто–то, кто бы собачился с ними, заставляя делать работу по изготовлению ПО вовремя.

Брайан Бойер, Chicago Tribune

Использование внешнего опыта за счет интенсивной работы групп программистов (хакатона)

Рис 22. Хакатоны: как подстегнуть сотрудничество между журналистами и разработчиками (фото Хайнце Хавиньи)

В марте 2010 года базирующаяся в Утрехте организация цифровой культуры SETUP организовала мероприятие под названием «Хакерская журналистика» ( ‘Hacking Journalism’). Эвент был организован в целях содействия укреплению и усилению сотрудничества между разработчиками и журналистами.

«Мы устраиваем хакатоны, чтобы создавать крутые приложения, но мы не можем распознать и выделить интересные истории в массивах данных. То, что мы конструируем, не имеет социальной значимости и не относится к повседневной жизни», — сказал один из программистов. «Мы признаем важность журналистики данных, но у нас нет всех необходимых технических навыков, чтобы конструировать то, что мы хотим», — сказал один из журналистов. Взять хотя бы работу для региональной газеты – у издания не было ни денег, ни стимулов, чтобы нанять программиста для ньюсрума. Журналистика данных по–прежнему присутствовала в неизвестных количествах в голландских газетах в то время.

Модель хакатона сработала отлично. Расслабленная обстановка для сотрудничества, с обилием пиццы и энергетических напитков. RegioHack– это был хакатон, организованный моим работодателем, местной газетой De Stentor, нашим братским изданием TC Tubantia, а также школой Saxion Hogescholen Enschede, которая предоставила помещение для мероприятия.

Условия были следующими: любой мог зарегистрироваться на 30–часовой хакатон. Мы предоставляли еду и питье. Нашей целью было набрать 30 участников, которых мы разделили на шесть групп. Эти группы должны были сфокусироваться на различных темах, таких как преступность, здравоохранение, транспорт, безопасность, старение и власть. Для нас тремя основными целями данного мероприятия были следующие:

Найти сюжеты

Для нас журналистика данных – это что–то новое и неизведанное. Единственным способом обосновать ее использование для нас было сделать это за счет хорошо и качественно созданных историй и сюжетов. Мы планировали сделать как минимум три материала на основе данных.

Соединить людей

Мы, журналисты, не знаем, как делается журналистика данных, и мы не притворяемся, что знаем. Поместив журналистов, студентов и программистов в один зал на тридцать часов, мы хотели, чтобы они поделились друг с другом своими знаниями, ценной информацией, аналитическими наработками, идеями, догадками и наблюдениями.

Устроить общественное мероприятие

Газеты организуют мало общественно–социальных мероприятий, не говоря уж о хакатонах. Мы хотели испробовать на опыте, какие результаты может дать подобное мероприятие. На самом деле, эвент мог быть очень напряженным: 30 часов с чужими людьми, много жаргона, вероятность биться головой об стенку, отвечая на простые вопросы, работа вне вашей зоны комфорта. Превратив это в неофициальное общественное мероприятие, дружескую встречу – помните пиццу и энергетические напитки? – мы хотели создать обстановку, в которой журналисты и программисты смогут чувствовать себя комфортно и сотрудничать эффективно.

До мероприятия в TC Tubantia было интервью с вдовой полицейского, которая написала книгу о годах работы своего мужа. У нее также был документ со всеми зарегистрированными преступлениями в восточной части Нидерландов, составлявшийся ее мужем аж с 1945 года. В обычном случае мы бы опубликовали этот документ на нашем вебсайте. На этот раз мы сделали информационное табло при помощи программного обеспечения Tableau. . Мы также написали в блогео том, как мы реализовали этот проект, на нашем сайте RegioHack.

Во время хакатона одна из проектных групп выступила с темой соотношения развития школ и старения в нашем регионе. Сделав визуализацию будущих предполагаемых показателей, мы поняли, какие города будут испытывать проблемы после нескольких лет снижения количества учащихся. На основе этого наблюдения мы подготовили материал о том, как это повлияет на школы в нашем регионе.

Мы также начали очень амбициозный проект под названием De Tweehonderd van Twente (или в переводе «Двести из двадцати»), чтобы определить, у кого больше всего власти и влияния в нашем регионе, и создать базу данных самых влиятельных людей. При помощи гугловского подсчета, у которого больше всего связей с влиятельными организациями – будет составлен список влиятельных лиц. Отсюда может возникнуть серия статей, но это также и мощный инструмент для журналистов. У кого с кем есть связи? Вы можете адресовать вопросы этой базе данных и использовать ее в повседневной работе. Также такая база данных имеет культурную ценность. Художники уже спрашивали, могут ли они пользоваться ею, когда она будет закончена, для создания интерактивных художественных инсталляций.

Рис 23. Новые сообщества вокруг журналистики данных (фото Хайнце Хавиньи)

После проведения RegioHack мы заметили, что журналисты считают журналистику данных хорошим и целесообразным приложением к традиционной журналистике. Мои коллеги продолжали использовать и наращивать технику работы, с которой они познакомились в день хакатона, для создания более амбициозных и технических проектов, таких как база данных административных расходов на жилье. С этими данными я сделал интерактивную карту во Fusion Tables. Мы попросили наших читателей поразбираться с данными и провели краудсорсинг результатов (например, здесь). Когда стало поступать много вопросов о том, как мы сделали карту во Fusion Tables, я также записал и и видеоинструкцию.

Чему мы научились? Мы многому научились, но мы также столкнулись с многочисленными препятствиями. Мы признали следующие четыре:

С чего начать: с вопроса или с данных?

Почти все проекты застопоривались на поиске информации. В большинстве случаев они начинали с журналистского вопроса. Но что потом? Какие данные доступны? Где их можно найти? А когда данные будут найдены, позволят ли они ответить на поставленный вопрос? Журналисты обычно знают, где они могут найти информацию, когда проводят исследования для статьи. В случае же с журналистикой данных, большинство журналистов не знают, какая информация доступна.

Недостаточное количество технических знаний

Журналистика данных – весьма техническая дисциплина. Порой вам приходится что–то извлекать из глубин интернета, в другой раз – немножко программировать, чтобы визуализировать ваши результаты. Для получения отличного, качественного и интересного результата в журналистике данных вам требуются два аспекта: во–первых, журналистская проницательность и дотошность опытного журналиста, и во–вторых, технические знания и опыт разностороннего мастера цифровых технологий. Во время RegioHack мы увидели, что это не часто встречается.

Новости ли это?

Участники по большей части использовали один набор данных для поиска и обнаружения новостей, вместо того, чтобы заниматься поиском взаимосвязей между различными источниками. Причина этого следующая: вам нужны определенные статистические знания, чтобы проверять новости из области журналистики данных.

В чем установившаяся практика?

К чему это все сводится в первую очередь, так это к тому, что тут нет обыденности, нет рутины, нет установившейся практики и заведенного порядка. У участников есть определенный опыт и навыки в багаже знаний, но они не знают, когда и где их применять. Один журналист сравнил это с выпеканием пирога. «У нас есть все ингредиенты: мука, яйца, молоко, и так далее. Теперь мы высыпаем–выливаем все это в кастрюлю, смешиваем и надеемся, что из этого выйдет пирог». Конечно, у нас есть все ингредиенты, но мы не знаем рецепт.

И что же теперь? Наш первый опыт с журналистикой данных может помочь другим журналистам или программистам, стремящимся освоить то же поле деятельности, и мы работаем над тем, чтобы выпустить отчет.

Также мы решаем вопрос о том, как продолжить серию RegioHack в форме хакатона. Нам мероприятие показалось здоровским, веселым, повышающим уровень образования и продуктивным. Также оно стало хорошим введением в журналистику данных.

Но чтобы журналистика данных заработала, нам нужно интегрировать ее в ньюсрум. Журналисты должны начать мыслить данными, в дополнение к цитатам, пресс–релизам, заседаниям советов, и так далее. Проведя RegioHack, мы доказали нашей аудитории, что журналистика данных – это не просто рекламная шумиха, очковтирательство или трюк для привлечения внимания. Мы можем писать статьи, будучи лучше информированы, и эти материалы – самого разного рода, как в печатной версии, так и в онлайне — будут получаться более характерными, более самобытными и более выразительными.

Джерри Верманен, NU.nl

Отслеживая деньги: трансграничное сотрудничество

Рис 24. Расследовательская информационная панель(Проект по организованной преступности и коррупции OCCRP)

Журналисты, занимающиеся расследовательской журналистикой, и граждане, заинтересованные в раскрытии информации о деятельности организованных преступных группировок и о коррупции, которые влияют на жизни миллиардов людей по всему миру, с каждым днем получают все более массовый и беспрецедентный доступ к информации. Огромные объемы данных выкладываются в открытый доступ правительствами и иными организациями, и начинает казаться, что столь нужная информация все в большей и большей степени оказывается во власти каждого. Однако в то же самое время коррумпированные чиновники во власти и организованные преступные группировки делают все, что в их силах, чтобы запрятать информацию, с целью скрыть свои преступления. Они прикладывают усилия к тому, чтобы держать людей в неведении, осуществляя безобразные, неприглядные сделки, которые вызывают нарушения и злоупотребления на всех уровнях общества и приводят к конфликтам, голоду и другим видам кризисов.

И это долг расследовательских журналистов – выставить на свет подобные правонарушения, и поступив так, вывести из строя, сломать коррупционный и криминальный механизмы.

Есть три основных принципа, которые, если им следовать, могут привести к появлению хороших,качественных образцов журналистики при расследовании масштабных актов коррупции и преступных деяний даже в самой строгой и суровой атмосфере, в самом спартанском окружении.

Мыслите вне границ вашей страныВо многих случаях гораздо легче оказывается получать информацию из–за границы, чем в пределах той страны, в которой работает данный конкретный журналист–специалист по расследованиям. Информация, собранная из–за границы через иностранные информационные базы данных, или за счет использования законов других стран о свободном доступе к информации, может оказаться именно тем, чем нужно, тем, чего не хватает, чтобы сложить все детали расследовательской головоломки вместе. Ну и вдобавок ко всему, преступники и коррумпированные чиновники не держат свои деньги в том месте, откуда они их украли. Они скорее разместят их в иностранных банках или вложат в другие страны. Преступность глобальна. Базы данных, которые помогают специализирующемуся на расследованиях журналисту отслеживать передвижение денег по всему миру, можно найти в разных местах интернета. Например, Расследовательская панель ( Investigative Dashboard) дает журналистам возможность отследить потоки денег, идущие через границы.

Используйте существующие сети расследовательской журналистики

Специализирующиеся на расследованиях журналисты по всему миру объединены в организации, такие как Проект по организованной преступности и коррупции OCCRP ( The Organized Crime and Corruption ReportingProject), Африканский форум расследовательской журналистики ( The African Forum for Investigative Reporting), организация «Арабские журналисты за расследовательскую журналистику ( The Arab Reporters for Investigative Journalism), Глобальная сеть расследовательской журналистики ( The Global investigative Journalism Network). Журналисты также могут пользоваться профессиональными журналистскими платформами, такими как IJNet, где обмены глобальной журналистской информацией происходят на ежедневной основе. Многие из сгруппированных в сети журналистов работают над похожими проблемами и сталкиваются с аналогичными ситуациями, так что имеет большой смысл обмениваться информацией и методами. Листы рассылки или группы в социальных сетях присоединены к этим сообществам таким образом, что становится достаточно легко связаться с коллегами–журналистами и попросить информацию или совет. Идеи различных расследовательских материалов также можно брать на этих форумах и из списков рассылки.

Используйте технологии и сотрудничайте с компьютерщиками/хакерами

Программное обеспечение помогает расследовательским журналистам получать доступ к информации и обрабатывать ее. Различные типы программного обеспечения помогают эксперту, занимающемуся расследованием, пробиться через наслоения лишнего во время раскапывания информации и поиска смысла в больших объемах данных, а также при поиске правильных документов, которые требуются для того, чтобы первыми придать историю огласке. Существует много готовых к употреблению программ, которые могут быть использованы в качестве инструментов для анализа, сбора или интерпретации информации, и что еще более важно, специализирующиеся на расследованиях журналисты должны быть в курсе, что есть десятки компьютерных программистов, готовых помочь, если их попросят. Эти программисты или хакеры знают, как получать информацию и как с ней обращаться, и они способны оказать огромную помощь в журналистских расследованиях. Такие программисты (некоторые из них являются членами глобальных движений за открытость данных) могут стать бесценными союзниками в борьбе с преступностью и коррупцией. Они могут помогать журналистам в сборе и анализе информации.

Хорошим примером взаимодействия между программистами и гражданами является проект ScraperWiki, сайт, на котором журналисты могут попросить программистов о помощи в извлечении данных с вебсайтов. А на Расследовательской панели есть списокготовых к употреблению инструментов, которые могут помочь журналисту собирать, придавать форму и анализировать данные.

Полезность вышеозначенных принципов заметна во многих случаях. Одним неплохим примером является работа Хадиджи Исмайловой, очень опытной, специализирующейся на расследованиях, азербайджанской журналистки, которая вынуждена работать в очень суровой и строгой атмосфере, в сложном окружении, когда речь заходит о доступе к информации. Г–же Исмайловой приходится каждый день преодолевать препятствия, чтобы иметь возможность предложить азербайджанскому читателю качественную и надежную информацию. В июне 2011 года Хадиджа Исмайлова, расследовательский журналист из бакинского офиса «Радио Свобода/Свободная Европа» (Radio Free Europe/Radio Liberty — RFE/RL), сообщила, что дочери президента Азербайджана Ильхама Алиева тайным образом владеют быстро растущей телекоммуникационной компанией «Азерфон» ( Azerfon) — через оффшорные компании в Панаме. Компания может похвастаться 1,7 миллиона абонентов, покрывает 80% территории страны, и на тот момент была единственным поставщиков услуг в формате 3G в Азербайджане. Исмайлова потратила три года, пытаясь выяснить, кто является владельцем телекоммуникационной компании, но власти отказывались раскрывать информацию об акционерах и неоднократно лгали по вопросу о том, кто владеет компанией. Они даже заявляли, что компанией владела немецкая Siemens AG, при том, что немецкая корпорация это категорически отрицала. Азербайджанской журналистке удалось выяснить, что «Азерфоном» владеют несколько панамских частных компаний, и казалось, что дальше ей двинуться не удастся и концов не отыскать. Но тут пришла помощь извне. В начале 2011 года г–жа Исмайлова узнала, благодаря Расследовательской панели, что панамские компании можно отследить через приложение, разработанное программистом и активистом борьбы с коррупцией Дэном О'Хьюджином (Dan O’Huiginn). И тогда, наконец, ей удалось вскрыть тот факт, что две дочери президента имели отношение к телекоммуникационной компании через панамские юридические лица.

Фактически О'Хьюджин создал инструмент, который помог журналистам со всего мира создать репортажи о коррупции, так как Панама, очень хорошо известный оффшорный рай, широко используется коррумпированными чиновниками со всего света как место, где можно спрятать украденные деньги: начиная с приспешников бывшего египетского президента Хосни Мубарака и заканчивая нечистыми на руку чиновниками с Балкан или из Латинской Америки. То, что сделал этот программист, называется веб–скрэпингом. Это метод, который позволяет извлечь информацию и изменить ее форму таким образом, чтобы ею могли воспользоваться те, кто проводит расследование. О'Хьюджин подверг скрэпингу Панамский реестр компаний, потому что этот реестр, хотя и является открытым, дает возможность поиска только в том случае, если журналист знает название коммерческой фирмы, которую он ищет. Это ограничивало возможности для расследований, так как обычно журналисты ведут поиск, отталкиваясь от имен и фамилий лиц с целью отследить их активы. Программист же извлек все данные и создал новый вебсайт, на котором уже была возможность поиска и по имени–фамилии. Новый сайт позволил специализирующимся на расследованиях журналистам во многих странах выудить сведения, взять имена правительственных чиновников и парламентариев и проверить, не владеют ли они тайным образом корпорациями в Панаме, точно таким же образом, как и семья азербайджанского президента.

Есть и другие преимущества в использовании вышеозначенных принципов, помимо лучшего доступа к информации. Одно из них имеет отношение к минимизации вреда и обеспечению лучшей защиты расследовательских журналистов, которые трудятся во враждебном окружении. Это достигается за счет того факта, что когда журналист работает в сети, это означает, что он не один, что он работает вместе с коллегами из других стран, и преступникам становится труднее определить, кого они должны считать виновным в том, что информация об их преступлениях стала достоянием гласности. В результате уменьшаются шансы на то, чтобы получить возмездие со стороны властей и коррумпированных чиновников.

Еще одно стоит иметь в виду и помнить – что информация, которая не выглядит особо ценной в одном географическом районе, может оказаться критически важной в другом. Обмен информацией в рамках расследовательской сети может привести к появлению очень важных материалов. Например, информация о том, что в Колумбии с килограммом кокаина был задержан румын, почти наверняка не попала на первые страницы изданий в Боготе, но зато она могла стать очень важной для румынской общественности, если бы местному журналисту удалось выяснить, что человек, который был пойман с наркотиками, работал на правительство в Бухаресте.

Эффективное, умелое и квалифицированное проведение журналистских расследований – это результат сотрудничества между специализирующимися на расследованиях журналистами, программистами и другими экспертами, которые хотят использовать данные для внесения своего вклада в создание более чистого и более справедливого глобального общества.

Пол Раду, Проект по организованной преступности и коррупции OCCRP

Наши сюжеты делаются в виде кода

Рис 25. Карта аэропортовых шумов(Taz.de)

OpenDataCityбыл основан в конце 2010 года. По состоянию на тот момент в Германии не было практически ничего, что можно было бы назвать журналистикой данных.

Почему мы этим занялись? Много раз мы слышали, как люди, работающие в газетах и вещательных компаниях, говорили: «Нет, мы не готовы начать создавать специализированное подразделение журналистики данных в нашей редакции, в нашем ньюсруме. Но мы были бы рады отдавать такие задачи кому–то еще на аутсорсинг».

Насколько мы знаем, мы — единственная компания в Германии, специализирующаяся исключительно на журналистике данных. Сейчас нас трое: двое — с журналистским опытом, и один — с глубокими знаниями в области программирования, кодировки и визуализации. Мы работаем и с рядом компьютерщиков–фрилансеров, дизайнеров и журналистов.

За последние 12 месяцев мы осуществили четыре проекта в области журналистики данных с газетами, а также предложили услуги по тренингу и предоставлению консультаций в этой области работникам СМИ, ученым и школам журналистики. Первым приложением, которое мы сделали, был интерактивный инструмент по аэропортовым шумам, сделанный на базе нового аэропорта в Берлине вместе с TAZ. Следующим нашим стоящим упоминания проектом было приложение о запоминании и хранении данныхмобильного телефона немецкого политика, сделанное вместе с ZEIT Online. За этот проект мы получили награду Grimme Online Award, а также награду Lead Award в Германии, и кроме того награду Online Journalism Award Ассоциации онлайн–журналистики ( Online Journalism Association) в США. На момент написания этого материала у нас имелось в работе несколько проектов — от простой интерактивной инфографики до конструирования и разработки своего рода межплатформенного программного обеспечения для журналистики данных.

Конечно, получение разных призов и наград способствует созданию и наработке репутации. Но когда мы общаемся с издателями, которым приходится одобрять проекты, мы в качестве аргумента, который должен побудить их вкладывать средства в журналистику данных, используем отнюдь не факты получения наград. Мы упираем на то, что к этим проектам приковывается большое внимание, и оно, это внимание, в значительной мере сохраняется в течение длительного периода времени. Тут речь идет о том, чтобы создавать что–то для долгосрочного воздействия, а не ради короткой сенсации, которую забудут через пару дней.

Вот три аргумента, которыми мы пользовались, чтобы убеждать издателей принимать решения о реализации долгосрочных проектов:

Проекты в области данных не устаревают

В зависимости от их дизайна и конструктивных особенностей, в приложения журналистики данных зачастую можно добавлять новый материал. И они, эти приложения — не просто для пользователей, но кроме того могут использоваться и внутренне, внутри редакции, для составления репортажей и анализа. Если вы обеспокоены тем, что такая ситуация может означать, что и ваши конкуренты также извлекут выгоду из ваших инвестиций в журналистику данных, вы можете сохранить некоторые элементы или часть данных только для внутреннего пользования.

Вы можете использовать свои прошлые работы для будущих проектов

Осуществляя проект в области данных, вы (и так происходит достаточно часто) создаете элементы кода, которые можно впоследствии использовать повторно или обновлять. За счет этого следующий проект займет в два раза меньше времени, потому что вы уже гораздо лучше знаете, что делать (и чего не делать), и у вас уже есть образцы и какие–то базовые элементы, на которых вы можете строить свой новый проект.

Журналистика данных оправдывает и окупает себя

Проекты в области данных дешевле традиционных маркетинговых кампаний. Онлайн–средства массовой информации часто вкладывают средства в такие вещи как поисковая оптимизация (Search Engine Optimization — SEO) и поисковый маркетинг (Search Engine Marketing — SEM). Реализованный проект в области данных обычно обеспечивает много кликов, о нем начинают много говорить, он может уйти в народ и начать распространяться с невероятной скоростью. И за это издатели обычно меньше платят, чем когда пытаются генерировать подобный же уровень внимания кликами и линками через поисковый маркетинг.

Наша работа не особо отличается от работы других медиа–агентств: мы предоставляем приложения или услуги для новостных порталов. Но, возможно, мы отличаемся тем, что в первую очередь думаем о себе и воспринимаем себя как журналисты. В наших глазах продукты, которые мы доставляем — это статьи, сюжеты, истории и материалы, хотя и такие, которые предоставляются не в словах или картинках, не в фотографиях и не в виде аудио– или видеопродукции, а в виде кода. Когда мы говорим о журналистике данных, нам приходится говорить о технологиях, программном обеспечении, устройствах, и о том, как с их помощью создавать сюжеты и рассказывать истории.

В качестве примера. Мы только что завершили работу над приложением, которое извлекает данные в режиме реального времени через программу–скрэпер с сайта немецких железных дорог. Это дало нам возможность разработать так называемый интерактивный «Отслеживатель поездов» (проект Train Monitor) для газеты Süddeutsche Zeitung, который позволил получать информацию о задержках поездов дальнего следования в реальном времени. Данные обновляются каждую минуту или что–то около того, и мы также предоставляем интерфейс программирования приложений. Мы начали делать этот проект несколько месяцев назад, и на данный момент собрали огромный массив данных, который растет с каждым часом. Сейчас он насчитывает сотни тысяч строк данных. Проект позволяет пользователю использовать эту информацию, представленную в режиме реального времени, а также осуществлять поиск в архиве за предыдущие месяцы. В итоге история, которую мы рассказываем, будет в значительной степени определяться индивидуальными действиями пользователей.

В традиционной журналистике, из–за линейного характера печатных и вещательных СМИ, нам приходится думать о начале, о концовке, о сюжетной линии, о длительности сюжета, и о том, под каким углом зрения смотреть на проблему. В журналистике данных все по–другому. Тут есть начало, да. Люди заходят на вебсайт и получают первое впечатление от интерфейса. Но потом они начинают действовать сами по себе. Они могут задержаться на сайте на минуту — а могут на полчаса. Наша задача, как журналистов, работающих с данными, заключается в том, чтобы предоставить несущую конструкцию, основу, каркас, окружающую среду, условия для этих действий наших читателей/пользователей. Наряду с программированием и управлением данными, нам приходится размышлять над тем, как презентовать все нами найденное и сгруппированное наиболее понятным и логичным способом. Восприятие пользователем происходит в основном за счет графического пользовательского интерфейса (GUI). В конечном итоге, это та часть проекта, от которой зависит его судьба — «выстрелит» ли он или провалится. У вас могут быть самое лучшее программирование и впечатляющий набор данных. Но если внешний интерфейс неудачен, все остальное уже никого не интересует.

Еще есть многое, о чем нам предстоит узнать и с чем поэкспериментировать. Но к счастью, есть игровая индустрия, которая уже несколько десятилетий находится на переднем крае прогресса и демонстрирует инновационные решения в области цифровых технологий, повествований и изложения фактов, создания экосистем и интерфейсов. Поэтому при разработке приложений для журналистики данных нам стоит также обращать самое пристальное внимание на то, как работает игровой дизайн и как рассказываются истории в компьютерных играх. Почему немудреные игры типа «Тетриса» настолько захватывающи? И что составляет начинку открытых миров в сэндбокс–играх , типа Grand Theft Auto иди Skyrim rock?

Мы думаем, что журналистика данных никуда не денется. За несколько лет потоки журналистики данных, как нам видится, окажутся весьма естественным образом встроены в ньюсрумы, потому что информационным, новостным вебсайтам придется измениться. Количество данных, которые становятся общественно доступными, будет продолжать увеличиваться. Но к счастью новые технологии продолжат давать нам возможность искать и находить новые способы создания материалов и рассказывания историй. Некоторые из сюжетов будут готовиться на основе данных, и многие из приложений и услуг будут иметь журналистский характер. Интересно вот что: какую стратегию собираются развивать редакции, чтобы способствовать этому процессу? Собираются ли они собирать и наращивать группы журналистов данных в качестве встроенных в их ньюсрумы отделов? Будут ли появляться исследовательские департаменты, в чем–то похожие на внутренние, внутриведомственные стартапы? Или же какая–то часть работы будет отдаваться на аутсорсинг в специализированные компании? Мы по–прежнему еще только в самом начале процесса, и только время покажет, как оно все в итоге сложится.

Лоренц Матцат, OpenDataCity

Kaas & Mulvad – полузавершенный контент для групп заинтересованных лиц

Рис 26. Медиа–компании, представляющие заинтересованные группы (Fagblaget3F)

Информационные средства заинтересованных групп – это сравнительно новый сектор, в значительной мере обойденный вниманием теоретиков медиа и СМИ, сектор, у которого имеется потенциал для того, чтобы оказывать огромное воздействие, будь то через онлайн–сети, или посредством предоставления контента новостным СМИ. Медиа заинтересованных групп можно определить как (обычно онлайновые) средства массовой информации, которые контролируются организационными или институциональными группами заинтересованных лиц, и которые используются для продвижения определенных интересов и сообществ. Неправительственные организации обычно создают подобные СМИ и медиа–проекты; так же поступают группы потребителей, профессиональные ассоциации, профсоюзы, и так далее. Ключевым ограничением возможностей таких СМИ влиять на общественное мнение или на других заинтересованных лиц является то, что им не хватает емкости, способностей и возможностей для того, чтобы делать открытия в области важной информации, причем не хватает еще в большей степени, чем переживающим спад традиционным новостным СМИ. Kaas og Mulvad, коммерческая датская корпорация, является одним из первых предприятий, работающих в секторе расследовательских СМИ, которое предоставляет экспертные возможности этим заинтересованным группам.

Фирма образовалась в 2007 году как компания, отпочковавшаяся от некоммерческого Датского института компьютерной журналистики (Danish Institute for Computer–Assisted Reporting – Dicar), который продавал средствам массовой информации расследовательские отчеты и материалы и обучал журналистов анализу данных. Его основатели, Томми Каас (Tommy Kaas) и Нильс Мюльвад (Nils Mulvad), ранее работали журналистами в информационной отрасли. Их новая компания предлагает то, что они называют «данными плюс журналистская проницательность, проникновение в суть и интуиция» (контент, который остается полузавершенным, требующим дальнейшего редактирования или переписывания), в основном, именно средствам информации заинтересованных групп, которые финализируют этот контент в виде новостных релизов или сюжетов, и распространяют его как через традиционные каналы СМИ, так и через свои собственные проекты (в первую очередь, вебсайты). В число прямых клиентов компании входят правительственные учреждения, пиар–компании, профсоюзы и неправительственные организации, такие как EU Transparency или Всемирный фонд дикой природы (WWF). Работа неправительственной организации включает в себя отслеживание субсидий рыболовного и сельскохозяйственного секторов, а также регулярные обновления по лоббистской активности в ЕС, создаваемые посредством веб–скрэпинга соответствующих сайтов. В число непрямых, опосредованных клиентов компании входят фонды, которые финансируют проекты неправительственных организаций. Фирма также работает с информационной отраслью; например, одна малоформатная газета приобрела ее службу контроля и отслеживания знаменитостей.

Проекты в области журналистики данных, имеющиеся в портфеле компании, включают в себя следующие:

Карта безработицы для 3F

Визуализация данных с ключевыми цифрами относительно безработицы в Дании, сделанная для 3F, который является профсоюзом неквалифицированных рабочих в Дании.

Условия жизни и жилищно–бытовые условия для 3F

Еще один проект для 3F, показывающий, насколько разными являются условия жизни и жилищно–бытовые условия в разных районах Дании. Карта показывает 24 различных индикатора условий жизни.

Долги для «Ugebrevet A4»

Проект, который подсчитывает «индекс задолженности» — и визуализирует различия в частном секторе.

Опасные объекты в Дании

Проект, который наносит на карту и анализирует близость опасных объектов к детским садам и другим дневным учреждениям по работе с детьми, осуществленный для «Børn&Unge», журнала, издаваемого BUPL, Датским союзом преподавателей для детей младшего школьного возраста и подростков.

Данные по корпоративной ответственности для Vestas

Визуализация данных по пяти областям данных по корпоративной ответственности, с автоматически генерируемым текстом, для датской компании Vestas, производителя ветряных турбин. Автоматически обновляется на ежеквартальной основе, беря информацию из 400 вебстраниц, предоставляющих данные, варьирующиеся от данных в мировом масштабе до данных по одной производственной единице.

Карта имен для Experian

Впишите свою фамилию и посмотрите, насколько она распространена в разных географических областях Дании.

Карта смайликов для Ekstra Bladet

Каждый день мы собираем информацию о выявленных в ходе проверок случаях появления некачественной пищи, и наносим соответствующие грустные смайлики на карту для датского таблоида Ekstra Bladet (карту можно увидеть внизу вебстраницы).

Kaаs og Mulvad – не первые журналисты, работающие со средствами массовой информации и медиа–проектами заинтересованных групп. Greenpeace, например, очень часто задействует журналистов в качестве сотрудников и компаньонов, участников коллективной работы, для своих репортажей. Но мы не знаем ни одной другой компании, предложения которой для СМИ заинтересованных групп лиц основывались бы на массивах данных; гораздо более типична ситуация, когда журналисты работают на неправительственные организации в качестве репортеров, редакторов или авторов. Сейчас в компьютерных информационных медиа основное внимание сосредоточено на поиске и обнаружении, порой даже на открытиях (вспомните о WikiLeaks); и тут опять–таки Kaas og Mulvad можно назвать инноваторами, ибо они концентрируют внимание на анализе данных. Их подход требует не только навыков в области программирования, но и понимания того, какого рода информация может позволить создать сюжет или материал, который обеспечит воздействие. Можно совершенно спокойно и с уверенностью сказать, что любой, кто захочет сымитировать их труд и начать предоставлять такие же услуги, должен будет приобрести эти два набора навыков, скорее всего, посредством создания партнерства, потому что отдельные люди редко обладают обоими этими качествами.

Процессы: Инновационные информационные технологии + анализ

Фирма осуществляет порядка ста проектов в год, длительность процесса подготовки которых варьируется от нескольких часов до нескольких месяцев. Она также постоянно инвестирует в проекты, которые расширяют ее возможности и набор предложений. Одним из таких экспериментов стала уже упомянутая выше служба контроля и отслеживания знаменитостей. В рамках другого проекта подразумевался интернет–скрэпинг с целью извлечения информации об обращении взыскания на дома и составление карты таких событий, где люди теряли право на заложенную недвижимость. Партнеры говорят, что их первым критерием при создании проектов и отборе тем, является то, нравится ли им работа над этим проектом, и учатся ли они на нем чему–нибудь; с появлением новой услуги начинает осуществляться поиск на рынке. Они совершенно ясно говорят о том, что в новостной отрасли трудно разрабатывать новые методики и начинать новый бизнес.

Комментирует Мюльвад:

У нас нет редакторов или начальников, которые решают, какие проекты мы можем делать, какое программное обеспечение или какие аппаратные средства мы можем купить. Мы можем приобретать инструменты в зависимости от нужд того или иного проекта – как то, например, лучшие решения для текстового скрэпинга и копания в данных. Нашей целью является быть самыми современными и передовыми в этих областях. Мы стараемся получать клиентов, которые готовы платить, или же если проект доставляет удовольствие, мы делаем его за меньшие деньги.

Создаваемая ценность: Персонал, бренды, доходы

Оборот в 2009 году составил примерно 2,5 миллиона датских крон, или 336 000 евро. Компания также поддерживает репутацию партнеров как ультрасовременных журналистов, что способствует сохранению спроса на их преподавательские услуги и выступления в качестве спикеров. В свою очередь, эти их появления на публике поддерживают бренд фирмы.

Ключевая ценная информация этого примера

 Кризис новостной отрасли, выражающийся в уменьшении возможностей, также является кризисом недоиспользования этих самых возможностей. Каасу и Мюльваду пришлось покинуть информационную отрасль, чтобы заняться работой, которую они оценили, и это оказалось выигрышным вариантом. Ничто не мешало новостной организации самой захватить эту нишу.

 По крайней мере на некоторых рынках имеется прибыльный спрос на «полузавершенный» контент, который может отвечать интересам заинтересованных групп.

 Однако, такая возможность поднимает вопрос о том, в какой степени журналисты могут осуществлять контроль над представлением и использованием их работы третьими сторонами. Мы вспоминаем о том, что эта проблема уже существует в информационной индустрии (где редакторы могут вносить изменения в журналистский продукт), и она существовала и в других медийных отраслях (таких как, например, производство кинофильмов, где конфликты между режиссерами и студиями по поводу окончательного монтажа вряд ли можно назвать редкими). Это не какой–то конкретный субъективный моральный риск или нравственная опасность, сопряженная именно с заинтересованными группами, но эта проблема, тем не менее, не исчезнет. Еще большего внимания требует к себе этическая сторона этой растущей и развивающейся новой реальности и нового рынка.

 С точки зрения заработков, одного продукта или одной услуги недостаточно. Успешным наблюдательно–контрольным предприятиям лучше применять портфельный подход, при котором консалтинговые услуги, обучение, выступления в качестве спикеров и иные услуги приносят дополнительный доход и поддерживают основной бренд.

Отредактированные выдержки из труда Марка Ли Хантера (Mark Lee Hunter) и Люка Ван Вассенхове (Luk N. Van Wassenhove) «Подрывающие новостные технологии: СМИ заинтересованных лиц и будущее бизнес–моделей охранительной журналистики». Рабочий документ Школы бизнеса INSEAD, 2010 год.

Бизнес–модели для журналистики данных

На фоне всего интереса и всех надежд, связанных с журналистикой данных, есть один вопрос, которым всегда интересуются редакции: каковы могут быть бизнес–модели?

Хотя мы должны быть внимательными в своих прогнозах, просто взгляните на недавнюю историю и нынешнее состояние медийной отрасли – это может помочь нам получить определенное представление. Сегодня существуют многочисленные информационно–новостные организации, которые выиграли от того, что адаптировались к новым подходам.

Такие термины как «журналистика данных», и новомодное словечко «наука данных» могут звучать так, словно они описывают что–то новое, но это не совсем так. На самом деле эти новые обозначения – просто способ охарактеризовать процесс переключения, который набирает силу десятилетиями.

Многие журналисты, кажется, не в курсе относительно размеров доходов, которые уже генерируются посредством сбора коллекций данных, анализа данных и их визуализации. Это бизнес информационной очистки и обработки. С инструментами по работе с данными и современными технологиями становится все легче проливать свет на очень сложные проблемы и вопросы, будь то международные финансы, долги, демографические темы, образование, и так далее. Термин «бизнес–разведка» описывает разнообразие IT–концепций, целью которых является представить ясный взгляд на то, что происходит в коммерческих компаниях и корпорациях. Большие и прибыльные компании нашего времени, включая McDonalds, Zara или H&M, делают ставку на постоянный сбор и отслеживание данных, которое они превращают в прибыль. И для них это работает неплохо.

Что меняется сейчас, так это то, что инструменты, разработанные для этого пространства, становятся ныне доступными и для других областей и сфер деятельности, включая средства массовой информации. И есть журналисты, которые берут и осваивают эти инструменты. Возьмите, например, Tableau, компанию, которая производит набор инструментов для визуализации. Или движение Big Data, где технологические компании используют наборы программного обеспечения (зачастую из открытых источников) для того, чтобы перелопачивать огромные объемы данных, извлекая уникальную ценную информацию за миллисекунды.

Эти технологии ныне могут быть применены к журналистике. Команды экспертов в Guardian и New York Times постоянно раздвигают границы в этой развивающейся области. А то, что мы сейчас видим – это лишь верхушка айсберга.

Но как все это способно генерировать денежный поток для журналистики? Большой, просто всемирный рынок, который сейчас открывается, связан с переводом, с трансформацией публично доступных данных в нечто такое, что мы можем обработать: делая данные видимыми, явными, очевидными, различимыми и человекоориентированными. Мы хотим иметь возможность устанавливать связь с большими числами, которые мы слышим каждый день по новостным каналам – понимать, что все эти миллионы и миллиарды означают конкретно для каждого из нас.

Существует целый ряд очень прибыльных медийных компаний, работающих с данными, которые просто применили этот принцип раньше других. Они демонстрируют здоровый рост и порой впечатляющую прибыль. Один пример: Bloomberg. Компания оперирует более чем 300 000 терминалов и поставляет финансовые данные своим пользователям. Если вы в финансовом бизнесе, то это мощный инструмент. Каждый терминал идет с клавиатурой с цветовыми кодами, и предоставляет до 30 000 возможностей искать, смотреть, сравнивать, анализировать. Он помогает вам решать, что делать в следующий момент времени. Этот ключевой бизнес генерирует примерно 6,3 миллиарда долларов в год, по крайней мере, такая оценка содержится в материале New York Times 2008 года. В результате Bloomberg нанимает журналистов слева, справа и в центре, они купили почтенный, но убыточный Business Week, и так далее.

Еще одним примером может служить канадский медиа–конгломерат, ныне известный как Thomson Reuters. Они начинали всего с одной газеты, потом купили ряд широко известных брендов в Великобритании, и потом решили два десятилетия назад уйти из газетного бизнеса. Вместо этого они выросли на базе информационных услуг, целью которых является предоставлять клиентам в ряде отраслей более глубокую точку зрения. Если вы озабочены тем, как делать деньги на специализированной информации, советом может быть просто прочитать историю компании в Wikipedia.

А взгляните на Economist. Журнал выстроил отличный, влиятельный бренд в медийной отрасли. В то же самое время «расследовательское подразделение Economist» сейчас больше походит на консалтинговое, информирующее о соответствующих тенденциях и прогнозах практически для каждой страны мира. Они используют сотни журналистов и заявляют, что обслуживают около 1,5 миллиона клиентов по всему миру.

И кроме того существуют также многочисленные основанные на данных нишевые сервисы, которые могут служить источником вдохновения: eMarketer в США, представляющий сравнения, списки, таблицы и рейтинги, и дающий советы любому, кто интересуется интернет–маркетингом. Stiftung Warentest в Германии — учреждение, следящее за качеством продуктов и услуг. Statista, вновь из Германии — стартап, помогающий визуализировать публично доступную информацию.

По всему миру сейчас накатывает целая волна стартапов в этом секторе, естественным образом освещающая широкий круг вопросов и тем – например, Timetric, целью которого является заново изобрести такой формат как бизнес–исследования, OpenCorporates, Kasabi, Infochimps и Data Market. Многие из них, конечно, являются экспериментальными, но все вместе они могут быть восприняты как важный признак перемен.

Потом есть государственные средства массовой информации, которые в смысле журналистики данных являются эдаким спящим исполином. В Германии 7,2 миллиарда евро в год вливается в этот сектор. Журналистика — это особый продукт: если она делается хорошо и качественно, это не только «делание денег», она вдобавок играет важную роль в обществе. Как только станет ясно, что журналистика данных может предоставлять лучшую и более надежную и достоверную информацию, и при этом делать это легче и проще, чем традиционная журналистика, часть этих денег может начать использоваться для того, чтобы в ньюсрумах стали появляться новые рабочие места.

Что касается журналистики данных, то она подразумевает не только «быть первым», но и «являться вызывающим доверие источником информации». В этом многоканальном мире внимание к себе можно генерировать и привлекать в изобилии, но доверие становится все более дефицитным ресурсом. Журналисты данных могут помочь сопоставить, синтезировать и представить разнообразные, несходные и порой трудные для понимания источники информации таким способом, который даст их аудитории по–настоящему ценное понимание сложных проблем. Вместо того, чтобы просто перерабатывать пресс–релизы и пересказывать истории и сюжеты, которые они где–то слышали, журналисты, работающие в секторе журналистики данных, могут давать читателям ясную, всеобъемлющую и настраиваемую по предпочтениям перспективу или точку зрения, снабженную интерактивной графикой, а также прямой доступ к первичным источникам. Не тривиально, но определенно ценно.

Так каков же наилучший подход для того, чтобы вдохновить журналистов данных изучить и использовать эту область и убедить руководство поддержать инновационные проекты?

В качестве первого шага нужно взглянуть на незамедлительные возможности рядом: так сказать, сорвать низко висящий фрукт. Например, у вас, возможно, уже есть коллекции структурированных текстов и данных, которые вы могли бы использовать. Отличным примером такого является база данных Homicide от Los Angeles Times. Тут данные и визуализации являются ядром всего, а не следствием. Редакторы собирают информацию обо всех преступлениях, которую они обнаруживают, и только потом на этой основе пишут статьи. С течением времени подобные коллекции становятся лучше, глубже, и обретают бОльшую ценность.

Это может не работать первое время. Но со временем обязательно начнет. Одним очень обнадеживающим индикатором тут является, например, то, что проекты Texas Tribune и ProPublica, которые оба являются скорее всего медийными компаниями постпечатного периода, сообщали, что финансирование их некоммерческих журналистских организаций превысило намеченные заранее целевые показатели гораздо раньше, чем планировалось. Становясь опытными и искусными в работе со всеми этими данными – будь то работая с ними в общем и целом или как специалисты, концентрирующие внимание на одном аспекте из цепочки данных – эти проекты дают ценнейшую перспективу людям, которые верят в журналистику. Один известный издатель в Германии недавно отметил в интервью: «Это та самая новая группа, которая называет себя журналистами данных. И они не хотят больше работать за копейки».

Мирко Лоренц, Deutsche Welle

Конкретные примеры

Проект «Расхождение в возможностях» (Opportunity Gap)

Рис 27. Проект Opportunity Gap(ProPublica)

Проект «Расхождение в возможностях ( The Opportunity Gap) использовал никогда ранее не публиковавшиеся данные американского Министерства образования о гражданских правах и показал, что в некоторых штатах, таких как, например, Флорида, ситуация достаточно ровная, там власти штата предлагают богатым и бедным студентам примерно равные возможности в плане доступа к предметам и дисциплинам высокого уровня, в то время как в других штатах, таких как Канзас, Мэриленд или Оклахома, возможностей, предлагаемых в районах, где живут более бедные семьи, гораздо меньше.

В проект были включены данные по каждой государственной школе в районе с числом учеников в 3 000 и более. Таким образом, были представлены более 75% всех обучающихся в государственных школах детей. Журналист из нашего ньюсрума получил данные, а наш директор по вопросам компьютерной журналистики качественно и быстро почистил их и обработал.

Проект реализовывался в течение примерно трех месяцев. В общей сложности, над сюжетом и новостным приложением работали шесть человек: два редактора, один журналист, один специалист по компьютерной журналистике и два разработчика. Большинство из нас работали не только над этим проектом в течение срока его реализации.

Проект действительно требовал объединения всех наших знаний и навыков — глубокого знания отрасли, понимания и ориентирования в лучших стандартах работы с данными, знаний в области дизайна и программирования, и так далее. И что еще более важно, он требовал наличия умения видеть и находить темы и сюжеты в наборах данных. Он также потребовал редактуры, не только для сюжета, который сопровождал проект, но и для самого новостного приложения.

Для очистки данных и анализа мы использовали по большей части Excel и очищающие программы, а также MS Access. Приложение было написано в Ruby on Rails, и в нем весьма активно используется JavaScript.

В дополнение к общему обзорному материалу наш вариант освещения данной темы включал в себя интерактивное новостное приложение, которое давало читателям возможность понять и найти примеры в этом огромном общенациональном наборе данных, имеющие отношение лично к ним. Используя наше новостное приложение, читатель мог легко найти местную школу у себя в районе — скажем, например, Central High School in Newark, N.J., — и сразу же увидеть, насколько хороша эта школа в целом ряде областей. Потом читатель мог нажать кнопку ‘Сравнить по уровню нищеты’, и тут же увидеть другие средние школы, их относительный уровень бедности, в каком объеме они дают продвинутую математику, программы углубленного изучения предметов, и другие важные курсы. В нашем примере Центральную среднюю школу (Central High) теснит школа Милберна (Millburn Sr. High). Проект Opportunity Gap показывает, что только 1% учеников школы Милберна получают бесплатный обед или обед со скидкой, но при этом 72% из них посещают хотя бы один курс углубленного изучения предметов. В качестве другой крайности можно привести Международную среднюю школу (International High), вкоторой 85% обучающихся получают бесплатные или со скидкой обеды, но всего 1% посещают курсы углубленного изучения предметов.

Посредством этого примера читатель может использовать что–то, что он знает, с чем он знаком — а именно, местную среднюю школу — для того, чтобы понять что–то, чего он не знает, с чем не знаком — распределение доступа к образованию и степень, в которой бедность населения оказывает воздействие на такой доступ.

Мы также интегрировали приложение с сервисом Facebook, так, чтобы читатели могли залогиниваться в Фэйсбуке, а наше приложении автоматически даст им знать о школах, которые могут представлять для них интерес.

Все наши новостные приложения собирают хороший трафик, и мы особенно гордимся тем, как эти приложения рассказывают сложные истории, раскрывают непростые для понимания темы — и более того, помогают читателям самим создавать конкретные свои истории, актуальные для них самих.

Как это бывает со многими проектами, которые берут свое начало в официальных данных органов власти, данным этим требуется серьезная очистка. Например, хотя всего существует примерно 30 возможных вариантов курсов углубленного изучения предметов, некоторые школы сообщают, что у них таких курсов — сотни. Все это требует большого количества проверок, которые приходится проводить в ручном режиме, а также телефонных звонков в школы для подтверждения или исправления информации.

Мы также действительно упорно поработали над тем, чтобы убедиться, что приложение способно раскрывать материал как в узком, так и в широком смысле. Приложение должно было представлять читателю широкую, абстрактную картину общенациональной ситуации — способ сравнить, как отличается ситуация с доступом к образованию от штата к штату. Но учитывая, что подобные абстракции порой приводят читателя в замешательство, и он не понимает, что те или иные данные значат для него лично, мы также хотели, чтобы читатели имели возможность найти свою собственную местную школу и сравнить ее с более бедными и менее бедными школами в их районе.

Если бы мне пришлось давать совет журналистам, заинтересованным в том, чтобы предпринять такого рода проекты, я бы сказал, что вам нужно в первую очередь знать материал, ориентироваться в нем и быть любознательными, пытливыми и настойчиво любопытными! Все правила, которые применимы к другим видам журналистики, применимы и здесь. Вам нужно правильно набирать фактуру, удостовериться, что материал сделан грамотно и качественно, и что критически важно, убедиться в том, что ваше новостное приложение не противоречит той истории, которую вы излагаете в текстовом материале — потому что если такое случается, это значит, что один из этих продуктов подготовлен неверно.

И кроме того, если вы хотите научиться программировать, хотя бы на элементарном уровне, то самое важное — начать. Вам, возможно, понравиться ходить на уроки или учиться по книгам или видеоинструкциям. Все это доступно и весьма качественно. Но главное — убедитесь в том, что у вас есть по–настоящему хорошая идея для проекта, а также имеется крайний срок, до истечения которого вам нужно его завершить. Если у вас в голове сложился сюжет, тема, которая может быть раскрыта лишь посредством новостного приложения, то тогда никакое неумение программировать вас не остановит!

Скотт Клейн, ProPublica

9–месячное расследование в отношении Европейских структурных фондов

Рис 28. Расследование в отношении Европейских структурных фондов(Бюро расследовательской журналистики)

В 2010 году газета Financial TimesБюро расследовательской журналистики ( Bureau of Investigative Journalism (BIJ)объединили усилия, чтобы заняться расследованием Европейских структурных фондов. В их намерения входило исследовать то, кем являются бенефициары Европейских структурных фондов, и проверить, должным ли образом используются финансовые средства. Структурные фонды, объем поступлений в которые за 7 лет составил 347 миллиардов долларов, являются второй по величине программой субсидий в Евросоюзе. Программа существовала десятилетиями, но не беря в расчет широкие, очень общие по содержанию обзоры, не было практически никакой прозрачности относительно того, кто же является бенефициаром этих фондов. В рамках смены правил игры в текущем раунде финансирования власти обязаны обнародовать список бенефициаров, включая описания спонсируемых проектов и суммы, полученные по каналам финансирования на национальном уровне и на уровне ЕС.

Команда проекта состояла из 12 журналистов и одного штатного программиста. Сотрудничество длилось 9 месяцев. Только один лишь сбор данных занял несколько месяцев.

Результатом проекта стали пять дней освещения темы в Financial Times и в BIJ, а также документальный фильм на ВВС и еще несколько телевизионных документальных фильмов.

Прежде чем приступить к проекту, требующему подобного уровня усилий, необходимо удостовериться, что все выводы — оригинальны, свежи и подлинны, и что результатом станут сюжеты и материалы, которых не будет больше ни у кого.

Процесс был разбит на ряд отчетливых, обособленных шагов:

1. Определить, кто хранит данные и как они хранятся.

У Генерального директората Европейской комиссии по вопросам региональной политики есть порталс выходом на сайты региональных властей, которые публикуют данные. Мы были уверены, что у комиссии должна быть всеобъемлющая база данных для проекта, к которой мы могли бы либо получить прямой доступ, либо добиться его при помощи запроса на предоставление данных согласно нормам свободы информации. Однако никакой подобной базы, как оказалось, не существует, по крайней мере, настолько подробной, насколько нам требовалось. Мы быстро поняли, что многие из гиперссылок, предоставленных Еврокомиссией, были битыми, неработающими, а также что большинство органов власти публикуют данные в формате PDF, а не в легко поддающихся анализу форматах типа CSV или XML.

Команда из 12 человек работала над решением задачи определения самых свежих данных и превращения ссылок в одну большую таблицу, которую мы использовали для совместной работы. Так как графы и столбцы с данными не были однообразными (например, заголовки часто были на разных языках, в некоторых наборах данных использовалась разная валюта, а в какие–то данные была включена разбивка на европейское и национальное финансирование), нам нужно было быть очень точными при переводе и переформатировании, как и при описании групп данных, имевшихся в каждом из источников.

2. Загрузить и подготовить данные.

Следующий шаг представлял собой загрузку всех таблиц, PDF–файлов, и, в некоторых случаях, результатов вэб–скрэпинга исходных данных.

Потом каждый набор данных требовалось стандартизировать, привести к единому формату. Самой большой проблемой стало извлечь данные из PDF–файлов, длиной по несколько сотен страниц. Большая часть этой работы была выполнена при помощи программ UnPDF и ABBYY FineReader, которые позволяют извлекать данные, создавая файлы форматов CSV или Excel.

Также на этом этапе проводилась проверка и перепроверка — чтобы убедиться, что инструменты по извлечению информации из PDF–файлов провели захват информации правильно и корректно, без ошибок и пропусков. Это было сделано посредством использования фильтрации, сортировки и подсчета итоговых результатов (чтобы убедиться, что они совпадают с тем, что напечатано в PDF–файлах).

3. Создать базу данных.

Программист команды сделал базу данных в SQL. Каждый из предварительно подготовленных файлов потом был использован как один из кирпичиков для общей SQL–базы. Потом пошел процесс загрузки всех индивидуальных файлов данных в одну большую SQL–базу данных, к которой сразу можно было начинать направлять поисковые запросы.

4. Дважды перепроверить и проанализировать.

Команда анализировала данные двумя основными способами:

Через интерфейс базы данных

Можно было вводить определенные ключевые слова (например, «табак», «гостиница», «компания А») в строку поиска. При помощи Google Translate, который был встроен в функционал поиска нашей базы данных, эти ключевые слова переводились на 21 язык и выдавали соответствующие результаты. Эти результаты можно было загрузить, и журналисты могли начинать проводить дальнейшие исследования уже по индивидуальным проектам, по конкретным интересующих их моментам.

Через макроанализ с использованием всей базы данных

Время от времени мы могли загружать полный набор данных, который затем можно было анализировать, например, с использованием ключевых слов, или группируя данные по стране, району, типу расходов, количеству проектов у бенефициара, и т.п.

Наши сюжетные линии получали информацию как из результатов этих двух анализов, так и посредством полевых и кабинетных исследований.

Двойная проверка полноты и целостности данных (путем суммирования и сверки с тем, что, по словам властей, было выделено и распределено) заняла значительное время. Одной из основных проблем было то, что власти по большей части обнародовали лишь суммарное «финансирование на едином европейском и на национальном уровнях». По правилам ЕС, каждая программа на определенный процент может финансироваться из общих средств ЕС. Уровень финансирования ЕС определяется, на программном уровне, так называемой ставкой софинансирования. Каждая программа (например, в области региональной конкуренции), состоит из многочисленных проектов. На проектном уровне технически один проект может получить стопроцентное европейское финансирование, а другой — не получить денег от Европы вовсе, но если все эти проекты сгруппировать вместе, сумма финансирования по линии ЕС на программном уровне не должна быть выше одобренного уровня софинансирования.

Это означало, что нам надо было проверить каждую конкретную сумму финансирования со стороны ЕС, которую мы приводили и на которую ссылались в материалах о предположительных компаниях–бенефициарах.

Синтия О'Мурчу, Financial Times

Мелтдаун Еврозоны

Итак, мы освещаем мелтдаун еврозоны. Во всех подробностях. Драму, которая разворачивается, когда правительства приходят в столкновение, а спасательные средства утрачены; реакцию со стороны мировых лидеров, меры жесткой экономии и протесты против мер жесткой экономии. Каждый день в Wall Street Journal появляются графики, схемы и таблицы по потерям рабочих мест, снижению ВВП, процентным ставкам, стремительно падающим мировым рынкам. И все это постепенно нарастает. И все это ошеломляет и поражает.

Редакторы передовиц созывают совещание, чтобы обсудить идеи для освещения конца года, и когда мы выходим с этого совещания, я ловлю себя на том, что задумываюсь: на что это должно быть похоже — пережить это?

Похоже ли это на 2008 год, когда меня уволили, а мрачные новости шли непрерывным потоком? Мы говорили о работе, о рабочих местах и о деньгах каждый вечер за ужином, практически забыв о том, как это может расстраивать мою дочь. А выходные — это было самое худшее. Я пыталась не поддаваться страху, который, казалось, постоянно хватал меня за шею. А беспокойство стягивало мне грудную клетку. И испытывает ли такие же или похожие ощущения, что я испытывала тогда, какая–нибудь семья в Греции сейчас? А в Испании?

Я развернулась и пошла за Майком Алленом, редактором передовицы, в его кабинет, и высказала идею рассказать о кризисе посредством семей в еврозоне, взглянув сначала на данные, найдя демографические особенности, чтобы понять, кто составлял семью, и потом выдав эту информацию читателям с фотографиями и интервью, аудиозаписями разных поколений. Мы бы использовали красочные изображения, голоса… и данные. Вернувшись на свое рабочее место, я кратко набросала концепцию и нарисовала логотип.

Рис 29. Мелтдаун Еврозоны: конспект (Wall Street Journal)

Следующие три недели я усердно искала цифры: статистика по бракам, по умершим, по размерам семей, и по расходам на здравоохранение. Я прочла кучу информации по тратам на проживание, по расходам на обустройство, и по числу разводов, изучила исследования об уровнях благосостояния и накоплениям. Я просмотрела данные национальных статистических учреждений, позвонила в бюро по вопросам народонаселения ООН, в МВФ, в Евростат и в ОЭСР, пока не нашла экономиста, который активно занимался отслеживанием семей на протяжении всей своей карьеры. Он привел меня к специалисту по вопросам состава семей. И она показала мне экспертные доклады и информационные документы по моей теме.

Вместе с моим редактором Сэмом Энрикесом (Sam Enriquez) мы попытались сузить список стран. Мы собрали группу, чтобы обсудить визуальный подход, и решить, какие журналисты могут обеспечить текст, какие — аудио, и какие — найти героев сюжетов. Мэтт Крэйг (Matt Craig), фоторедактор первой страницы, начал работать над поиском фотографов. Мэтт Мюррей (Matt Murray), заместитель ответственного редактора международного отдела, отправил записку шефам бюро с просьбой о помощи репортерами. (Это было критически важным моментом: просьба сверху).

Но прежде всего данные. По утрам я экспортировала их в таблицы и составляла графики и диаграммы, чтобы рассмотреть тенденции: уменьшение накоплений, исчезновение пенсий, возвращение на работу матерей, рост затрат на здравоохранение вкупе с ростом долговых обязательств правительства и безработицы. Днем я изучала эти данные в совокупности, сравнивая страны друг с другом, чтобы найти в этом что–то интересное, темы для сюжетов.

Неделю я занималась этим, после чего совершенно запуталась во всей этой информации и начала сомневаться в себе. Возможно, выбранный мной подход был неверен. Возможно, дело было не в странах, а в отцах и матерях, и детях и бабушках и дедушках. Объемы данных тем временем росли.

И одновременно сокращались. Порой я проводила часы, собирая информацию, лишь с тем, чтобы в конце концов обнаружить, что она, эта информация, не дает мне ничего. Что я откопала совершенно неправильный набор цифр. А порой данные просто были слишком устаревшими.

Рис 30. Оценка полезности набора данных может быть очень затратной в плане времени задачей (Сара Слобин)

А потом массив данных снова начал расти, когда я поняла, что у меня по–прежнему есть вопросы, и я не понимаю семьи, не ориентируюсь в их составе и структуре. Мне нужно было увидеть их и придать им форму. Поэтому я сделала быструю серию графических моделей в Illustrator и начала приводить их в порядок, классифицировать и редактировать.

Рис 31. Графическая визуализация: извлечение смысла из тенденций и примеров, спрятанных в наборах данных (Сара Слобин)

Когда возникли графики и диаграммы, тогда появилась и целостная картина семей, полноценное представление о них.

Мы запустили проект. Я позвонила каждому журналисту. Я отправила им графики, диаграммы, общую информацию, и постоянно действующее приглашение поискать сюжеты, которые, по их мнению, могли бы быть важными, выразительными и показательными, которые помогут, условно говоря, «подвести кризис ближе к нашим читателям», побудить их не только понять, но и почувствовать его. Нам нужна была небольшая семья в Амстердаме и семьи побольше в Испании и Италии. Мы хотели услышать от представителей одной семьи разных поколений, как их личная история повлияла на их реакцию на экономические события.

С этого момента я вставала с ранья, чтобы проверить электронную почту, памятуя о разнице во времени. Журналисты прислали мне в ответ данные о прекрасных объектах, резюме по ним, и даже сделали сюрпризы, которых я не ожидала.

Что касается фотографий, то мы знали, что мы хотим сделать портреты поколений. По мнению Мэтта, фотографы должны были повсюду следовать за каждой семьей в течение одного целого дня их жизни. Он выбрал фотожурналистов, которые освещали мировые события, последние новости и даже войны. Мэтт хотел, чтобы каждая съемка заканчивалась за обеденным столом. Сэм предложил, чтобы мы включили меню.

Отсюда появилась необходимость подождать, чтобы посмотреть, какую историю расскажут фотографии. Подождать, чтобы узнать, что сказали семьи. Мы покамест разработали внешний вид интерактива. Я утащила палитру из «Приключений Тинтина», и мы проработали взаимодействие. И когда все было собрано вместе, и у нас уже была полная раскадровка, мы добавили обратно несколько, не очень много, но несколько изначальных графиков и диаграмм. Ровно столько, чтобы хватило для того, чтобы подчеркнуть и акцентировать каждую историю, ровно столько, чтобы хватило для придания темам твердости и основательности. Данные стали обеспечивать паузу в историях, они были призваны дать возможность немного отвлечься и переключиться.

Рис 32. Цифры это люди: ценность данных кроется в индивидуальных сюжетах, которые они представляют (Wall Street Journal)

В конце концов данными было все – и люди, и фотографии, и сюжеты. Они были тем, что придавало форму каждому повествованию, тем, что обуславливало напряженность между странами.

К тому времени, как мы опубликовали наш материал, прямо перед новым годом, когда мы все думали о том, что ждет нас на горизонте, я уже знала всех членов семей по именам. Я до сих пор интересуюсь, как они там сейчас. И если это не выглядит как проект из области журналистики данных, то ну и пускай. Потому что эти моменты, которые задокументированы в проекте «Жизнь в еврозоне» (Life in the Eurozone), эти истории о том, как люди сидят за столом и разговаривают о работе и о жизни, — они стали тем, чем мы смогли поделиться с нашими читателями. Умение понимать и видеть данные сделало этот проект возможным.

Рис 33. Жизнь в Еврозоне (Wall Street Journal)

Сара Слобин, Wall Street Journal

Освещение темы госбюджета при помощи OpenSpending.org

Рис 34. Куда идут деньги?(Фонд Open Knowledge)

В 2007 году Джонатан пришел в Фонд Open Knowledge с уместившимся на одной страничке предложением проекта под названием Куда идут мои деньги? , целью которого было облегчить британским гражданам задачу понять, как тратятся государственные средства. Предполагалось, что это будет решающий эксперимент перед началом реализации более крупного проекта по визуальному представлению открытой, публичной информации, на базе ставшей первопроходческой в этой области работы Отто и Мари Нейрат – системы пиктограмм Isotype, символического способа представления количественной информации при помощи легко поддающихся толкованию изображений.

Проект «Куда идут мои деньги?» позволяет пользователям изучать общедоступные данные из самых разнообразных источников, используя бесплатные, открытые, интуитивно понятные инструменты. Мы помогли разработать прототип проекта, а потом программа 4IP Четвертого канала попросила нас превратить его в полноценное веб–приложение. Гуру информационного дизайна Дэвид Маккендлесс из Information is Beautifulсоздал несколько разных изображений данных, которые помогли людям соотнести их с большими числами – включая проекты «Страновой и региональный анализ», который демонстрирует, как расходуются деньги в разных частях страны, и ‘Хлеб насущный’, который показывает гражданам разбивку их налоговых выплат по разным статьям с точностью до фунтов и пенсов.

Рис 35. Куда идут мои деньги?Налоговый калькулятор «Хлеб насущный» (Фонд Open Knowledge)

В то время недостижимой мечтой для проекта была ловким образом сокращенная в названии «Единая онлайн информационная система» ( Combined Online Information System— COINS) и ее данные. Это была самая всеобъемлющая и подробная база данных (из числа доступных) о британских государственных финансах. Работая вместе с Лайзой Эванс (до того, как она присоединилась к команде Guardian Datablog), Джулианом Тоддом и Фрэнсисом Ирвингом (ныне известном благодаря Scraperwiki), Мартином Розенбаумом (ВВС) и другими, мы подали многочисленные запросы на предоставление данных – многие из них безуспешно.

Когда данные были, наконец, выданы в середине 2010 года, многими сторонниками прозрачности это было воспринято как переворот. Нам дали расширенный доступ к данным, позволив загружать их в наше веб–приложение, и мы удостоились широкого внимания прессы, когда этот факт был обнародован. В день релиза на нашем канале связи появились десятки журналистов, которые хотели обсудить факт публикации или задать вопросы, а также узнать, как открывать и использовать полученные данные (файлы были размером в десятки гигабайт). И хотя некоторые эксперты жаловались, что это массовое обнародование данных было настолько сложным, что фактически добавило не прозрачности, а наоборот, непонятности и неизвестности, множество смелых журналистов зациклились на этих данных, чтобы представить своим читателям беспрецедентную картину того, как тратятся государственные средства. Guardian вел живую трансляциюв блоге об этом релизе, процесс освещали и многие другие средства массовой информации, они также давали анализ выводов из этих данных.

Это было незадолго до того, как мы начали получать запросы об осуществлении аналогичных проектов в других странах по всему миру. Вскоре после запуска OffenerHaushalt — версии нашего проекта для немецкого государственного бюджета, созданной Фридрихом Линденбергом –– мы запустили OpenSpending, международную версию проекта, целью которой было помочь пользователям составить карту государственных расходов по всему миру, немного похожую на то, как OpenStreetMap помогает составить карту географическую. Мы применили новые решения в области дизайна с помощью талантливого Грегора Айша, и частично использовали оригинальный дизайн Дэвида Маккендлесса.

Рис 36. OffenerHaushalt, немецкая версия материала Куда идут мои деньги Go?(Фонд Open Knowledge)

Реализуя проект OpenSpending, мы активно работали с журналистами над решением задач получения, осмысливания, интерпретации и представления данных о расходах общественности. OpenSpending – это в первую очередь огромная база данных о государственных расходах с функцией поиска – база содержит как информацию бюджетного характера, т.е. о запланированных расходах, так и информацию на уровне транзакций – о реально осуществленных расходах. На базе этого построена серия креативных, нестандартных визуализаций, на основе методов Treemap и Bubbletree. Причем каждый мог загрузить свои местные данные и сделать на их основе визуализацию.

Хотя изначально мы думали, что наши более сложные визуализации будут пользоваться большой популярностью, поговорив с информационными организациями мы осознали, что были более базовые потребности, которые следовало удовлетворить в первую очередь, например, возможность встраивать динамические таблицы данных в посты в блогах. Будучи склонными к тому, чтобы побудить новостные организации предоставлять общий доступ к данным вместе с их сюжетами и материалами, мы и для этого создали виджет.

Наш первый крупный релиз совпал по времени с проведением первого Международного фестиваля журналистики в Перудже. Группа разработчиков, журналистов и государственных служащих сотрудничала в вопросе загрузки итальянских данных в платформу OpenSpending, что дало возможность получить широкий и разносторонний взгляд на то, как осуществляются расходы на уровне центральной, региональных и местных администраций. Тема получила освещение в Il Fatto Quotidiano, Il Post, La Stampa, Repubblica, и Wired Italia, а так же в Guardian.

Рис 37. Итальянская версия материала «Куда идут мои деньги?»(La Stampa)

В 2011 году мы работали с организацией Publish What You Fundи британским независимым аналитическим центром «Институт иностранного развития» ( Overseas Development Institute) над составлением карты финансирования и предоставления помощи Уганде в период 2003–2006 годов. Это было новой темой, потому что впервые вы могли увидеть потоки финансирования в рамках финансовой помощи вместе с национальным бюджетом – это давало возможность увидеть, до какой степени приоритеты доноров соответствовали приоритетам правительства. Было сделано несколько интересных заключений, например, оказалось, что программы по борьбе с распространением ВИЧ и программы в области планирования семьи практически полностью финансировались внешними донорами. Эту тему осветила и Guardian.

Мы также работали вместе с неправительственными организациями, инициативными группами и организациями, выступающими в защиту разных интересов, над обеспечением перекрестного сравнения данных о расходах с другими источниками информации. Например, Privacy International вышла на нас с большим списком компаний–разработчиков технических средств наблюдения и списком агентств и служб, присутствовавших на хорошо известной международной торговой выставке этих самых технических средств, известной как «бал перехватчиков». Систематически привязывая названия компаний к наборам данных по расходам стало возможным распознать, у каких компаний были правительственные контракты – а за этим могли уже последовать запросы в рамках норм свободы информации. Данную тему осветили Guardianи the Wall Street Journal.

Мы сейчас работаем над решением задачи увеличения степени финансовой грамотности среди журналистов и общественности, в рамках части проекта под названием «Истории о тратах и расходах», который позволяет пользователям связать между собой данные о государственных расходах и связанные с государственными расходами истории, чтобы увидеть, грубо говоря, «цифры за новостями и новости вокруг цифр».

Благодаря нашей работе в этой области, мы узнали, что:

 Журналисты зачастую не привыкли работать с исходными данными, и не считают это необходимой основой своей журналистской работы. Использование в качестве источников для сюжетов, репортажей и материалов исходных данных – по–прежнему воспринимается как сравнительно новая, оригинальная идея.

 Анализ и понимание данных – это процесс, занимающий много времени, даже при наличии всех необходимых инструментов. Подогнать его под новостной цикл, который, как известно, очень короткий, сложно, поэтому журналистика данных часто используется в долгосрочных, долгоиграющих исследовательских и расследовательских проектах.

 Данные, публикуемые властями, зачастую бывают неполными или устаревшими. Очень часто публично доступные базы данных не могут быть использованы в расследовательских целях без добавления к ним более конкретных наборов информации, запрашиваемых согласно правилам свободы информации.

 Организации, выступающие в защиту чего–либо, ученые и исследователи зачастую имеют больше и времени, и возможностей, чтобы проводить более обширные, более масштабные исследования в области данных, чем журналисты. Было бы очень выгодным, полезным и продуктивным объединяться с ними и работать в команде.

Люси Чемберс и Джонатан Грэй, Фонд Open Knowledge

Финские парламентские выборы и финансирование предвыборной кампании

Рис 38. Финансирование предвыборной кампании(Helsingin Sanomat)

В последние месяцы активно проходят судебные процессы, связанные с финансированием избирательной кампании во время всеобщих выборов в Финляндии 2007 года.

После выборов 2007 года пресса обнаружила, что законы о предаче гласности информации о финансировании подобных кампаний не оказали никакого воздействия на политиков. В основе своей финансирование кампаний использовалось для того, чтобы купить благосклонность политиков, которые потом не смогли гласно заявить о своем финансировании, как их обязывает финское законодательство.

После этих инцидентов законы стали жестче. После всеобщих выборов в марте 2011 Helsingin Sanomat решила внимательно изучить все доступные данные о финансировании предвыборных кампаний. Новый закон предусматривает, что финансирование предвыборных кампаний должно быть полностью открытым, и информация о нем должна раскрываться, и только взносы в размере до 1 500 евро могут быть анонимными.

1. Поиск данных и разработчиков.

Helsingin Sanomat начала организовывать собственные открытые хакатоны (так называемые HS Open) начиная с марта 2011 года. Мы приглашали и приглашаем финских программистов, кодеров, журналистов и графических дизайнеров на цокольный этаж нашего здания. Участников делим на группы по трое, и предлагали им разработать приложения и визуализации. В каждом из трех проведенных нами к настоящему моменту мероприятий приняли участие примерно по 60 человек. Мы решили, что данные о финансировании предвыборной кампании должны оказаться в центре внимания мероприятия HS Open №2, которое прошло в мае 2011 года.

Национальное аудиторское управление Финляндии является тем учреждением, которое хранит документы о финансировании кампаний. Это была легкая часть задачи. Руководитель информационной службы Яакко Хамунен (Jaakko Hamunen) создал вебсайт, который давал возможность доступа к базе данных о финансировании кампаний в режиме реального времени. Аудиторское управление сделало это всего через два месяца после нашего запроса.

Сайт Vaalirahoitus.fiбудет предоставлять средствам массовой информации и общественности данные о финансировании предвыборных кампаний по каждым выборам начиная с данного момента.

2. Мозговой штурм в поисках идей.

Участники хакатона HS Open 2 выработали 20 разных пилотных моделей, предлагая варианты того, что делать с данными. Все варианты можно найти на нашем вебсайте(текст на финском языке).

Исследователь в области биоинформатики по имени Яанне Пелтола (Janne Peltola) заметил, что данные о финансировании предвыборных кампаний выглядели похожими на генетические данные, которые они исследовали, в плане того, что они содержали множество взаимосвязей и взаимозависимостей. В биоинформатике есть один открытый, бесплатный инструмент под названием Cytoscape, который используется для составления карт таких взаимозависимостей. Поэтому мы прогнали наши данные через Cytoscape и получили очень интересный опытный образец.

3. Реализация идеи на бумаге и в сети.

Закон о финансировании избирательных кампаний обязывает избранных членов парламента задекларировать данные о финансировании своих кампаний в течение двух месяцев после выборов. На практике это означает, что мы получили реальные данные только в середине июня. На HS Open у нас были только данные от тех парламентариев, которые подали соответствующую информацию заранее, до истечения крайнего срока.

Также была проблема с форматом данных. Национальное аудиторское управление предоставило данные в виде двух CSV–файлов. Один содержал информацию об общем бюджете кампании, а во втором был список всех жертвователей и источников финансирования. Нам надо было объединить эти два набора данных, создав файл, который содержал бы три столбца: «жертвователь/источник финансирования», «получатель» и «сумма». Если бы политики использовали свои собственные деньги, то в нашем формате данных это выглядело бы так: Политик А пожертвовал сумму Х евро политику А. Возможно, парадоксально и не интуитивно понятно, но для Cytoscape это сработало.

Когда данные были очищены и переформатированы, мы просто пропустили их через Cytoscape. Потом наша графическая служба сделала из этого полностраничный график.

Наконец, мы создали отличную красивую визуализацию на нашем вебсайте. Это был не график сетевого анализа. Мы хотели дать людям легкий способ узнать, насколько велико было финансирование кампании и кто дает деньги. Первая картинка показывает распределение средств между парламентариями. Кликая на фамилию конкретного парламентария, вы получаете полную информацию о конкретно его или ее финансировании — кто и сколько выделил ему или ей денег. Также можно проголосовать, является ли тот или иной жертвователь, по вашему мнению, хорошим, качественным, или нет. Визуализация подготовили Юха Рувинен (Juha Rouvinen) и Юкка Кокко (Jukka Kokko) из агентства под названием Satumaa. В интернет–версии визуализации проекта финансирования избирательной кампании использованы те же данные, что и для сетевого анализа.

4. Публикация данных.

Конечно, Национальное аудиторское управление уже публикует данные, так что нет нужды в повторной публикации. Но когда мы очистили информацию и придали ей более удобную и качественную структуру, мы решили опубликовать ее. Мы выпустили наши данные с авторской лицензией Creative Commons Attribution licence. Впоследствии несколько независимых разработчиков сделали визуализации данных, и некоторые из этих визуализаций мы опубликовали.

Для реализации проекта мы использовали следующие инструменты: Excel и Google Refine для очистки данных и их анализа, Cytoscape для сетевого анализа, и Illustrator и Flash для создания визуализаций. На самом деле вместо Flash должен был использоваться HTML5, но нам не хватило времени.

Чему мы научились? Возможно, самым важным уроком было то, что структуры данных могут быть очень сложными. Если оригинальные данные существуют в неподходящем формате, переподсчет и конвертация их отнимут много времени.

Хакинг выборов (Electoral Hack) в режиме реального времени

Рис 39. Выборы 2011 года(Hacks/Hackers Buenos Aires)

«Хакинг выборов» ( Electoral Hack)  — это проект из области политического анализа, который визуализирует данные предварительного результата голосования 23 октября 2011 года на выборах в Аргентине. Система также содержит информацию с предыдущих выборов, и социально–демографическую статистику со всей страны. Проект обновлялся в режиме реального времени информацией, поступающей по ходу предварительного подсчета голосов на национальных выборах 2011 года в Аргентине, и представил итоговые результаты выборов. Это была инициатива группы Hacks/Hackers Buenos Aires, которую она осуществила совместно с политологом Энди Тоу (Andy Tow). Проект был осуществлен совместными усилиями журналистов, разработчиков, дизайнеров, аналитиков, политологов и других специалистов из местного отделения Hacks/Hackers.

Какие данные мы использовали?

Все данные поступали из официальных источников: Национальное избирательное бюро предоставило доступ к данным предварительного подсчета Indra; Министерство внутренних дел предоставило информацию о тех постах, на которые выбирались кандидаты, и о кандидатах от разных политических партий; университетский проектпредоставил биографическую информацию и информацию о политических платформах каждого кандидата в президенты; а социально–демографическая информация поступила от Национальной переписи населения и жилищных условий (INDEC) 2001 года и аналогичной переписи 2010 года, а также от Министерства здравоохранения.

Как проект развивался?

Приложение было задумано и начало создаваться во время предвыборного хакатона 2011 года, проводившегося Hacks/Hackers Buenos Aires за день до выборов 23 октября 2011. В хакатоне участвовали 30 добровольцев, представляющих самые разные области. Electoral Hack был разработан как открытая платформа, которая могла с течением времени улучшаться и дополняться. Что касается технологий, то мы использовали Google Fusion Tables, Google Maps и библиотеки векторной графики.

Мы работали над строительством векторных многоугольников для отображения географических карт и избирательных демографических данных. Объединяя векторные многоугольники в программном обеспечении для геоинформационных систем и геометрические таблицы в Google Fusion Tables мы создали таблицы с ключами, соответствующими избирательной базе данных Министерства внутренних дел, Indra и социодемографическим данным переписи INDEC. на этой основе мы сделали визуализации в Google Maps.

Используя интерфейс программирования приложений Google Maps, мы опубликовали несколько тематических карт, представляющих информацию о пространственном распределении голосовавших при помощи разных оттенков цвета, где насыщенность цвета показывала процент проголосовавших за разных президентских кандидатов в разных административных округах и на разных избирательных участках, с особым вниманием к крупным городским центрам – Буэнос–Айресу, 24 районам большого Буэнос–Айреса, Кордобе и Розарио.

Мы использовали такую же технику, чтобы сгенерировать тематические карты по предыдущим выборам, а именно президентским праймериз 2011 года и выборам 2007 года, а также по распределению социодемографических данных, таких как уровень бедности, детская смертность и условия жизни, что дало возможность провести сравнительный анализ. Проект также продемонстрировал пространственное распределение разницы в процентах голосов, набранных каждым кандидатом на всеобщих выборах в октябре, по сравнению с предварительными выборами в августе.

Позднее, используя часть данных предварительного подсчета голосов, мы создали анимированную карту, отображающую анатомию подсчета, в которой показан весь процесс подсчета голосов – начиная с момента закрытия избирательного участка и до следующего утра.

За

 Мы хотели найти и представить данные и мы смогли это сделать. Под рукой у нас была база социодемографических данных ЮНИСЕФ, a также база данных кандидатов, созданная группой yoquierosaber.org из Университета Торквато ди Тела. Во время хакатона мы собрали огромный объем дополнительных данных, которые мы так и не закончили включать в проект.

 Было ясно, что журналистская и программистская работа была сильно обогащена научными знаниями и вкладом исследователей. Без помощи Энди Тоу и Хиларио Морено Кампоса проект никогда бы не реализовался.

Против

 Социодемографические данные, которыми мы пользовались, были не самыми свежими (большинство было из переписи 2001 года), и к тому же они были не очень подробными. Например, они не включали в себя данные о среднем ВВП на местном уровне, об основной экономической активности, об уровне образования, о числе школ, о врачах на душу населения, и много другого, что было бы здорово иметь.

 Изначально система задумывалась как инструмент, который мог использоваться для объединения и отображения любых произвольно выбранных данных, чтобы журналисты могли легко демонстрировать интересующие их данные в сети. Но нам пришлось отложить это до лучших времен.

 Так как проект реализовывался добровольцами и в короткие сроки, было невозможно сделать все, что мы хотели сотворить. Тем не менее, мы добились значительного прогресса в нужном направлении.

 По той же причине вся работа сотрудничавших в проекте тридцати человек в конце концов сконцентрировалась в работу одного программиста, когда начали появляться правительственные данные, и у нас возникли определенные проблемы с импортированием данных в режиме реального времени. Эта проблема была решена за несколько часов.

Выводы

Платформа Electoral Hack оказала большое влияние и была активно замечена в прессе, на телевидении, радио, в печатных СМИ и на онлайн–ресурсах. Карты из проекта использовались несколькими медиа–платформами во время выборов и в последующие дни. С течением времени карты и визуализации обновлялись, что еще больше подстегнуло рост трафика. В день выборов сайт, созданный в этот самый день, набрал почти 20 000 уникальных посетителей, а представленные на нем карты были воспроизведены на главной странице газеты Página/12, и пребывали там последующие два дня. Также были и статьи в La Nación. Несколько карт появилось в печатной версии газеты Clarín. Это был первый случай в истории аргентинской журналистики, когда использовалось интерактивное отображение карт реального времени. На центральных картах можно легко увидеть победу Кристины Фернандес де Киршнер, которая набрала 54% голосов, и это отражается насыщенностью цвета. Проекттакже помог пользователям понять некоторые конкретные моменты, когда местные кандидаты одерживали внушительные победы в провинциях.

Данный раздел был написан Мариано Блейманом, Марианой Берруэзо, Серджио Сориным, Энди Тоу и Мартином Сарсале из Hacks/Hackers Buenos Aires

Данные в новостях: WikiLeaks

Рис 40. Военные отчеты от WikiLeaks(The Guardian)

Началось все с того, что один человек из группы, занимающейся расследовательской журналистикой, спросил: «Вы же хорошо умеете работать с электронными таблицами, не правда ли?» А это была просто чертовски большая таблица: 92 201 строка данных, и в каждой – подробности о каком–либо военном событии в Афганистане. Это были военные отчеты WikiLeaks. Мало того, только часть первая. За которой последуют еще две: посвященная Ираку и дипломатические депеши. Официальный термин для всего этого был такой – SIGACTS – база данных о значимых действиях американских военных.

Афганские военные отчеты – которые мы обрабатывали вместе с New York Times и Der Spiegel – были настоящей журналистикой данных в действии. Что мы хотели сделать, так это дать возможность нашей команде специалистов вытащить какие–то серьезные человеческие истории из этой информации – и мы также хотели проанализировать данные, чтобы получить картину в целом, и показать, как действительно шла и идет война.

Практически сразу мы пришли к важному решению, что мы не будем публиковать полную базу данных. WikiLeaks уже собиралась это сделать, а мы хотели убедиться в том, что мы не раскроем имена лиц, ставших источниками информации, или не будем без необходимости подвергать опасности войска НАТО. В то же время нам нужно было сделать данные более легкими для понимания, а также для использования нашей командой расследовательских журналистов, возглавляемой Дэвидом Леем (David Leigh) и Ником Дэвисом (Nick Davies) (которые вели переговоры с Джулианом Ассанжем о публикации данных). Мы также хотели упростить задачу извлечения ключевой информации, чтобы она стала доступной всему миру, была при этом ясной, понятной и открытой – в максимально возможной степени, насколько у нас это получится.

Данные поступили к нам в виде огромного «экселевского» файла – 92 201 строка данных, в некоторых не было вообще ничего или же они были плохо отформатированы. Это никоим образом не помогало журналистам, которые продирались сквозь эти данные в поисках сюжетов для материалов, и вдобавок сам файл был слишком велик, чтобы сделать по нему содержательный отчет.

Наша команда соорудила простую внутреннюю базу данных с использованием SQL. Журналисты теперь могли осуществлять поиск по ключевым словам или тем или иным событиям. Получилось, что внезапно набор данных стал доступным, и создавать материалы на его основе стало гораздо легче.

Данные были хорошо структурированы: каждое событие имело следующие ключевые характеристики: время, дату, описание, количество пострадавших, и – самое важное – точные данные долготы и широты места, где оно произошло.

Мы также начали фильтровать данные, что должно было помочь нам рассказать одну из ключевых историй войны: рост числа атак с использованием самодельных взрывных устройств – придорожных мин домашнего изготовления, которые совершенно непредсказуемы и с которыми очень трудно бороться. Но и этот набор данных по–прежнему оставался слишком массивным – однако управляться с ним стало легче. Всего было примерно 7 500 случаев применения самодельных взрывных устройств или внезапных нападений, засад (за таковую атаку мы считали нападение, сочетающееся с, допустим, небольшой перестрелкой или использованием реактивных гранат) за период с 2004 по 2009 годы. И еще 8 000 самодельных взрывных устройств были обнаружены и обезврежены. Мы хотели посмотреть, как эта ситуация менялась со временем – и сравнить. Эти данные дали нам возможность увидеть, что юг, территория, где базировались британские и канадские войска, был самым «горячим» в этом плане районом, там происходило больше всего подобных инцидентов – и эти данные только подкрепили то, что наши журналисты, освещавшие войну, уже знали.

Публикация военных отчетов об Ираке в октябре 2010 выставила на публичное обозрение еще 391 000 записей, на этот раз по иракской войне.

И это было уже кое–что иное по сравнению с утечкой по Афганистану – вполне можно было, воспользовавшись этим случаем, сказать, что эта война стала самой задокументированной войной в истории. Любая, даже самая мелкая, подробность теперь была доступна для нас для анализа, обработки и выводов. Но обращает на себя один фактор: большое количество смертей, причем большинство погибших – гражданские лица.

Как и в случае с Афганистаном, Guardian решил не перепубликовывать всю базу целиком, в значительной мере потому, что мы не могли быть уверены, что поля с описанием не содержат конфиденциальную информацию или данные о тех людях, кто был источником информации, и так далее.

Но мы дали возможность нашим пользователям скачать таблицу с записями о каждом инциденте, где кто–то погиб. Таковых набралось примерно 60 000. Мы удалили при этом поля с кратким описанием, так что остались только основные данные: военный заголовок, число погибших и географическая разбивка.

Мы также взяли все эти инциденты с жертвами, и нанесли их на карту при помощи таблиц Google Fusion. Вариант оказался не идеальный, но в любом случае это было начало процесса попытки составления карт для отображения всех примеров разрушений и уничтожений, которые опустошили Ирак.

В декабре 2010 года были опубликованы депеши. И это был еще более внушительный набор данных – огромное собрание официальных документов: 251 287 дипломатических донесений, из более чем 250 американских посольств и консульств по всему миру. Получилась уникальная картина американского дипломатического языка – она включала в себя более 50 000 документов, касающихся и нынешней американской администрации Барака Обамы. Но что именно включали в себя эти данные?

Сами депеши поступили через огромную безопасную сеть на базе интернет–маршрутизатора (Secret Internet Protocol Router Network – SIPRNet). SIPRNet – это всемирная интернет–система американских военных, которая существует отдельно от обычного гражданского интернета и управляется Министерством обороны в Вашингтоне. Со времен терактов 11 сентября 2001 года в США наблюдалось движение в сторону объединения архивов правительственной информации, в надежде, что ключевые разведданные больше не попадут в ловушку в информационных бункерах, не пострадают от противоречий между федеральными агентствами США. Все большее число американских посольств подключались к SIPRNet в последнее десятилетие, таким образом, становилось возможным обмениваться военной и дипломатической информацией. К 2002 году с SIPRNet работали 125 посольств, к 2005 это количество выросло до 180, а сейчас подавляющее большинство американских зарубежных дипмиссий подключены к этой системе. Вот почему большая часть опубликованных депеш датируется 2008–2009 годами. Как писал Дэвид Лей:

«Посольская депеша, помеченная тегом SIPDIS, автоматически загружается на секретный сайт посольства. Оттуда к ней может получить доступ не только любой человек в Госдепартаменте, но также и любой в американской военной структуре, у кого есть доступ к закрытой информации уровня «секретно», пароль и компьютер, подсоединенный к SIPRNet»

что удивительным образом охватывает более 3 миллионов человек. Тут есть несколько уровней данных; вплоть до SECRET NOFORN, тэга, который означает, что эта информация никогда и ни в коем случае не может быть показана иностранному гражданину. Такие документы, как предполагается, должны читаться чиновниками в Вашингтоне вплоть до уровня госсекретаря Хиллари Клинтон. Депеши обычно составляются местным послом или его подчиненными. К документам, на которых стоит гриф «совершенно секретно», или указание еще более высокого уровня сохранения тайны, не может быть получен доступ через SIPRNet.

В отличие от предыдущих релизов, тут, в случае с депешами, это был преимущественно текст, не выраженный в количественной форме и не содержавший идентичных данных. Вот что включали в себя депеши:

Источник

Посольство или орган, направивший депешу.

Список получателей

Обычно депеши отправлялись в ряд других посольств и организаций.

Поле «Тема»

Обычно краткое содержание депеши.

Тэги

Каждая депеша была снабжена рядом ключевых аббревиатур.

Основной текст

Собственно сама депеша. Мы решили не публиковать эту часть полностью по причинам безопасности объективного характера.

Один интересный нюанс этой истории заключается в том, как депеши смогли создать фактически утечки по заказу, в самый нужный момент. Они фигурировали в главных новостях в течение нескольких недель с момента публикации – а сейчас, когда бы ни возникал сюжет о том или ином коррумпированном режиме или международном скандале – доступ к депешам дает нам и доступ к новым новостным сюжетам и новым материалам.

Анализ депеш – огромная, масштабная задача, которая, возможно, никогда не будет завершена.

Это неотредактированная версия главы, которая впервые была опубликована в проекте «Факты священны» (Facts are Sacred): данные – Саймон Роджерс, The Guardian

Хакатон Mapa76

Рис 41. Mapa76(Hacks/Hackers Buenos Aires)

Мы открыли буэнос–айресскую главу истории Hacks/Hackersв апреле 2011 года. Мы провели две первоначальных встречи для того, чтобы предать гласности идею более тесного сотрудничества между журналистами и разработчиками программного обеспечения, на каждом из мероприятий присутствовало от 120 до 150 человек. На третью встречу мы организовали 30–часовой хакатон в составе восьми человек на конференции по цифровой журналистике в городе Розарио в 300 километрах от Буэнос–Айреса.

Повторяющейся темой на этих встречах было желание выкопать огромные объемы данных из интернета, а потом представить их визуально. Чтобы содействовать решению этой задачи, родился проект Mapa76.info, который помогает пользователям извлекать данные, а потом отображать их, используя карты и графики. Непростая задача.

Почему Mapa76? 24 марта 1976 года в Аргентине произошел переворот, который длился до 1983 года. В этот период примерно 30 000 человек бесследно исчезли, тысячи погибли, и около пятисот детей родилось в неволе из–за действий военной диктатуры. Более тридцати лет спустя число людей в Аргентине, осужденных за преступления против человечности, совершенные в годы диктатуры, достигло 262 человек (по состоянию на сентябрь 2011 года). Сейчас идет 14 судебных процессов, и еще в отношении 7 определены даты начала рассмотрения дел. В различных открытых судебных делах фигурируют 802 человека.

Эти процессы генерируют огромное количество данных, которые весьма сложны в обработке и для исследователей, и для журналистов, и для правозащитных организаций, и даже для судей, прокуроров и всех остальных. Данные появляются совершенно разным образом, и следователи и исследователи зачастую не могут воспользоваться преимуществами обработки их программными средствами при их интерпретации. В конечном итоге, это означает, что факты зачастую упускаются из виду, а гипотезы часто получаются ограниченными. Mapa76 – это расследовательский инструмент, предоставляющий открытый доступ к этой информации в журналистских, юридических, судебных и исторических целях.

Чтобы подготовиться к хакатону, мы создали платформу, которую разработчики и журналисты могли использовать для общения и взаимодействия в день мероприятия. Мартин Сарсале разработал несколько базовых алгоритмов для извлечения структурированных данных из простых текстовых документов. Некоторые библиотеки также были взяты с DocumentCloud.org и использованы в проекте, но таковых было немного. Платформа позволяла автоматически анализировать и извлекать имена и фамилии, даты и места из текстов – и давала возможность пользователям изучать ключевые факты о различных случаях (даты рождения, места арестов, предполагаемые места исчезновения, и так далее).

Нашей целью было предоставить платформу для автоматического извлечения данных по приговорам и решениям судов времен военной диктатуры в Аргентине. Мы хотели найти способ автоматически (или, по крайней мере, полуавтоматически) показывать ключевые данные, связанные с делами 1976–1983 годов, основанными на письменных свидетельствах, аргументах и приговорах. Извлеченные данные (имена, фамилии, места и даты) собираются, хранятся и могут быть проанализированы, просеяны и улучшены исследователем. Также их можно использовать при помощи карт, графиков и инструментов сетевого анализа.

Проект позволяет журналистам и следователям, работникам прокуратуры и свидетелям отслеживать историю жизни человека, включая ход их пленения, и последующего исчезновения или освобождения. Там, где информация отсутствует, пользователи имеют возможность прошерстить огромное количество документов в поисках информации, которая, возможно, может иметь отношение к делу.

Для того, чтобы собрать хакатон, мы сделали публичное объявление через Hacks/Hackers Buenos Aires, в котором тогда было около 200 членов (на момент написания главы их уже 540). Мы также вступили в контакт со многими ассоциациями защиты прав человека. На встрече присутствовали около сорока человек, включая журналистов, представителей правозащитных организаций, разработчиков и дизайнеров.

Во время хакатона мы определили задачи, которые разные типы участников могли бы пытаться решать независимо, чтобы способствовать тому, чтобы процесс шел мягко и безболезненно. Например, мы попросили дизайнеров поработать над интерфейсом, который сочетал бы карты и графики и временные шкалы, мы попросили разработчиков поискать способы извлечения структурированных данных и алгоритмы для устранения возможности различного толкования названий, а журналистов мы попросили посмотреть, что произошло с конкретными людьми, сравнить разные версии материалов и прошерстить документы, чтобы рассказать истории о конкретных случаях.

Возможно, основной проблемой, которая у нас была после хакатона, было то, что наш проект был очень уж амбициозным, наши краткосрочные цели требовали больших затрат и усилий, а скоординировать слабо соединенную сеть добровольцев довольно сложно. Практически у каждого вовлеченного в проект была основная отнимающая время работа, многие также участвовали в других эвентах и проектах. У Hacks/Hackers Buenos Aires было 9 встреч в 2011 году.

Сейчас проект активно развивается. Существует ядро команды в виде четырех человек, работающих с более чем десятью сотрудниками, участниками коллективной работы. У нас имеется открытый список рассылки, список постоянных адресатови хранилище кодов, посредством которых абсолютно любой может участвовать в проекте.

Мариано Блейман, Hacks/Hackers Buenos Aires

Освещение волнений в Великобритании в Guardian Datablog

Рис 42. Волнения в Великобритании: каждый подтвержденный инцидент(The Guardian)

Летом 2011 года Великобританию охватила волна беспорядков. В то время политики полагали, что эти события категорически не связаны с проблемами бедности и нищеты, а те, кто грабили, были просто преступниками. Более того, премьер–министр вместе с ведущими политиками из числа консерваторов обвинил социальные сети в том, что они становятся причиной беспорядков, предположив, что на этих платформах имело место подстрекательство, и что эти волнения организовывались через Facebook, Twitter и Blackberry Messenger (BBM). Раздавались даже призывы временно закрыть социальные сети. И так как правительство не инициировало расследование причин беспорядков, газета Guardian в сотрудничестве с Лондонской школой экономики реализовала ставший прорывом проект «Истолковывая беспорядки»(Reading the Riots), чтобы ответить на этот вопрос.

Газета вовсю использовала журналистику данных, чтобы дать возможность общественности лучше понять, кто занимался грабежами и почему. Более того, они также работали с другой группой ученых, возглавляемой профессором Робом Проктером в Университете Манчестера, чтобы лучше понять роль социальных медиа, которые сама Guardian активно использовала для своих материалов во время беспорядков. Команду создателей проекта Reading the Riots возглавлял Пол Льюис (Paul Lewis), редактор спецпроектов Guardian. Во время самих беспорядков Пол вел репортажи с мест событий в городах по всей Англии (в том числе через аккаунт в Твиттере, @paullewis). Эта вторая команда обработала более чем 2,6 миллиона твитов о беспорядках. Основной целью работы с этой социальной сетью было посмотреть, как в Твиттере циркулировали слухи, определить ту функцию, которую выполняли разные пользователи в распространении информационных потоков, чтобы увидеть, использовалась ли эта платформа для подстрекательств, и изучить другие формы организации.

В плане использования журналистики данных и визуализации данных полезно различать два ключевых периода: период собственно самих беспорядков и те способы, которыми данные помогали создавать сюжеты и материалы тогда, когда разворачивались волнения; и потом второй период гораздо более интенсивных исследований двух групп ученых, работающих с Guardian, по сбору данных, их анализу и глубокому изучению выводов. Результаты первой фазы проекта «Истолковывание беспорядков» были опубликованы в неделю активного освещения темы в начале декабря 2011 года. Ниже приведен ряд ключевых примеров того, как в оба этих периода использовался метод журналистики данных.

Фаза один: Беспорядки как они произошли

Посредством использования простых карт команда Guardian показала места, в отношении которых имелась подтвержденная информация о том, что там зарождались беспорядки, и за счет смешения и наложения данных о терпимых гражданами лишениях на данные о том, где зарождались беспорядки, газета смогла начать развенчивать основной политический посыл о том, что никакой связи с бедностью и нищетой не было. В обоих этих примерах использовались готовые, имеющиеся в наличии стандартные инструменты для составления карт, а во втором примере объединение данных о местоположениях с другим набором данных позволило начать устанавливать новые связи и проводить новые параллели.

Что же касается использования социальных медиа во время беспорядков, в данном случае, Твиттера, газета сделала визуализацию связанных с беспорядками и использовавшихся в тот период хэштегов, которая показала, что Твиттер использовался в основном для того, чтобы реагировать на беспорядки, а не для того, чтобы организовывать людей для занятия грабежами, и что активность под хэштегом #riotcleanup, спонтанно возникшей кампании по уборке улиц после беспорядков, продемонстрировала наиболее значительный всплеск во время периода беспорядков.

Фаза два: Прочтение/толкование беспорядков

Когда газета сообщила о своих выводах по результатам месяцев интенсивных исследований и тесной работы с двумя командами ученых, были сделаны две визуализации, которые начали широко обсуждаться. Первая, короткое видео, показывает результаты объединения данных об известных местах, где люди устраивали беспорядки, с их домашними адресами, и демонстрирующая так называемое «расстояние от места жительства до мест бунта». Тут газета поработала вместе со специалистом по транспортному картографированию, компанией ITO World, чтобы смоделировать наиболее вероятные маршруты, проезжаемые или проходимые участниками беспорядков, когда они отправлялись на грабежи, выделив различные образцы таких маршрутов для разных городов. Заодно выяснилось, что некоторым пришлось преодолеть изрядное расстояние.

Вторая визуализация показывает, каким образом распространялись слухи в Твиттере. После обсуждения с командой ученых было решено проанализировать семь различных слухов. Научная группа потом собрала все данные, имеющие отношение к каждому из слухов, и разработала график кодировки, по которому всем соответствующим твитам был присвоен один из четырех вариантов кода: когда люди просто повторяли, ретранслировали слух (заявление), отклоняли его (контр–заявление), ставили его под вопрос (сомнение) или просто комментировали (комментарий). Все твиты получили тройные коды и результаты были визуализированыгруппой Guardian по интерактивам. Guardian написала о том, как она конструировала эту визуализацию.

Что особенно примечательно и поразительно в этой визуализации, так это то, насколько мощно она показывает то, что очень трудно описать, и то, что касается вирусной природы слухов, и способов, которыми их жизненный цикл со временем выдыхается. Роль ведущих средств массовой информации очевидна в некоторых из этих слухов (например, в случаях прямого их разоблачения, или быстрого подтверждения их в виде новостей), как очевидна и корректирующая природа самого Твиттера в плане работы с такими слухами. Эта визуализация не только здорово помогла в создании сюжетов и материалов на тему, но также дала правильное понимание того, как работают слухи в Твиттере, что дает информацию, которая будет полезной при работе с будущими событиями.

Что становится совершенно ясно из последнего примера, так это мощная синергия между газетой и научной командой, способной осуществить глубокий анализ 2,6 миллиона посвященных беспорядкам твитов. Хотя команда ученых и создала набор сделанных на заказ инструментов, чтобы провести свой анализ, сейчас они работают над тем, чтобы сделать эти инструменты широко доступными любому желающему, кто захочет использовать ихдолжным образом, предоставляя своего рода верстак, рабочую поверхность, инструментальные средства для анализа. В сочетании с практическим руководством от команды Guardian получилось полезное ситуационное исследование того, как подобный анализ социальных медиа и визуализация могут быть использованы другими при создании сюжетов и материалов на столь важные темы.

Фарида Вис, Университет Лестера

Сводные таблицы школ Иллинойса

Рис 43. Сводные таблицы школ Иллинойса 2011 года(Chicago Tribune)

Каждый год управление по делам образования штата Иллинойс публикует так называемые школьные «табели успеваемости», данные о демографическом составе и о результатах работы всех государственных школ Иллинойса. Это огромный набор данных, в этом году итоговый документ состоял более чем из 9 500 столбцов. Обычной проблемой со столь гигантскими наборами данных является проблема выбрать, что из этих данных показать (как с любым софтверным проектом, самое сложное – это не создать собственно программу, а сделать правильную программу).

Мы работали вместе с журналистами и редактором из отдела образования над выбором наиболее интересных данных (там полно данных, которые кажутся интересными, но про которые опытный журналист вам легко скажет, что они на самом деле неполноценны, небезупречны или вводят в заблуждение).

Мы также опросили и проинтервьюировали тех коллег по ньюсруму, у которых есть дети школьного возраста. Мы сделали это из–за того, что в нашей команде поставить себя в положение другого в этом смысле было сложно – в отделе, занимающемся новостными приложениями, ни у кого не было детей школьного возраста. По ходу дела мы многое узнали о наших пользователях и об удобстве и простоте использования, юзабилити (или отсутствии таковой) предыдущей версии нашего школьного сайта.

Нашей целью было сделать дизайн, предназначенный для пары конкретных типов пользователей в конкретных ситуациях: наш проект был призван служить интересам (1) родителей, чьи дети ходят в школу, и которые хотят знать, насколько их школа удовлетворяет требованиям, и (2) родителей, которые пытаются выбрать место жительства, так как качество школ часто в значительной степени влияет на это решение.

В первый раз работа над школьным сайтом заняла шесть недель, и работали над ним два разработчика. Обновленная версия 2011 года потребовала четырех недель и тоже труда двух разработчиков (на самом деле активно над последним проектом работали три человека, но никто не работал на полную ставку, так что в итоге можно сказать, что их было два).

Ключевым моментом этого проекта стал информационный дизайн. Хотя мы демонстрировали значительно меньше данных, если сравнивать со всем тем объемом оных, что был доступен, их, этих самых данных, было по–прежнему много, и задача сделать их удобоваримыми и легко усваиваемыми была не такой уж простой. К счастью, нам удалось одолжить специалиста из нашего графического отдела – дизайнера, который специализируется на представлении сложной информации. Он многому научил нас в том, что касается построения карт, схем, таблиц и графиков, и, в общем и целом, задал нам направление на пути к созданию такой презентации, которая была бы читаемой, но и не недооценивала способность или желание читателя понимать и анализировать цифры.

Сайт был создано в Python и Django. Данные хранились в MongoDB – школьные данные неоднородны и иерархичны, поэтому они плохо подходят для реляционной базы данных (в противном случае мы, возможно, воспользовались бы PostgreSQL).

Мы также впервые в этом проекте экспериментировали со стандартами твиттеровского пользовательского интерфейса Bootstrap, и были довольны результатами. Схемы и графики чертились при помощи Flot.

В приложении также содержатся многочисленные материалы о работе школ, которые мы сами написали. То есть оно, приложение, играет некоторым образом роль портала – когда появляется новая история, новый материал о школьном образовании, мы поднимаем его наверх приложения и помещаем рядом со списком школ, имеющих отношение к этому материалу (а когда этот сюжет становится популярным и набирает много «хитов», читателей chicagotribune.com начинают перенаправлять уже на само приложение, а не на материал).

Согласно первым отзывам, читателям понравилось школьное приложение. Информация, которую мы получили в ходе обратной связи, носила и носит, в основном, позитивный характер (или, по крайней мере, конструктивный!), а количество просмотров страниц – зашкаливает просто выше крыши. В качестве бонуса стоит отметить то, что эти данные будут оставаться представляющими интерес целый год, так что хотя мы и ожидаем падения числа «хитов» на школьных сюжетах по мере того, как они будут исчезать с главной страницы, наш прошлый опыт показывает, что читатели возвращались к этому приложению в течение всего года.

Вот несколько ключевых идей, которые мы извлекли из этого проекта:

 Графический отдел – ваш друг. У них хорошо получается делать сложную информацию удобоваримой и доступной для понимания.

 Просите помощь ньюсрума, помощь всей редакции. Это уже второй проект, для которого мы проводим исследования и интервью в рамках всего ньюсрума, это отличный способ собрать мнения думающих людей, которые, как и наша аудитория, очень сильно различаются по своим исходным данным, по уровню и типу образования, и т.п., и обычно далеко не «на ты» с компьютером.

 Показывайте вашу работу! Большую часть ответной реакции для нас составили запросы на данные, а не на приложение. Мы сделали большую часть данных публично доступными через прикладной программный интерфейс, и вскоре мы выпустим материал, который изначально вообще не планировали включать в проект.

Брайан Бойер, Chicago Tribune

Выставление счетов в больницах

Рис 44. Kwashiorkor(California Watch)

Журналисты, занимающиеся расследовательской журналистикой в CaliforniaWatch, получили сведения о том, что крупная сеть больниц в Калифорнии, возможно, систематически обманывает федеральную программу Medicare, которая оплачивает медицинское лечение американцев в возрасте 65 лет и старше. Конкретно в том случае, о котором шла речь, говорилось о предполагаемой схеме под названием «завышение, проставление преувеличенных кодов», что означало, что в федеральную программу сообщалось, что у пациентов более серьезные случаи, и нужно более серьезное лечение, требующее более высокой материальной компенсации, чем это было на самом деле. Но главным источником этой информации был профсоюз, который боролся с руководством этой сети клиник, и команда CaliforniaWatch знала, что для того, чтобы сюжет вызывал доверие, необходимо независимое подтверждение информации из иных источников.

К счастью, у департамента здравоохранения Калифорнии были публично доступные записи, которые давали очень подробную информацию о каждом случае лечения во всех государственных больницах. Выборка из 128 случаев содержала 25 вариантов кодов диагноза из руководства под названием «Международная статистическая классификация болезней и проблем, связанных со здоровьем», известного также как ICD–9, который издает Всемирная организация здравоохранения (ВОЗ). И хотя пациентов в этих данных не указывали по имени, можно было узнать много косвенных данных, в том числе возраст пациента, как оплачивалось лечение и в какой конкретно больнице его или ее лечили. Журналисты поняли, что имея эти записи, они могут узнать, сообщали ли больницы, принадлежащие к вышеозначенной сети больниц, о случаях определенных заболеваний или диагнозах, значительно чаще, чем другие лечебные учреждения.

Объемы данных были большими; примерно по 4 миллиона записей в год, а журналисты хотели изучить и проанализировать временной период в 6 лет, чтобы увидеть, как ситуация менялась со временем (если менялась). Они затребовали данные у федеральной службы; данные поступили на СD, которые потом были легко скопированы в настольный компьютер. Журналист, который делал фактический анализ данных, воспользовался для работы с информацией системой под названием SASSAS – это очень мощный инструмент, позволяющий анализировать миллионы записей), он используется многими правительственными учреждениями, включая калифорнийский департамент здравоохранения, но этот инструмент дорог – такого же рода анализ можно было бы сделать при помощи любого другого инструмента по работе с базами данных, типа Microsoft Access или бесплатного MySQL.

Имея на руках данные, и программы, написанные для их изучения, мы могли легко начать искать похожие случаи. Например, в качестве одного из выдвинутых обвинений фигурировало то, что больницы сети сообщали о случаях выявления разной степени недоедания или неполноценного питания гораздо чаще, чем другие больницы. Используя SAS, специалист, занимавшийся анализом данных, извлек таблицы сравнения частоты встречаемости, которые показали, что в среднем в год каждая из калифорнийских больниц неотложной помощи и интенсивной терапии сообщала о более чем трехстах случаях недоедания или истощения. Таблицы частоты встречаемости были импортированы в Microsoft Excel для более пристального изучения записей по каждой из больниц; тут очень помогло умение Excel отсортировывать, фильтровать и считать исходные данные, что позволило легко обработать все данные.

Особенно бросались в глаза сообщения о состоянии пациентов, известном как квашиоркор (маразматический квашиоркор или детская пеллагра), синдром белковой недостаточности, который встречается практически исключительно у голодающих детей младшего возраста в охваченных проблемой голода развивающихся странах. А больницы из указанной сети сообщали о случаях диагностирования квашиоркора у пожилых калифорнийцев примерно в 70 раз чаще, чем в среднем все больницы штата.

По другим случаям мы использовали аналогичную технику анализа для изучения случаев сообщения о диагнозахтипа общей гнойной инфекции, энцефалопатии, злокачественной гипертензии и нарушения работы автономных нервных волокон. И в рамках еще одного анализа мы изучили обвинения в том, что больницы сети переводили необычайно высокий процент пациентов, обслуживавшихся по Medicare, из палат отделения интенсивной терапии в стационары – учитывая, что источники финансирования таких пациентов для больницы были более надежными, чем источники финансирования других больных, лежавших в интенсивной терапии.

Подводя итоги, можно сказать, что материалы, подобные вышеозначенным, стали возможны, когда мы начали использовать данные для предоставления доказательств, для того, чтобы независимым путем проверить обвинения, сделанные источниками, которые могут считаться заинтересованной стороной. Эти сюжеты также являются хорошим примером необходимости наличия сильных законов о публичном доступе к документам; причина, по которой властям нужно, чтобы больницы сообщали эти данные, заключается именно в том, чтобы можно было провести подобный анализ, и чтобы провести его мог кто угодно – и сами власти, и ученые, и следователи, и даже гражданские журналисты. Тема этих сюжетов очень важна, потому что в них изучается то, должным ли образом тратятся миллионы долларов государственных денег.

Стив Дойг, Школа журналистики Уолтера Кронкайта, Университет штата Аризона

Кризис домов престарелых

Рис 45. Частному уходу грозит кризис(Financial Times)

Расследование Financial Timesотрасли частных домов престарелых позволило вскрыть информацию о том, как некоторые инвесторы, работающие на рынке частных инвестиций, превратили уход за пожилыми людьми в машину для извлечения прибыли, и осветить проблему человеческих потерь в результате бизнес–модели, которая ставила во главу угла прибыль от инвестиций в ущерб хорошему и качественному уходу.

Анализ оказался очень своевременным, потому что финансовые проблемы организации «Южный Крест» (Southern Cross), тогда являвшейся крупнейшим в стране оператором домов престарелых, достигли критической стадии. Правительство десятилетиями продвигало курс на приватизацию в секторе заботы о пожилых людях, и продолжало расхваливать частный сектор в связи с его умелой бизнес–практикой.

Наше расследование началось с анализа данных, которые мы получили от британского регулятора, отвечающего за инспекции и проверки домов престарелых. Информация была публично доступной, но требовала большой настойчивости и упорства, чтобы получить данные в такой форме, которая будет пригодна для нормального использования.

Данные включали в себя рейтинги (ныне уже несуществующие) качества работы конкретных домов престарелых, и указание на то, являлись ли они частными, государственными или были под контролем некоммерческих организаций. Комиссия по качеству ухода (Care Quality Commission – CQC) вплоть до июня 2010 года присваивала домам престарелых тот или иной рейтинг по качеству их работы (от нуля, что соответствовало плохому качеству, до трех звездочек, что соответствовало отличному качеству).

Первый шаг потребовал масштабной очистки данных, так как данные, представленные Комиссией по качеству ухода, например, содержали распределение по категориям, которое не было универсальным. Эту часть работы мы делали, в основном, при помощи Excel. Мы также определили – при помощи кабинетного и телефонного исследований – владели ли теми или иными домами престарелых группы частных инвесторов. До финансового кризиса сектор ухода за пожилыми людьми служил мощным магнитом для инвесторов, но некоторые из них, такие как «Южный крест» — начали испытывать серьезные финансовые затруднения. Мы хотели установить, какое воздействие факт частного владения домом престарелых оказывал на качество ухода в нем.

Относительно незатейливый и не очень сложный набор подсчетов в Excel позволил нам установить, что дома престарелых, находившиеся в собственности государства или под управлением некоммерческих организаций, в среднем демонстрировали значительно лучшие результаты деятельности, чем аналогичные организации частного сектора. Некоторые группы частных инвесторов, владеющие домами престарелых, в среднем тоже показывали неплохие результаты, а остальные были значительно ниже среднего.

Вкупе с материалами с мест событий, конкретными примерами небрежного отношения к своим обязанностям и глубоким анализом ошибок в политике регулирующих органов, а также другими данными по уровню оплаты услуг, по обороту и т.п., наш анализ смог нарисовать картину подлинного положения дел в сфере ухода за пожилыми людьми.

Подсказки и практические советы:

 Убедитесь, что вы храните записи о том, что вы делаете с оригинальными данными.

 Сохраняйте копию оригинальных данных и никогда не вносите изменений в оригинал.

 Проверяйте и перепроверяйте данные. Осуществляйте анализ несколько раз (если нужно, то перепроверяйте с самого начала).

 Если вы упоминаете конкретные компании или конкретных частных лиц в своих материалах, дайте им право на ответную реакцию.

Синтия О'Мурчу, Financial Times

Откровенный телефон

Рис 46. Откровенный телефон(Zeit Online)

Большинство людей лишь чисто теоретически в курсе, что на самом деле можно сделать с данными, которые предоставляют наши мобильные телефоны; слишком мало было примеров из реального мира. Вот почему Мальте Спитц (Malte Spitz) из германской Партии зеленых решил опубликовать свои собственные данные. Чтобы получить доступ к информации, ему пришлось подать судебный иск против телекоммуникационного гиганта Deutsche Telekom. Эти данные стали основой для сопроводительной интерактивной карты ZEIT Online, содержались же они в массивном документе Excel. Каждая из 35 831 строчки файла представляла собой случай, когда мобильный телефон Спитца передавал информацию – это были данные за полугодовой период.

Если взглянуть на каждую из них в отдельности, то поодиночке они практически безвредны. Но если их взять все в совокупности, то получится, что все вместе они представляют собой то, что следователи называют профайлом, описанием, досье – четкую картину привычек и предпочтений конкретного лица, да и в целом, его или ее жизни. Этот профайл позволяет узнать все – когда Спитц шел вниз по улице, когда он сел на поезд, когда он был в самолете. Эта информация показывает, что в основном он работает в Берлине, а также рассказывает о том, какие города он посетил. Она рассказывает о том, когда он проснулся и когда заснул.

Чтобы проиллюстрировать то, сколь много подробности из чьей–то жизни можно извлечь из этих сохраненных данных, ZEIT Online «дополнил» информацию Спитца записями, к которым может получить доступ любой – твитами политика и его записями в блоге. В общем, прибавил все это к данным о его передвижениях. Это процесс такого рода, какой любой хороший следователь, вероятно, использует в отношении человека, находящегося под наблюдением. ZEIT Online решил не публиковать только одну часть записей Спитца, а именно, поименный список тех, кому звонил он и кто звонил ему. Такого рода информация не только нарушит тайну частной жизни многих людей, она также раскроет слишком много информации о Спитце, даже если номера телефонов зашифровать (но агенты спецслужб в реальном мире имели бы доступ к этой информации).

Нам было очень приятно работать с Лоренцом Матцатом (Lorenz Matzat) и Михаэлем Крейлем (Michael Kreil) из Open Data City над поиском решения, как понять и извлечь геолокационную информацию из набора данных. Для каждого соединения мобильного телефона Спитца мы произвели триангуляцию в зависимости от положения полюса антенны. У каждой антенны имеется три полюса, каждый из которых охватывает угол в 120 градусов. Два программиста выяснили, что сохраненное положение указывало направление от мачты, через которую мобильный телефон Спитца производил соединение.

Сопоставляя эти данные с положениями антенн, взятых с сайта государственного агентства, мы получили возможность узнать информацию о его положении в каждую из 260 640 минут того 181 дня, за которые у Спитца был отчет, и нанести эти данные через API на карту Google Map. Вместе с нашей собственной графическо–дизайнерской командой мы создали великолепный интерфейс для навигации: нажимая кнопку «play», можно было отправиться в путешествие по жизни Мальте Спитца.

После очень успешного запуска проекта в Германии, мы отметили, что он генерирует очень большой трафик из–за границы, и решили создать заодно и английскую версию приложения. Получив немецкую награду Grimme Online Award, проект был удостоен еще и награды ONA Award в сентябре 2011 года, это был первый подобный случай для немецкого новостного вебсайта.

Смотретьданные.

Читатьматериал.

Саша Венор, Zeit Online

Какой автомобиль выбрать? Рейтинг поломок от Минтранса

Рис 47. Рейтинг поломок от Министерства транспорта(BBC)

В январе 2010 года ВВС получила данных об автомобилях, прошедших и не прошедших тестыМинистерства транспорта, для разных марок и моделей машин. Это тест, который проводится для того, чтобы оценить, является ли автомобиль безопасным и пригодным для эксплуатации. Любой автомобиль в возрасте старше трех лет обязан проходить проверку Минтранса ежегодно.

Мы получили данные согласно правилу свободы информации после 18–месячной битвы с VOSA, агентством Министерства транспорта, которое отвечает за систему проверок Минтранса. Агентство VOSA поначалу отклонило наш запрос на предоставление данных по правилу свободы информации под предлогом, что это нарушит коммерческую конфиденциальность. Агентство заявило, что это может принести коммерческий ущерб производителям автотранспортных средств, у которых высокий рейтинг поломок. Однако мы подали апелляцию Комиссару по информации, который вынес решение о том, что раскрытие информации будет в интересах общественности. И только тогда VOSA предоставило данные, через 18 месяцев после того, как мы направили запрос об их предоставлении.

Мы проанализировали цифры, сконцентрировав внимание на наиболее популярных моделях и сравнив машины того же возраста. И тут были выявлены серьезные расхождения. Например, среди всех машин трехлетнего возраста 28% автомобилей Renault Mégane не прошли свои тесты Минтранса, по сравнению с всего 11% машин марки Toyota Corolla. Цифры были озвучены по телевидению, радио и в онлайне.

Данные были предоставлены нам в форме 1200–страничного PDF–документа, который нам потом пришлось конвертировать в таблицу, чтобы провести анализ. Вместе с нашими выводами мы опубликовали эту таблицу в Excel (с более чем 14 000 строками данных) на сайте ВВС News вместе с нашим сюжетом. Это дало всем остальным доступ к данным в приемлемой для обработки форме.

Результатом стало то, что другие потом использовали эти данные для своего собственного анализа, который у нас не было времени провести, так как мы спешили выдать сюжет побыстрее, или когда в некоторых случаях такой анализ превышал наши технические возможности на тот момент. Сюда входило и изучение рейтинга поломок для машин других возрастов, сравнение по производителям, а не по конкретным моделям, и создание удобных для поиска баз данных, в которых можно было просмотреть результаты по конкретным моделям. Мы добавили ссылки на эти сайты в наш онлайн–текст, так что наши читатели могли воспользоваться плодами этой дополнительной работы.

Это продемонстрировало ряд преимуществ публикации исходных данных вместе с построенным на этих данных сюжетом. Тут могут быть исключения (например, если вы планируете использовать данные для других последующих сюжетов позднее и хотите сохранить исходники для собственного использования на какое–то время), но в целом публикация исходных данных дает некоторые важные преимущества.

 Ваша работа заключается в том, чтобы найти информацию и рассказать о ней людям. Если вы столкнулись с проблемами в получении всех необходимых данных, это часть вашей работы, которую можно передать дальше.

 Другие люди могут найти и выделить определенные интересные моменты, которые вы упустили, или просто найти детали и подробности, которые имеют значение для них, даже если они оказались недостаточно важными для того, чтобы удостоиться освещения в вашем собственном сюжете.

 Другие могут построить на основе вашей работы дальнейшие изыскания, провести более подробный анализ данных или применить другую технику для предоставления и визуализации цифр, используя свои собственные идеи или технические навыки, которые могут дать возможность продуктивным образом обработать данные иными способами.

 Это часть процесса встраивания подотчетности и прозрачности в журналистский процесс. Другие могут при желании понять ваши методы и проверить вашу работу.

Мартин Розенбаум, BBC

Субсидирование автобусных перевозок в Аргентине

Начиная с 2002 года субсидирование общественного автобусного транспорта в Аргентине росло по экспоненте, каждый год ставя новые рекорды. Но в 2011 году, после победы на выборах, новое правительство Аргентины объявило о сокращении субсидирования коммунальных услуг начиная с декабря того же года.

В то же самое время национальное правительство решило передать управление и администрирование местных автобусных маршрутов и линий метро властям города Буэнос–Айреса. А так как вопрос с переводом субсидий этому местному правительству не был четко разрешен, а соответствующих местных фондов было недостаточно, чтобы гарантировать безопасность транспортной системы, власти города Буэнос–Айрес отклонили это решение.

Когда происходил этот процесс, мои коллеги в La Nación и я в первый раз встречались для того, чтобы обсудить, как нам начать работать в области журналистики данных. Наш редактор финансового отдела предложил начать с данных о субсидиях, публикуемых Министерством транспорта  — это стало бы хорошей проблемой, с изучения которой можно было бы начать, так как из этих данных очень сложно было извлечь смысл – из–за неудобного формата и непонятной терминологии.

Плохое состояние системы общественного транспорта влияет на жизнь более чем 5 800 000 пассажиров каждый день. Опоздания, задержки, забастовки, поломки транспорта и аварии происходят все чаще и чаще. Поэтому мы решили взглянуть на то, куда уходят деньги, выделяемые в Аргентине на субсидирование общественного транспорта, и сделать полученную информацию легко доступной для всех граждан Аргентины посредством нашего проекта «Исследователь транспортных субсидий» (Transport Subsidies Explorer), который сейчас продолжает наполняться информацией.

Рис 48. The «Исследователь транспортных субсидий» (Transport Subsidies Explorer)(La Nación)

Начали мы с того, что подсчитали, сколько автобусные компании получают каждый месяц от государства. Чтобы сделать это, мы просмотрели все данные, публикуемые на вебсайте Министерства транспорта, где мы нашли больше 400 PDF–файлов, содержащих информацию о ежемесячных денежных выплатах более чем тысяче тремстам компаний начиная с 2006 года.

Рис 49. Рейтинг субсидируемых транспортных компаний (La Nación)

Мы объединились со старшим программистом, чтобы разработать программу для автоматизации процесса регулярного скачивания и преобразования этих PDF–файлов в файлы Excel и баз данных. Получившийся в результате набор данных из более чем 285 000 записей мы используем в наших исследованиях и для визуализации информации, как в печатном виде, так и в режиме онлайн. Вдобавок, мы делаем эти данные доступными в машиночитаемом формате для каждого аргентинца, который может сам их использовать или поделиться ими с кем–то.

Следующим шагом было определить, в какую сумму обходилось властям ежемесячное содержание единицы общественного транспорта в среднем. Чтобы выяснить это, мы направились на другой правительственный вебсайт, сайт Национальной комиссии по транспортному регулированию ( Comisión Nacional de Regulación del Transporte  — CNRT), которая отвечает за регулирование транспортной отрасли в Аргентине. На этом сайте мы нашли список автобусных компаний, которые все вместе в совокупности владели 9 000 транспортных средств. Мы разработали нормализатор, чтобы сверить и согласовать между собой названия автобусных компаний и сделать перекрестные ссылки между двумя наборами данных.

Чтобы идти дальше, нам требовался регистрационный номер каждого транспортного средств. Мы нашли на сайте CNRT список автобусов каждой компании с их номерами. Регистрационные номера в Аргентине состоят из букв и цифр, которые соответствуют «возрасту» транспортного средства. Например, номер моей машины – IDF234, где I соответствует марту–апрелю 2011 года. Мы декомпилировали номера автобусов, принадлежащих всем компаниям из списка, чтобы выяснить средний возраст автобусов в той или иной компании, и тем самым показать, сколько денег идет каждой компании, и сравнить суммы со средним возрастом их парка транспортных средств.

Рис. 50. Сравнение возраста автобусного парка с суммами, которые соответствующие компании получают от властей. (La Nación)

В разгар этого процесса содержание выпущенных властями PDF–файлов с данными, которые были нам нужны, таинственным образом изменилось, хотя URL–ы и названия файлов остались теми же самыми. Что именно изменилось? А изменилось то, что в некоторых PDF–файлах исчезли вертикальные графы «всего», что сделало невозможным перекрестные проверки по всему исследуемому временному периоду, с 2002 по 2011 годы.

Мы вынесли этот вопрос на хакатон, организованный группой Hacks/Hackers в Бостоне, где разработчик Мэтт Перри (Matt Perry) щедро создал и поделился с нами приложением, которое мы назвали «PDF–шпион» (PDF Spy). Это приложение было отмечено в номинации «Самое интригующее» на этом мероприятии. «PDF–шпион» ( PDF Spy) обрабатывает веб–страницу с PDF–файлами и проверяет, изменилось ли содержание этих PDF–файлов. «Никого больше не обманет и не оставит в дураках «правительственная прозрачность», — отмечает Мэтт Перри.

Кто работал над проектом?

Команда из семи журналистов, программистов и интерактивного дизайнера трудилась над этим исследованием в течение 13 месяцев.

Опыт и навыки, которые нам требовались для этого проекта:

 Журналисты, знающие, как работает система субсидирования общественного транспорта, и каковы риски; журналисты, знакомые с рынком автобусных компаний.

 Программист, обладающий опытом в извлечении данных из интернета, их разборе и нормализации, извлечении информации из PDF–файлов и переводе их в таблицы Excel.

 Статистик для проведения анализа данных и различных подсчетов.

 Дизайнер для создания решений в области интерактивной визуализации данных.

Какие инструменты мы использовали?

Мы использовали в нашем «Исследователе субсидий» VBasic для приложений, макросы в Excel, Tableau Public и Junar Open Data Platform, а также Ruby on Rails, инструмент Google Сhart API и Mysql.

Проект оказал большое влияние. У нас были зафиксированы десятки тысяч просмотров, и расследование было отмечено на первой странице печатной версии La Nación.

Успех этого первого проекта в области журналистики данных помог нам на внутреннем уровне создать прецедент такой работы с данными, которая охватывала бы область расследовательской журналистики и предоставляла новый сервис общественности. Результатом этого стало появление Data.lanacion.com.ar, платформы, где мы публикуем данные по различным представляющим интерес для общественности данным в машиночитаемом формате.

Ангелика Перальта Рамос, La Nación, Аргентина

Журналисты, занимающиеся данными о гражданах

Рис 50. Проект в области гражданской журналистики под названием «Друзья Януарии» (Friends of Januária) обучает ключевым навыкам, превращая граждан в журналистов данных (Friends of Januária)

Большие редакции и ньюсрумы – не единственные, кто может работать над сюжетами, создаваемыми на основе данных. Те же самые навыки, которые полезны для журналистов, занимающихся журналистикой данных, также могут помочь гражданским журналистам получить доступ к данным об их родной местности, об их районе, и превратить их в сюжеты.

Это было основной мотивацией проекта в области гражданской журналистики под названием «Друзья Януарии» ( Friends of Januária) в Бразилии, который получил грант от организации Rising Voices, подразделения Global Voices Online, и дополнительную поддержку от организации Article 19. В период с сентября по октябрь 2011 года группа молодых жителей небольшого городка, расположенного на севере штата Минас–Жерайс, который является одним из беднейших районов Бразилии, обучалась основам журналистской техники и училась заниматься мониторингом бюджета. Они также научились тому, как делать запросы в рамках свободного доступа к информации и как получать публично доступную информацию из официальных баз данных в интернете.

Януария, город с населением примерно в 65 000 жителей, также известен неудачами своих местных политиков. За три четырехлетних срока у него было семь разных мэров. Почти все из них были убраны со своих постов из–за злоупотреблений и правонарушений на государственной службе, включая обвинения в коррупции.

Маленькие городки, такие как Януария, часто остаются вне зоны внимания бразильских средств массовой информации, которые концентрируют свое внимание, в основном, на крупных городах и столицах штатов. Однако существует возможность для жителей маленьких городов стать потенциальными союзниками в деле мониторинга деятельности государственной администрации, потому что они знакомы с повседневными проблемами, которые встают перед их общинами, лучшем чем кто бы то ни было. А используя интернет в качестве еще одного важного союзника, жители теперь имеют возможность получать более качественный и легкий доступ к разной информации, такой как бюджет и иные местные данные.

Приняв участие в двенадцати семинарах, некоторые из новоявленных гражданских журналистов из Януарии начали демонстрировать, как эту концепцию использования публично доступных данных в небольших городках можно воплотить на практике. Например, Сорайя Аморим (Soraia Amorim), 22–летняя жительница города и гражданская журналистка, написала статью о количестве врачей, которые получают в городе государственную зарплату, согласно данным федерального правительства. Однако она раскопала, что официальное количество не совпадает с реальной ситуацией в городе. Чтобы написать эту статью, Сорайя воспользовалась доступом к данным о системе здравоохранения, которые доступны в режиме онлайн на вебсайте системы здравоохранения SUS ( Sistema Único de Saúde or Unique Health System, это федеральная программа, которая предоставляет бесплатную медицинскую помощь населению Бразилии. По данным SUS, в Януарии должен был быть 71 врач разных специальностей.

Количество докторов, которое указывала система SUS, не соответствовало тому, что Сорайя сама знала о врачах в своем районе: жители всегда жаловались на нехватку врачей, а некоторым пациентам приходилось для визита к врачу ездить в соседние города. Позднее она взяла интервью у женщины, которая недавно попала в мотоциклетную аварию, и не смогла найти помощь в больнице Януарии, потому что там не было врача. Она также пообщалась с местным министром здравоохранения, который признал, что в городе меньше врачей, чем должно быть по данным SUS.

Эти первоначальные открытия и выводы ставят много вопросов о причинах такой разницы между официальной информацией, публикуемой онлайн, и городской действительностью. Один из вариантов позволяет предполагать, что это может объясняться тем, что федеральные данные неверны, что может означать факт нехватки важной информации о системе здравоохранения в Бразилии. Или другая возможность – может быть, это Януария сообщает некорректную или неверную информацию в SUS. Обе эти вероятности требуют более глубокого расследования для поиска окончательного ответа. Однако, история Сорайи является важной частью данной цепочки, потому что она подчеркивает несоответствие и может также сподвигнуть других более пристально взглянуть на эту проблему.

«Я привыкла жить в сельской местности и закончила школу с большими трудностями», — говорит Сорайя. «Когда люди спрашивали меня, что я хочу делать в жизни, я всегда говорила им, что хочу быть журналисткой. Но я представляла себе, что это практически невозможно – из–за того мира, в котором я жила». После того, как она приняла участие в обучающей программе «Друзей Януарии», Сорайя теперь верит, что доступ к данным является важным инструментом, который может помочь изменить действительность в ее городе. «Я чувствую себя способной изменить мой город, мою страну, весь мир», — добавляет она.

Еще один гражданский журналист из проекта – 20–летний Элиссон Монтьеритон (Alysson Montiériton), который тоже использовал данные для статьи. Это было во время первого курса проекта, когда гражданские журналисты бродили по городу в поисках объектов, которые могли бы стать сюжетами, именно тогда Эллисон решил написать о сломанном светофоре, расположенном на очень важном перекрестке, который не работал уже с начала года. Узнав, как искать информацию в интернете, он нашел данные о количестве транспортных средств в городе, и о суммах налогов, уплачиваемых теми, кто владеет машинами. Он написал:

«Обстановка в Януарии становится хуже из–за большого числа транспортных средств в городе. По данным IBGE (самое важное статистическое исследовательское учреждение в Бразилии), в Януарии в 2010 году было 13 771 транспортное средство (из которых 7 979 – мотоциклы)… Жители города уверены, что задержка с починкой светофора не является результатом нехватки средств. По данным министра финансов штата Минас–Жерайс, в 2010 году город получил 470 000 реалов в виде транспортных налогов».

Имея доступ к данным, Эллисон смог показать, что в Януарии много транспорта (почти одно транспортное средство на каждые пять жителей), и что сломанный светофор может подвергнуть опасности многих людей. Более того, он смог рассказать своей аудитории о сумме финансовых средств, полученных городом в виде налогов, уплачиваемых владельцами транспортных средств, и на основании этого задаться вопросом, неужели этих средств недостаточно, чтобы починить светофор, чтобы создать безопасные условия для водителей и пешеходов.

Хотя эти две истории, описанные Сорайей и Эллисоном, очень простые, они показывают, что данные могут быть использованы гражданскими журналистами. Вам не нужно сидеть в большом ньюсруме с кучей специалистов, чтобы использовать данные в ваших статьях и иных материалах. После двенадцати семинаров Сорайя и Эллисон, а они оба никогда ранее не имели никакого отношения к журналистике, смогли начать работать над основанными на данных сюжетами и написать интересные статьи о ситуации на их местном уровне. Вдобавок, их статьи показывают, что сами данные могут быть полезны даже в малом масштабе. Другими словами, что ценная информация есть даже в небольших наборах данных и маленьких таблицах, а не только в огромных базах данных.

Аманда Росси, Friends of Januária

Демонстрационное табло по результатам выборов

Результаты выборов предоставляют отличные возможности для визуального рассказа для любой информационной организации, но многие годы эти возможности нами упускались. В 2008 году мы и графическая служба решили это изменить.

Мы хотели найти способ отобразить результаты, которые будут рассказывать историю, и при этом нам не казалось хорошей идея о простых цифрах в таблице или на карте. И на предыдущих выборах именно это мы и сделали.

Не хочу сказать, что обязательно есть что–то неправильное в больших массивах цифр, или в том, что я называю «моделью CNN» — таблицах, таблицах и еще раз таблицах. Это работает, потому что это дает читателю именно то, что он или она хотят знать: кто победил.

А опасность испортить что–либо, что не является фундаментальным образом испорченным, весьма значительна. Сделав что–нибудь радикально отличное и отойдя от того, что люди ожидают получить, мы могли сделать все еще более приводящим в заблуждение, а не менее.

В конце концов Шэн Картер (Shan Carter) из графической службы нашел верное решение, которое мы в конечном итоге назвали «демонстрационным табло» ( «big board»). Когда я в первый раз увидел макет, это было, образно говоря, словно удар по голове – вот оно!

Это было абсолютно верно.

Что делает этот проект великолепным примером визуальной журналистики? Начать с того, что взгляд читателя незамедлительно падает на большую плашку, показывающую голоса коллегий выборщиков, в самом верху, в журналистике мы называем это лидом. Он говорит читателю ровно то, что он хочет знать, и делает это быстро, просто и без излишнего визуального «шума».

Потом внимание читателя переключается на группу из пяти столбцов по штатам ниже, организованным исходя из того, как тот или иной штат, согласно прогнозу The Times, должен был проголосовать за того или иного кандидата. В среднем столбце находится то, что на журналистском сленге мы могли бы назвать «нат–графом» — параграфом, который объясняет новостную ценность сюжета – здесь мы объясняем, почему Обама выиграл. Интерактивное представление ясно показывает: Обама взял все штаты, которые ожидалось, что он возьмет, плюс четыре из пяти тех штатов, где у кандидатов были одинаковые шансы.

Для меня эта пятистолбцовая конструкция является примером того, чем визуальная журналистика отличается от других форм дизайна. В идеале значительная часть визуальной журналистики будет одновременно и красивой, и информативной. Но когда приходится делать выбор между сюжетом, сутью, и эстетической составляющей, журналист должен склоняться в сторону сути. И хотя эта раскладка, возможно, и не является тем способом, который выбрал бы чистый дизайнер для представления данных, она очень, очень хорошо рассказывает историю, которую должна рассказывать.

И наконец, как любой хороший, качественный веб–интерактив, этот проект приглашает читателя пойти глубже. Тут есть такие детали, как проценты голосования по штатам, число голосов выборщиков и проценты, преднамеренно убранные подальше, чтобы не конкурировать с основными моментами сюжета.

Все это делает «демонстрационное табло» отличным примером визуальной журналистики, который почти бесподобно отображает проверенную временем, показавшую свою надежность на практике и хорошо себя зарекомендовавшую перевернутую пирамиду.

Арон Пилхофер, New York Times

Привлечение больших групп людей (краудсорсинг) для определения цены на воду

С марта 2011 года информация о цене воды из–под крана по всей Франции собирается посредством краудсорсингового эксперимента. Всего за четыре месяца более 5 000 человек, уставших от корпоративного контроля рынка воды, потратили свое время на то, чтобы просмотреть свои счета за воду, отсканировать их и загрузить на сайт проекта «Цена воды» ( Prix de l’Eau). Результатом стало беспрецедентное расследование, которое свело вместе частных энтузиастов, неправительственные организации и традиционные СМИ, в целях решения задачи увеличения степени прозрачности проектов в области водоснабжения.

Французский рынок водоснабжения состоит более чем из 10 000 клиентов (городов, закупающих воду для распространения среди своих налогоплательщиков) и всего нескольких коммунальных компаний. Баланс сил в этой олигополии смещен в сторону корпораций, которые порой выставляют разные цены соседним городам!

Рис 51. Цена воды (Фонд France Liberté)

Французская неправительственная организация France Libertés занимается вопросами воды в мировом масштабе последние 25 лет. Сейчас она концентрирует свое внимание на улучшении прозрачности на французском рынке и поддержке и повышении возможностей для граждан и мэров, принимающих участие в переговорах о водоснабжении. Французское правительство решило заняться проблемой два года назад с общенациональной переписи, сбора данных о стоимости и качестве воды. На данный момент собрано только 3% данных. Чтобы процесс шел быстрее, France Libertésрешила напрямую вовлечь граждан в этот процесс.

Вместе с командой OWNI я создал краудсорсинговый интерфейс, куда пользователи могут заливать свои отсканированные счета за воду и вводить цену, которую они платят за воду из–под крана —  prixdeleau.fr(«цена воды»). За прошедшие 4 месяца 8 500 человек зарегистрировались на сайте и более 5 000 счетов было загружено и проверено.

И хотя это не позволяет дать четкую оценку ситуации на рынке, собранные данные показали игрокам на этом рынке, таким как национальные надзорные органы, призванные следить за ситуацией на рынке воды и водоснабжения, что существует настоящая озабоченность на низовом уровне такой проблемой, как цена воды из–под крана. Поначалу они скептически отнеслись к прозрачности, но по ходу процесса изменили мнение, прогрессивным образом присоединившись к France Libertés в ее борьбе против непрозрачности и корпоративных злоупотреблений. Что могут извлечь для себя из этого СМИ?

Партнерство с неправительственными организациями

Неправительственным организациям требуются большие объемы данных, чтобы создавать программные документы. Они будут более склонны платить за процессы сбора данных, чем руководства газет.

Пользователи могут предоставить исходный материал

Краудсорсинг работает лучше всего, когда пользователи занимаются сбором данных или решают задачу обработки и очистки данных.

Просите предоставить источник

Мы обдумывали и взвешивали вопрос, просить ли пользователей сканировать оригинальные счета, полагая, что такая просьба может удержать некоторых из них от сотрудничества (особенно учитывая, что наша целевая аудитория была старше среднего возраста). И хотя некоторых это требование действительно удержало, оно, тем не менее, увеличило степень достоверности и надежности собранных данных.

Создайте механизм обоснования и легализации

Мы создали целевую систему и механизм экспертной оценки и дружественной проверки, для осмотра и исследования вкладов пользователей. Это оказалось слишком сложным и витиеватым для пользователей, которым не хотелось повторно заходить на сайт. Однако это было использовано командой France Libertés, десять или около того сотрудников которой чувствовали себя более мотивированными системой баллов.

Делайте все просто

Мы создали автоматический почтовый механизм, чтобы пользователи могли составить запрос о свободе информации в отношении цен на воду посредством всего нескольких кликов. И хотя этот механизм был инновационным и хорошо сконструированным, данная система не обеспечила достаточного числа откликов (только сто запросов было отправлено).

Достигайте вашей целевой аудитории

France Libertés вступила в партнерские отношения с журналом о правах потребителей 60 Millions de Consommateurs, который включил свою аудиторию в этот процесс. Это стало идеальным решением для подобной операции.

Внимательно выбирайте ключевые индикаторы

Проект собрал только 45 000 посетителей за 4 месяца, что эквивалентно 15 минутам трафика на, например, сайт nytimes.com. Что действительно важно, так это то, что каждый пятый посетитель зарегистрировался, и каждый десятый потратил время на то, чтобы отсканировать и загрузить свой счет за коммунальные услуги.

Николас Кайзер–Бриль, Journalism++

Получение данных

Итак, вы готовы приступить к вашему первому проекту в сфере журналистики, посвященной данным. С чего следует начать? В первую очередь вам потребуются какие–то данные. В данном разделе рассказывается, где вы их можете найти. Вы научитесь искать данные в Интернете, запрашивать их, пользуясь законодательством о свободе информации, «выскребать данные с экрана» при сборе данных из неструктурированных источников, использовать методы «привлечения общественности» для сбора необходимых данных у ваших читателей. Мы узнаем, что говорит законодательство о публикации наборов данных, и научимся использовать простые правовые инструменты, которые позволят другим лицам вновь использовать ваши данные. А в конце данного раздела мы познакомимся с некоторыми смешными и не очень рассказами о том, через что пришлось пройти нашим авторам, чтобы получить те данные, которые они искали.

Краткий справочник

Рис 52. datacatalogs.org(Open Knowledge Foundation)

Ищите данные по конкретной теме или вопросу? Не знаете, какие данные имеются и где их найти? Не знаете, с чего начать? В данном разделе мы узнаем о том, с чего начинать поиск открытых источников информации в сети.

Направьте ваш поиск в нужное русло

Многие базы данных в Интернете, даже те, которые бывает трудно найти, проиндексированы поисковиками, причем независимо от того, хотел их издатель того или нет. Вот несколько подсказок по поиску:

 При поиске данных убедитесь, что вы ввели в поисковый запрос как термины, относящиеся к содержанию данных, которые вы хотите найти, так и некоторую информацию, относящуюся к формату или источнику, в котором, как вы ожидаете, находятся эти данные. Например, вы можете искать только таблицы (дополняя ваш поисковый запрос указателями типов файлов «filetype:XLS filetype:CSV»), географические данные («filetype:shp») или выдержки из баз данных («filetype:MDB, filetype:SQL, filetype:DB»). Если вы захотите, вы можете искать даже PFD–файлы («filetype:pdf»).

 Также можно вести поиск по части URL–адреса. Введя в запрос при поиске в Google «inurl:downloads filetype:xls», вы будете искать файлы Excel, в веб–адресе которых есть слово «downloads» (если вы найдете всего один загружаемый файл, зачастую имеет смысл проверить, какие имеются другие результаты для той же папки на веб–сервере). Вы также можете ограничить свой поиск отдельным доменным именем, задав в условиях поиска, например, «site:agency.gov».

 Еще одним популярным способом является поиск не непосредственных результатов, а тех мест, в которых могут находиться данные. Например, введение в условия поиска запроса «site:agency.gov Directory Listing» приведет к тому, что вы получите некоторые созданные веб–сервером списки, предоставляющие удобный доступ к исходным файлам, в то время как запрос «site:agency.gov Database Download» выдаст в результатах специально созданные списки.

Поиск по сайтам и сервисам баз данных

В последние годы в Интернете появился ряд посвященных базам данных порталов, хабов и других сайтов, на которых вы можете ознакомиться с хранящимися там данными. Для начала вы можете обратить внимание на следующие из них:

 Официальные порталы данных.

 Различные страны по разному относятся к раскрытию тех или иных баз данных. Все больше стран запускают порталы данных (вдохновляемые такими сайтами, как американский data.gov или английский data.gov.uk) для предоставления возможности гражданскому обществу и коммерческим организациям пользоваться предоставляемой властями информацией. На ресурсе datacatalogs.orgвы сможете найти самый актуальный глобальный перечень таких сайтов. Еще одним удобным сайтом является Guardian World Government Data, поисковик, включающий в себя большое количество каталогов баз данных, публикуемых иностранными правительствами.

The Data Hub

 Ресурс, поддерживаемый фондом «Открытая информация» (Open Knowledge Foundation), который способствует легкому поиску, обмену и использованию открытых доступных источников данных, в частности, благодаря автоматизации данных процессов.

ScraperWiki

 Онлайн–инструмент, облегчающий «извлечение полезных битов данных, которые затем могут использоваться в других приложениях или внимательно изучаться журналистами и исследователями». Большая часть «скребков» и собираемых ими баз данных находятся в открытом доступе и могут свободно использоваться.

 Порталы данных Всемирного банкаи Организации Объединенных Нацийсодержат высококачественную информацию обо всех странах, зачастую за много лет.

 Появился ряд новых проектов, преследующих своей целью построить сообщества вокруг обмена данными и их перепродажи. К ним относятся, например, Buzzdata, — место, посвященное обмену частными и открытыми базами данных и сотрудничеству в данной сфере, и такие магазины данных, как Infochimps, и DataMarket.

DataCouch — Место, куда вы можете загрузить свои данные, обработать их, поделиться ими или визуализировать их.

 Интересный проект Google Freebaseпредлагает «сущностной график людей, мест и вещей, созданный сообществом, любящим открытые данные».

 Исследование данных.

 Многочисленные национальные или отраслевые агрегаторы исследовательских данных, такие как, например, UK Data Archive. В то время как многие данные являются бесплатными, существует также большое количество баз данных, для использования которых необходима подписка или которые не могут использоваться или распространяться без предварительного разрешения.

Поиск на форумах

Вы можете поискать ответы на вопросы других пользователей или задать свой вопрос на таких ресурсах, как Get The Dataили on Quora. GetTheData — это сайт вопросов и ответов, на котором вы можете задавать вопросы, связанные с базами данных, в т. ч. о том, где можно найти данные, относящиеся к конкретному вопросу, как следует строить поисковые запросы или извлечь какой–то конкретный источник данных, какие инструменты использовать для наглядного исследования базы данных, как очистить базу данных или преобразовать ее в формат, с которым вы сможете работать.

Поиск в списках рассылок

Списки рассылок сочетают в себе знания целого сообщества по какому–то конкретному вопросу. Для журналистов, занимающихся изучением данных, ресурсы Data Driven Journalism Listи the NICAR–Lявляются превосходными отправными точками. Среди подписчиков этих списков — большое количество журналистов, занимающихся данными, и поклонников компьютезированных отчетов (Computer Assisted Reporting (CAR)), работающих над самыми разными проектами. Вполне возможно, что кто–то уже занимался вопросом, подобным вашему, и имеет представление, с чего нужно начинать, или даже знает, где взять необходимые данные. Также можно посетить ресурсы Project Wombat(«место обсуждения трудных вопросов»), списки рассылок фонда Open Knowledge Foundation, списки рассылок на сайте theInfo, или самостоятельно провести поиск списков рассылок по интересующей вас теме или региону.

Присоединиться к сообществу Hacks/Hackers

Hacks/Hackers  — это быстро развивающаяся международная общественная журналистская организация, располагающая десятками отделений и тысячами членов на четырех континентах. Ее миссия заключается в создании сети журналистов («hacks») и технических специалистов («hackers»), которые изменяют будущее новостей и информации. Шансы на то, что в такой широкой сети профессионалов вы сможете найти человека, знающего, где можно найти то, что вы ищете, довольно высоки.

Спросить эксперта

Преподаватели, государственные служащие и представители той или иной отрасли зачастую знают, где необходимо искать то, что нужно. Позвоните им. Напишите им по электронной почте. Подойдите к ним на каком–нибудь мероприятии. Придите к ним в офис. Вежливо спросите. «Я пишу статью о том–то и том–то. Вы не знаете, где я могу найти такую информацию? Может быть, Вы знаете, у кого она может быть?»

Узнайте побольше об IT–структуре органов власти

Понимание технических и административных условий, в которых органы власти хранят свою информацию, часто оказывается полезным при поиске доступа к данным. Будь то CORDIS, COINS или THOMAS — все эти базы данных, название которых состоит сплошь из прописных букв, зачастую становятся более полезными после того, как вы чуть больше узнаете о том, зачем они были созданы.

Найдите схемы структурной организации правительства и поищите в них департаменты/подразделения, исполняющие сходные функции (например, отчетность, IT–услуги), а затем изучите их веб–сайты. Многочисленные ведомства ведут многочисленные базы данных, и в то время как одни из них берегут свои данные как зеницу ока, другие могут поделиться ими с вами совершенно бесплатно.

Обратите внимание на динамичную инфографику на правительственных сайтах. В основе этих элементов нередко лежат структурированные источники данных/API (интерфейсы программирования приложений), которые могут быть использованы самостоятельно (например, приложения расписаний авиарейсов или java–приложения прогнозов погоды).

Снова проведите поиск, используя фразы и самые невероятные наборы слов, с которыми вы столкнулись с момента последнего поиска

Когда вы знаете больше о том, что вы ищете, у вас больше шансов получить от поисковиков нужный результат!

Напишите запрос на основании законодательства о свободе информации

Если вы считаете, что у какого–либо ведомства имеются необходимые вам данные, то наилучшим способом их получения может оказаться запрос на основании законодательства о свободе информации. Далее мы познакомимся с информацией о том, как следует составлять такой запрос.

Брайан Бойер (Chicago Tribune), Джон Киф (WNYC), Фридрих Линденберг (Open Knowledge Foundation), Джейн Парк (Creative Commons), Крис Ву (Hacks/Hackers)

Ваше право на данные

Рис 53. What Do They Know?(My Society)

Перед составлением запроса на основании законодательства о свободе информации следует проверить, не являются ли искомые данные уже доступными и не запрашивали ли их какие–либо иные лица. В предыдущей главе высказываются некоторые предположения о том, где следует искать такую информацию. Если вы уже провели поиск, но так и не смогли найти или получить необходимые данные, вы можете подать официальный запрос. Предлагаем вашему внимание некоторые советы, которые помогут сделать ваш запрос более эффективным.

Планируйте заранее для экономии времени

Думайте о подаче официального запроса на получение доступа всегда, когда вы начинаете поиск информации. Не стоит ждать, пока вы не исчерпаете все остальные возможности. Вы сэкономите время, подав запрос в начале своих поисков и параллельно ведя свои расследования. Будьте готовы к задержкам: иногда официальные органы берут время на обработку запросов, поэтому следует быть готовым к такому варианту развития событий.

Изучите информацию о пошлинах

Перед подачей запроса изучите информацию о пошлинах как за подачу запроса, так и за получение информации. В таком случае, если какой–либо чиновник вдруг попросит у вас деньги, вы будете осведомлены о своих правах. Вы можете попросить документы в электронном виде, чтобы избежать расходов за их копирование и отправку по почте. Упомяните в своем запросе, что вы хотели бы получить информацию в электронном формате. Это поможет вам избежать оплаты пошлин, если только, конечно, нужная вам информация не существует в электронном виде, хотя в наши дни обычно всегда имеется возможность отсканировать еще не оцифрованные документы и затем отправить их по электронной почте.

Изучите свои права

Перед подачей запроса изучите свои права, чтобы узнать, на что вы можете рассчитывать и что органы власти должны, а что не должны делать для вас. Например, большинство законов о свободе информации предоставляют органам власти определенное время на ответ. В большинстве законов по всему миру этот срок варьируется от нескольких дней до одного месяца. Вам следует узнать об этом сроке перед подачей запроса и запомнить дату его подачи.

Власти не обязаны обрабатывать данные для вас, однако они обязаны предоставить их вам, если они ими располагают. Если они обязаны иметь эти данные для выполнения предусмотренных законом обязанностей, то они, конечно, должны их вам предоставить.

Сообщите о том, что вы знаете свои права

Законодательство обычно не требует, чтобы вы упоминали о законах о доступе к информации или о свободе информации, однако это рекомендуется, т. к. это показывает вашу осведомленность о своих законных правах и может способствовать правильной обработке вашего запроса в соответствии с законом. Мы отмечаем, что при подаче запросов в ЕС важно упомянуть, что ваше заявление является запросом на получение доступа к информации, и что лучше особо упомянуть Положение 1049/2001.

Запрос должен быть простым

Во всех странах для начала лучше всего подать простой запрос на получение информации, и затем, после получения первоначальной информации, задавать дополнительные вопросы. В этом случае вы снижаете риск того,что официальное учреждение продлит срок обработки запроса, мотивируя это его сложностью.

Запрос должен быть сфокусированным на конкретной теме

Запрос на получение информации, имеющейся в распоряжении какого–то одного подразделения органа власти, может быть удовлетворен быстрее, чем запрос, требующий поиска информации по всему органу власти. Запрос, для удовлетворения которого органу власти придется консультироваться с третьими сторонами (например, с частной компанией, предоставившей информацию, или с другим государственным органом), может обрабатываться гораздо дольше. Будьте настойчивы.

Изучайте ситуацию изнутри

Пытайтесь анализировать предоставленные данные. Например, если вы получили чистую копию формы, заполняемой полицией после дорожных происшествий, то вы можете узнать, какую информацию об авариях полиция записывает, а какую опускает.

Будьте конкретны

Перед подачей запроса подумайте, не может ли он быть двояко истолкован? Это особенно важно, если вы планируете сравнивать данные, полученные от разных государственных органов. Например, если вы попросите статистику за последние три года, один орган власти может предоставить вам данные за три последних календарных года, а другой — за три последних финансовых года, и вы не сможете напрямую сравнить эти данные. Если вы решите спрятать ваш реальный запрос за более общим, этот общий запрос должен быть достаточно обширным, чтобы охватить необходимую вам информацию, и в то же время не слишком обширным, чтобы он не потерял ясности и не вызывал нежелания отвечать на него. На конкретные и четкие запросы обычно поступают более быстрые и качественные ответы.

Подавайте несколько запросов одновременно

Если вы не знаете, куда подавать запрос, ничто не мешает вам подать запрос в два, три или более органа одновременно. Может получиться так, что разные органы дадут вам разные ответы, но это на самом деле тоже может оказаться полезным, так как поможет вам составить более полную картину о наличии информации по исследуемому вами вопросу.

Подавайте запросы в органы власти других стран

Все в большем количестве случаев запросы могут подаваться в электронном виде, поэтому сейчас не важно, где вы живете. Либо, если вы живете не в той стране, в которой хотите подавать запрос, вы можете направить запрос в посольство этой страны, которое должно передать запрос в соответствующий государственный орган. Однако предварительно вам следует уточнить в посольстве, готово ли оно сделать это — иногда сотрудники посольств не знакомы с аспектами прав на информацию и если дело обстоит именно так, будет надежнее подавать запрос непосредственно в соответствующий государственный орган.

Подавайте «тестовые» запросы

Если вы планируете отправить один и тот же запрос в несколько ведомств, сначала отправьте первоначальный вариант запроса в качестве проверки. Это покажет вам, используете ли вы правильную терминологию для получения необходимой информации, и могут ли быть предоставлены ответы на ваши вопросы, и в случае необходимости вы сможете изменить запрос перед отправкой его в другие органы.

Будьте готовы к ограничениям

Если вы считаете, что к вашему запросу могут быть применены ограничения, то при подготовке запроса отделите вопрос о потенциально секретной информации от запроса остальной информации, которая по здравому смыслу не должна подпадать под какие–либо ограничения. Разделите ваш вопрос на две части и подайте два отдельных запроса.

Запрашивайте доступ к документам

Если вы живете в той местности, где находится требуемая вам информация (например, в столице, где хранятся документы), вы также можете попросить предоставить вам доступ к оригиналам документов. Это может быть полезно при изучении информации, хранящейся в большом количестве документов, которые необходимо просмотреть для ее поиска. Такой доступ должен быть бесплатным и должен быть предоставлен в разумное и удобное для вас время.

Ведите записи!

Подавайте запрос в письменном виде и храните у себя его копию или квитанции, чтобы в будущем вы могли доказать, что вы действительно отправляли запрос, если вам придется обращаться в вышестоящие инстанции или в суд в случае отсутствия ответа. Эти бумаги также послужит доказательством подачи запроса, если вы планируете писать об этом статью.

Уведомляйте общественность

Ускоряйте процесс получения ответа, распространяя информацию о подаче запроса: если вы напишите статью или сообщите в эфире о том, что вы подали запрос, это может подтолкнуть государственный орган к обработке запроса и предоставлению ответа на него. Вы можете обновить информацию сведениями о том, когда был получен ответ и был ли он получен вообще — и в случае отсутствия ответа по истечении крайнего срока вы можете сделать из этого факта информационное сообщение. Подобные действия несут также дополнительную пользу, информируя представителей общественности об их правах на доступ к информации и о том, как это осуществляется на практике.

Кроме того, существует ряд прекрасных интернет–сервисов, которые можно использовать при подаче запроса и получении ответов, такие, как What Do They Know?для государственных органов Соединенного Королевства, Frag den Staatдля государственных органов Германии и Ask the EUдля учреждений ЕС. Проект Alaveteliпомогает предоставлять похожие сервисы в десятках стран по всему миру.

Привлекайте коллег

Если ваши коллеги скептически относятся к ценности запросов на получение доступа к информации, лучший способ убедить их в обратном — написать статью с использованием информации, полученной на основании законов о праве на доступ к информации. Также рекомендуется упоминать в конце статьи или репортажа о том, что вы использовали законодательство о праве на информацию — это будет способствовать приданию большего веса данному закону и повысит осведомленность общества о нем.

Запрашивайте «сырые» данные

Если вы хотите проанализировать, исследовать или обработать данные с использованием компьютерных программ, вам следует ясно запросить эти данные в электронном, машиночитаемом формате. Вы можете уточнить в запросе, например, что вы запрашиваете бюджетную информацию в формате, «подходящем для анализа с помощью бухгалтерского программного обеспечения». Вы также можете ясно запросить информацию в «дезагрегированной» или «гранулированной» форме. Поближе с данными аспектами вы можете ознакомиться в этом отчете.

Поиск информации об организациях, не подпадающих под действие законов о свободе информации

Вам, возможно, захочется узнать побольше о НПО, частных компаниях, религиозных и других организациях, которые не обязаны предоставлять информацию по законам о свободе информации. Однако вы можете найти информацию о них, запросив государственные органы, на которые распространяется действие законов о свободе информации. Например, вы можете направить запрос в государственный департамент или министерство, которые финансировали или вели дела с конкретной частной компанией или НПО, и запросить соответствующие документы. Если вам нужна дополнительная информация о запросах на основании законодательства о свободе информации, вы можете посетить ресурс Legal Leaks toolkit for journalists(Набор инструментов «Легальные утечки» для журналистов).

Хелен Дарбишир (Access Info Europe), Джорджи Падейски (получатель стипендии им. Джона Найта в области журналистики, Стэнфордский университет), Мартин Розенбаум (BBC) и Фабрицио Скроллини (Лондонская школа экономики и политических наук).

«WOBBING» Работает. используйте его!

«Wobbing» — так еще иногда называют использование законодательства о свободе информации — является прекрасным инструментом. Однако его применение требует наличия методики и, зачастую, настойчивости. В данном разделе я приведу три примера возможностей и проблем «воббинга», с которыми я сталкивался, ведя журналистские расследования.

Рис 54. The Farm Subsidy website (Farmsubsidy.org)

Пример 1 Фермерские субсидии

Каждый год ЕС выплачивает почти 60 млрд. евро фермерам и фермерским хозяйствам. Каждый год. Эта практика началась в конце 1950–х годов, и политики всегда говорили, что эти субсидии помогают нашим беднейшим фермерам. Однако первая информация, полученная в Дании в 2004 году на основании законодательства о свободе информации, показала, что все это только разговоры. Мелкие фермеры часто жаловались в приватных разговорах и в СМИ, что они с трудом выживают, а большая часть субсидий на самом деле шла горстке крупных землевладельцев и в сельское хозяйство. И я, что вполне объяснимо, захотел узнать: а как обстоят дела в других странах Европы?

Летом 2004 года я запросил данные в Европейской Комиссии. Каждый год в феврале Комиссия получает данные от государств–членов ЕС. Эти данные показывают, кто обращается в ЕС с просьбами о финансировании, сколько средств они получают и на что они их расходуют: на фермерские хозяйства, на развитие своего региона или на экспорт порошкового молока. В тот период времени Комиссия получала данные в формате CSV–файлов на компакт–дисках. Огромное количество данных, но, в принципе, с ними легко работать. Конечно, только если вы сможете их получить.

В 2004 году Комиссия отказалась предоставить данные, главным аргументом было то, что данные загружаются в базу данных, и для их извлечения потребуется проделать большую работу. Такие аргументы европейский уполномоченный по правам человека называл плохим администрированием. Все документы по данному делу вы сможете найти на веб–сайте wobbing.eu. Тогда, в 2004 году, мы не хотели разбирать правомерность таких действий. Нам были нужны данные.

И мы объединились с партнерами по всей Европе, чтобы получить данные по каждой конкретной стране. Наши коллеги из Англии, Швеции и Нидерландов получили данные в 2005 году. Финляндия, Польша, Португалия, регионы Испании, Словения тоже раскрыли эти данные. Даже в Германии, очень неохотно раскрывающей свои данные, я добился успеха и получил некоторые данные в земле Северный Рейн–Вестфалия в 2007 году. Чтобы получить данные, мне пришлось идти в суд — однако в результате я опубликовал неплохие материалы в журнале Stern.

Было ли совпадением то, что Дания и Соединенное Королевство первыми открыли свои данные? Нет, не было. Охватывая взглядом всю политическую картину того времени, фермерские субсидии следует рассматривать в контексте переговоров в ВТО, в которых субсидии подвергались давлению. Дания и Соединенное Королевство являются наиболее либеральными странами Европы, и политические ветры в этих странах вполне могли дуть в направлении прозрачности.

Однако данная история на этом не закончилась, с другими эпизодами и данными можно ознакомиться на сайте farmsubsidy.org.

Выводы: Занимайтесь «воббингом». Законы о свободе информации разных стран Европы сильно отличаются друг от друга, кроме того, разные страны преследуют разные политические интересы в разные времена. И из этого бывает вполне возможно извлечь пользу.

Пример 2 Побочные эффекты

Когда речь идет о лекарствах, мы все выступаем в роли подопытных кроликов. У лекарств имеются побочные эффекты. Мы все это знаем и стремимся взвешивать потенциальную пользу и потенциальные риски, и уже после этого принимаем решение. К сожалению, очень часто эти решения принимаются на основании недостаточной информации.

Когда подростки принимают таблетку от прыщей, они надеются получить гладкую кожу, а не плохое настроение. Однако именно такой эффект имело одно лекарство, и молодые люди впадали в депрессию и даже совершали самоубийства после его приема. Однако опасность этого конкретного побочного эффекта — вполне очевидную для журналистов — было не так–то просто подтвердить.

Существуют данные о побочных эффектах. Производители должны регулярно предоставлять органам здравоохранения информацию о наблюдаемых побочных эффектах. Эти данные хранятся у национальных или европейских властей после выхода лекарства на рынок.

Первая информация была снова получена на национальном уровне в Дании. В ходе международного расследования, проводившегося журналистами из Дании, Нидерландов и Бельгии, были также получены данные в Нидерландах. Еще один пример «воббинга»: нашей работе очень помог тот факт, что мы сообщили нидерландским властям о том, такие данные доступны в Дании.

Дело обстояло именно так: в Европе в результате приема этого лекарства молодые люди пытались совершать самоубийства и, к сожалению, некоторые из них погибли. Журналисты, исследователи и родственники молодых жертв прилагали все усилия к тому, чтобы получить доступ к этой информации. Европейский уполномоченный по правам человека помогал добиваться прозрачности Европейского агентства лекарственных средств, в результате у него это получилось. После этого задача журналистов заключается в том, чтобы получить данные и внимательно изучить имеющиеся материалы. «Кто мы, — спросил один исследователь, — подопытные кролики или голос механизма контроля?»

Выводы: Не удовлетворяйтесь ответом «нет», когда речь идет о прозрачности. Будьте настойчивы и не переставайте следить за ходом событий. Ситуация может измениться и с течением времени вы можете получить данные, которые не могли получить вначале.

Пример 3 Контрабанда смерти

Новейшая история принесла много горя целым народам, особенно в результате войн и в переходные времена. Как журналисты могут добыть печальные данные, если — например — те люди, которые получали прибыли в ходе войн минувшего десятилетия, сейчас находятся у власти? Именно такую задачу поставила перед собой группа журналистов из Словении, Хорватии и Боснии.

Эта команда решила заняться расследованием торговли оружием в бывшей Югославии в период действия эмбарго ООН в начале 1990–х годов. В основе работы лежали документы парламентских расследований по данному вопросу. Чтобы задокументировать маршруты поставок и раскрыть схему торговли, необходимо было отслеживать средства перевозки по номерам судов в портах и по номерным знакам грузовиков.

Парламентские комиссии Словении не раз проводили расследования по вопросу получения прибылей в ходе балканских войн, однако они так и не пришли к какому–то определенному выводу. Вместе с тем был получен ряд очень ценных документов, с которых был снят гриф секретности, и данных, в т. ч. 6000 страниц документов, которые были добыты словенской командой по запросу в рамках законодательства о свободе информации.

В этом случае данные было необходимо извлекать из документов и сортировать по базам данных. Пополняя имевшиеся данные новыми данными, результатами аналитики и исследований, журналисты смогли установить большое количество каналов незаконной торговли оружием.

Команда добилась успеха, получены уникальные результаты, которые уже принесли команде ее первую награду. Самым важным является тот факт, что данный случай имеет отношение к целому региону и может послужить примером для журналистов из других стран, через которые также проходили смертоносные грузы.

Выводы: Ищите «сырые» материалы в самых неожиданных местах и объединяйте их с данными, находящимися в открытом доступе.

Бриджит Алфтер, Journalismfund.eu

Получение данных из сети

Вы уже испробовали все, но так и не смогли получить те данные, которые вы ищете. Вы нашли данные в Интернете, но, увы, их не удалось ни скачать, ни скопировать. Не стоит отчаиваться, возможно, еще есть способы, с помощью которых можно получить то, что вам нужно. Например, вы можете:

 Получить данные с помощью размещенных в сети API, например, с помощью интерфейсов, предоставляемых онлайновыми базами данных и многими современными веб–приложениями (в т. ч. такими, как Twitter, Facebook и многие другие). Это просто фантастический способ получения доступа к государственным или коммерческим данным, а также к данным на сайтах социальных СМИ.

 Извлечение данных из PDF–файлов. Это достаточно трудно, так как PDF является языком, разработанным для принтеров, и он содержит лишь малое количество информации о данных, отображенных в документе. Извлечение данных из PDF–файлов лежит за пределами этой книги, однако вы легко сможете найти инструменты и инструкции, которые помогут вам научиться этому.

 Выскребание» информации с экрана. В ходе «выскребания» информации с экрана вы извлекаете структурированный контент из обычной веб–страницы с помощью утилиты («скребка») или небольшого кусочка кода. Хотя этот метод является весьма эффективным и может применяться в большом количестве случаев, он требует понимания того, как устроен Интернет.

Помня о всех этих замечательных технических возможностях, помните об одном простом варианте: зачастую бывает проще потратить еще немного времени на поиск файла с машиночитаемыми данными или позвонить в учреждение, в котором хранятся необходимые вам данные.

В данном разделе мы рассмотрим самый простой пример «выскребания» данных из веб–страницы в формате HTML.

Что такое машиночитаемые данные?

Цель всех упомянутых методов заключается в получении машиночитаемых данных. Машиночитаемые данные создаются для их обработки компьютером, а не для их презентации пользователю–человеку. Структура таких данных связана с содержащейся в них информацией, а не с тем, как они представляются пользователю на экране. Примеры легких машиночитаемых форматов включают в себя файлы CSV, XML, JSON и Excel, в то время как такие форматы, как документы Word, страницы HTML и файлы PDF служат больше для визуального представления информации. Например, PDF — это язык, который создан непосредственно для принтера, он несет информацию главным образом о положении линий и точек на странице, а не об отдельных символах.

«Выскребание» веб–сайтов: зачем?

Каждый из вас делал это: попав на веб–сайт и увидев интересную таблицу, вы пытались скопировать ее в Excel, чтобы поработать с ней или сохранить для дальнейшего использования. Однако это получается далеко не всегда, бывает и так, что нужная вам информация разбросана по большому количеству сайтов. Копировать данный вручную бывает очень утомительно, поэтому имеет смысл применить для данной процедуры кое–какой код.

Преимущество «выскребания» заключается в том, что вы можете применить этот метод практически на любом сайте — от прогнозов погоды до правительственных расходов, даже если на этом сайте нет API для доступа к сырым данным.

Что можно и что нельзя выскрести

Конечно, в процессе «выскребания» существуют некоторые ограничения. К факторам, затрудняющим «выскребание» данных с сайта, относятся:

 Плохо отформатированный HTML–код, содержащий минимальное количество информации или не содержащий ее вовсе, например, старые сайты государственных органов.

 Системы аутентификации, созданные для предотвращения автоматического доступа, например, введение кодов (CAPTCHA) или взимание оплаты.

 Системы, отслеживающие по файлам cookies браузера, чем занимается пользователь в ходе данной сессии.

 Отсутствие полного перечня элементов и возможности поиска с использованием групповых символов.

 Блокирование масштабного доступа администраторами сервера.

Кроме того, существуют правовые ограничения: в некоторых странах признаются права на базы данных, которые могут ограничивать ваше право на использование информации, опубликованной в Интернете. В некоторых случаях вы можете проигнорировать эти положения и воспользоваться такой информацией — в зависимости от вашей юрисдикции вы можете обладать особыми правами как журналист. «Выскребание» свободно доступных официальных данных должно быть разрешено, но вы можете захотеть перепроверить их перед публикацией. Коммерческие организации и некоторые НПО менее терпимо относятся к «выскребанию» данных и могут подать жалобу на то, что вы «препятствуете» работе их систем. Использование другой информации может нарушать права физических лиц на неприкосновенность личной жизни и, таким образом, нарушать законы о неприкосновенности личной жизни или профессиональную этику.

Инструменты, помогающие в «выскребании» данных

Существует множество программ, с помощью которых можно извлекать массивы данных с веб–сайтов, в т. ч. дополнения для браузеров и определенные веб–сервисы. В зависимости от вашего браузера автоматизировать выполнение некоторых утомительных задач вам помогут такие инструменты, как Readability(который помогает извлекать из веб–страницы текст) или DownThemAll(который помогает загружать несколько файлов одновременно), а приложение для браузера Chrome Scraper extensionбыло разработано специально для извлечения таблиц из веб–сайтов. Такие дополнения, как FireBug(для Firefox, оно же уже включено в Chrome, Safari и IE), позволят вам точно определить, как организован веб–сайт и какие коммуникации осуществляются между вашим браузером и сервером.

Веб–сайт ScraperWikiпоможет вам встроить коды «скребков» в программы, написанные на различных языках, в т. ч. на Python, Ruby и PHP. Если вы хотите начать выскребать данные без утомительного настраивания программ на вашем компьютере, то это именно то место, которое вам нужно посетить. Произвести сбор данных с других веб–сайтов вам могут также помочь такие сервисы, как Google Spreadsheets and Yahoo! Pipes.

Как работает веб–скребок?

Веб–скребки представляют собой небольшие куски кодов, написанные на различных языках программирования, например, на Python, Ruby или PHP. Выбор языка зачастую зависит от того, каким языком пользуется ваше окружение: если кто–либо в вашем ньюсруме или городе уже работает с одним из этих языков, то вам имеет смысл выбрать тот же язык.

Несмотря на то, что на первых порах могут пригодиться и упомянутые выше инструменты «выскребания», действующие по принципу «щелкни мышкой и укажи», истинная сложность в процессе «выскребания» данных с веб–сайта заключается в указании нужных страниц и нужных элементов на этих страницах с тем, чтобы в результате получить именно ту информацию, которая вам необходима. Задача заключается не в изучении программирования, а в понимании структуры конкретного веб–сайта и базы данных.

Показывая веб–сайт, ваш браузер практически всегда будет использовать две технологии: HTTP (это способ общения с сервером, необходимый для запроса конкретных ресурсов, например, документов, изображений или видео) и HTML (это язык, на котором строятся веб–сайты).

Анатомия веб–страницы

Структура любой HTML–страница представляет собой иерархию контейнеров (которые задаются HTML–тэгами). Большой контейнер содержит в себе множество более мелких — например, таблицу, которая делится на более мелкие элементы: ряды и ячейки. Существует множество видов тегов, которые выполняют разные функции — некоторые создают контейнеры, другие оформляют таблицы, изображения или рисунки. Тэги могут иметь дополнительные свойства (например, они могут быть уникальными идентификаторами) и могут делиться на группы, называемые классами, что предоставляет возможность находить и захватывать определенные элементы в документе. Выбор необходимых элементов и извлечение их содержания играют определяющую роль в написании «скребка».

При просмотре элементов веб–страницы все ее содержимое может быть разбито на контейнеры внутри контейнеров.

Для «выскребания» веб–страниц вам необходимо узнать немного побольше о различных типах элементов, которые могут встречаться в HTML–документе. Например, элемент <table> охватывает всю таблицу, которая содержит в себе элементы <tr> (строка таблицы), которые формируют строки, а строки, в свою очередь, имеют элементы <td> (данные таблицы) для каждой ячейки. Наиболее часто вы будете сталкиваться с элементом <div>, который, по сути, обозначает какой–либо блок контента. Легче всего понять эти элементы можно, используя панель разработчикавашего браузера, которая позволит вам посмотреть, из чего состоит код, лежащий в основе той или иной части веб–страницы.

Тэги работают как разделители, обозначая начало и конец определенного блока. Например, <em> означает начало выделенного курсивом текста, а тэг </em> означает конец этого блока. Все просто.

Рис 55. The International Atomic Energy Agency’s (IAEA) portal (news.iaea.org)

Пример: сбор информации о происшествиях в ядерной отрасли с использованием кода на языке Python

NEWS  — это портал Международного агентства по атомной энергии (МАГАТЭ), посвященный происшествиям в ядерной отрасли по всему миру (и являющийся уверенным кандидатом в члены Клуба роковых названий!). На этой веб–странице происшествия представлены в виде простого, похожего на блог списка, который может быть легко извлечен.

Для начала создайте новый «скребок» на языке Python на сайте ScraperWiki, в результате чего вы получите почти пустую область текста, в которой будет находиться только вспомогательный код. В другом окне откройте браузер, откройте там сайт МАГАТЭи затем откройте в этом браузере панель разработчика. В режиме просмотра «Элементы» попытайтесь найти HTML–элементы заголовка одной из новостей. Панель разработчика браузера помогает связывать элементы веб–страницы с лежащим в их основе HTML–кодом.

Изучая эту страницу, вы поймете, что заголовки являются элементами <h4>, находящимися внутри элемента <table>. Каждое событие — это строка <tr>, которая также содержит описание и дату. Если мы хотим извлечь заголовки всех событий, мы должны найти способ, который позволит нам последовательно выбрать каждую строку таблицы и извлечь из них текст, находящийся внутри элементов, обозначающих заголовки.

Чтобы преобразовать этот процесс в код, мы должны понять для себя все все его шаги. Чтобы лучше понять, что это за этапы, давайте сыграем в простую игру. В окне ScraperWiki попробуйте написать для себя индивидуальные инструкции по каждому шагу, который вы собираетесь сделать в ходе написания этого «скребка», наподобие пунктов в кулинарном рецепте (отбейте каждую строку хэш–кодом, чтобы дать понять языку Python, что это не настоящий компьютерный код). Например:

# Просмотреть все строки в таблице

# Unicorn не должен выходить за левый край

Постарайтесь быть как можно более точным и не предполагайте, что программа что–либо знает о странице, которую вы пытаетесь «выскрести».

Теперь, когда вы написали свой первый псевдо–код, давайте сравним его с реальным кодом нашего первого «скребка»:

import scraperwiki

from lxml import html

В этой первой части мы импортируем имеющийся функционал из библиотек — кусочки ранее написанных кодов. scraperwiki предоставит нам возможность скачивать веб–сайты, а lxml является инструментом структурного анализа HTML– документов. Хорошая новость: если вы пишете код «скребка» на языке Python с помощью сайта ScraperWiki, эти две строки всегда будут одинаковыми.

url = »http://www–news.iaea.org/EventList.aspx»

doc_text = scraperwiki.scrape(url)

doc = html.fromstring(doc_text)

Далее код вводит имя (переменную): url и в качестве его значения устанавливает URL–адрес страницы МАГАТЭ. Это говорит «скребку» о том, что такой объект существует, и что мы хотим уделить ему внимание. Обратите внимание, что URL–адрес находится в кавычках, так как он является не частью программного кода, а строкой, последовательностью символов.

Затем мы используем переменную url в качестве вводной для функции scraperwiki.scrape. Эта функция будет выполнять некую определенную работу — в данном случае она будет загружать веб–страницу. Когда эта работа будет выполнена, ее результаты будут переданы другой переменной, doc_text. doc_text теперь будет содержать актуальный текст веб–сайта — не тот, который вы видите в браузере при посещении страницы, а исходный код, включая теги. Так как осуществлять структурный анализ такого текста не совсем просто, мы используем другую функцию, html.fromstring, для создания особого представления, в котором мы можем легко находить элементы, так называемую объектную модель документа (document object model, DOM).

for row in doc.cssselect(»#tblEvents tr»):

link_in_header = row.cssselect(»h4 a»).pop()

event_title = link_in_header.text

print event_title

На этом последнем этапе мы используем DOM для поиска каждой строки в нашей таблице и извлечения из нее заголовка события. Здесь используются две новые концепции: петля и выбор элементов (.cssselect). Петля делает то, что и подразумевается ее названием: она обходит список блоков, назначая каждому из них временное имя (в данном случае это строки) и затем выполняет для каждого из них намеченные действия.

Вторая новая концепция, выбор элементов, использует специальный язык для поиска элементов в документе. Для добавления к HTML–элементам информации о их расположении обычно используются CSS–селекторы, и их же можно использовать для точного отбора этих элементов на странице. В данном случае (строка 6) мы выбираем #tblEvents tr, вследствие чего каждый тэг <tr> в элементе таблицы будет сопоставляться с ID tblEvents (хэш здесь просто обозначает ID). В результате мы получим список элементов <tr>.

То же мы наблюдаем и в следующей строке (строка 7), в которой мы применяем другой селектор для поиска всех тэгов <a> (обозначающих гиперссылку) внутри <h4> (заголовок). Здесь мы хотим искать только один элемент (в каждой строке имеется только один заголовок), поэтому мы должны извлечь его из вершины списка, созданного нашим селектором с помощью функции .pop().

Обратите внимание, что некоторые элементы в DOM содержат настоящий текст, т. е. текст, не являющийся частью языка разметки, который мы можем извлечь, воспользовавшись кодом [element].text, размещенным в строке 8. И, наконец, в строке 9 мы направляем этот текст в консоль ScraperWiki. Если вы теперь запустите ваш «скребок», то в меньшем по размеру окошке начнут появляться названия событий с сайта МАГАТЭ.

Рис 56. A scraper in action (ScraperWiki)

Вы видите работу простейшего «скребка»: он загружает веб–страницу, преобразует ее в DOM и затем предоставляет вам возможность выбирать и извлекать определенные элементы. На основе данного шаблона вы можете попробовать решить остальные вопросы, используя документацию ScraperWiki и языка Python:

 Можно ли найти адрес ссылки, находящейся в заголовке каждого события?

 Можно ли выбрать небольшой контейнер, который содержит дату и место, используя CSS–имя его класса, и затем извлечь текст этого элемента?

 ScraperWiki предлагает небольшую базу данных для каждого «скребка», в которую вы можете сохранить ваши результаты (код), скопируйте соответствующий пример из документов ScraperWiki и адаптируйте его так, чтобы он сохранял названия, ссылки и даты событий.

 Список событий включает в себя много страниц, можно ли осуществить наш поиск по всем страницам, чтобы получить информацию и о старых событиях?

Когда вы будете решать эти проблемы, изучите ScraperWiki: в имеющихся на этом ресурсе «скребках» можно найти много полезных примеров, а зачастую и довольно интересных данных. Таким образом, вам не обязательно создавать свой «скребок» с нуля: просто выберите подходящий и адаптируйте его под свои задачи.

Фридрих Линденберг, Open Knowledge Foundation

Сеть как источник данных

Как можно узнать больше о том, что существует только в Интернете? Будь то адрес электронной почты, веб–сайт, изображение или статья в Википедии — в данной главе я расскажу вам об инструментах, которые помогут вам получить больше информации об этих элементах.

Веб–инструменты

Для начала назовем некоторые сервисы, с помощью которых можно узнать больше информации о веб–сайтах в целом.

Whois

Если вы посетите сайт whois.domaintools.com(или просто введете whois www.example.comв приложении Terminal.app, если вы работаете на компьютере Mac), вы получите базовую регистрационную информацию практически о любом сайте. В последние годы некоторые владельцы выбирают «приватную» регистрацию, которая не позволяет просматривать их данные, однако в большинстве случаев вы увидите имя, адрес, электронную почту и номер телефона лица, зарегистрировавшего сайт. Вы также можете ввести цифровой IP–адрес и получить данные об организации или физическом лице, являющихся владельцами этого сервера. Это особенно удобно, когда вы пытаетесь получить больше информации о лицах, которые, например, нарушают условия пользования каким–либо сервисом, так как большая часть веб–сайтов регистрирует IP–адрес своих посетителей.

Blekko

Поисковый движок Blekkoпредлагает необычно большой объем информации о внутренней статистике, которую он собирает в Интернете. Если вы введете доменное имя, и дополните его сочетанием «/seo», вы получите страницу с информацией об этом адресе. В первой табличке на Рис 57показано, какие другие сайты ссылаются на данный домен (в порядке популярности). Это может оказаться полезным, когда вы хотите понять, какое освещение получает сайт, и если вы хотите понять, почему он занимает высокие места в результатах поиска Google, так как эти результаты основываются именно на этих ведущих на сайт ссылках. Рис 59показывает, какие другие сайты размещаются на той же машине. Мошенники и спамеры нередко придают законный вид своей деятельности, создавая многочисленные сайты, которые ссылаются друг на друга. Внешне они выглядят как независимые домены и могут даже иметь разные регистрационные данные, однако зачастую они размещаются на одном и том же сервере, так как это значительно дешевле. Эта статистика позволит вам заглянуть внутрь скрытой бизнес–структуры исследуемого вами сайта.

Рис 57. The Blekko search engine (Blekko.com)

Рис 58. Understanding web popularity: who links to who? The other handy tab is »Crawl stats», especially the »Cohosted with» section. (Blekko.com)

Рис 59. Spotting web spammers and scammers (Blekko.com)

Compete.com

Ресурс Compete.comзанимающийся опросом мнений американских потребителей, составляет подробную статистику использования большого количества сайтов, и некоторые из основных данных предоставляются бесплатно. Выберите вкладку «Site Profile» и введите доменное имя ( Рис 60). В результате вы увидите график трафика сайта за последний год, данные о количестве посетителей и частоте посещений (см. Рис 61). Так как в основе получаемых данных лежат опросы, эти данные являются приблизительными, однако, когда у меня появлялась возможность сравнить их с внутренними аналитическими данными, я понимал, что они являются довольно точными. В частности, их можно принимать во внимание при сравнении между собой двух сайтов, т. к., несмотря на отсутствие абсолютных цифр для этих сайтов, они хорошо показывают относительную разницу в их популярности. Данный ресурс исследует только американских потребителей, поэтому данные по большей части иностранных сайтов будут довольно бедными.

Рис 60. Compete.com’s site profile service (Compete.com)

Рис 61. What’s in vogue? What’s in demand?: hotspots on the web (Compete.com)

Google’s Site Search

Функция, которая может оказаться чрезвычайно полезной, когда вы хотите исследовать содержание какого–либо конкретного домена — это ключевое слово «site:». Если вы добавите фразу «site:example.com» к вашему поисковому запросу, Google покажет только те результаты, которые находятся на указанном вами сайте. Вы можете еще больше сузить запрос, указывая префикс тех страниц, которые вас интересуют, например, «site:example.com/pages/», в результате чего вам будут показаны, отвечающие этому конкретному запросу. Это может оказаться полезным при поиске информации, которая находится в открытом доступе, но которая не рекламируется владельцами домена, поэтому выбор правильных ключевых слов может привести к обнаружению очень важной для вас информации.

Веб–страницы, изображения и видео

Иногда у вас может возникнуть желание исследовать активность, связанную с отдельным материалом, а не со всем веб–сайтом. Описанные далее инструменты помогут вам под разными углами посмотреть на то, как люди читают, комментируют, копируют и делятся контентом в Интернете.

Bit.ly

Я всегда пользуюсь bit.ly, когда я хочу узнать, как люди делятся друг с другом какой–то конкретной ссылкой. Чтобы воспользоваться сервисом, введите интересующий вас URL–адрес и щелкните по ссылке «Info Page+». В результате вы перейдете на страницу с полной статистикой (хотя вам может понадобиться нажать сначала «aggregrate bit.ly link», если вы зарегистрированы в этом сервисе). Вы сможете понять, насколько популярной является страница, включая ее обсуждение в Facebook и Twitter, а ниже вы увидите разговоры об этой ссылке, предоставленные сервисом backtype.com. Это сочетание данных о трафике и разговоров бывает весьма полезным, когда необходимо понять причины популярности сайта или страницы, а также узнать, кем именно являются их фанаты. Например, благодаря этим данным я получил весомые доказательства того, что преобладающие комментарии относительно низов и Сары Пэйлин были ошибочны.

Twitter

С бурным ростом популярности сервиса микроблогов он становится все более полезным в качестве показателя того, как люди делятся тем или иным контентом и что они о нем говорят. Получить результаты обсуждений какой–либо ссылки подозрительно легко. Вы просто вставляете интересующую вас ссылку в строку поиска, после чего вам может понадобиться только нажать «more tweets» (больше твитов), чтобы получить полный список результатов.

Кэш поисковика Google

Если страница становится причиной недовольства или конфликтов, издатель может решить удалить или изменить ее без признания данного факта. Если вы подозреваете, что происходит именно это, то прежде всего необходимо обратиться к кэшу Google, в котором эта страница хранится с момента последнего обхода Интернета поисковиком. Частота обходов постоянно возрастает, поэтому больше всего шансов получить желаемое будет в течение нескольких часов после предполагаемых изменений. Введите нужный URL в строку поиска, затем нажмите двойную стрелку, появляющуюся справа от результата для данной страницы. Появится окно предварительного просмотра, над которым, если вам повезет, будет ссылка «Сохраненная копия». Щелкните по ней, чтобы посмотреть сделанный поисковиком Google снимок страницы. Если вы сталкиваетесь с проблемами при загрузке, вы можете переключиться на более простую текстовую страницу, щелкнув по соответствующей ссылке вверху сохраненной страницы. Рекомендуется сделать скриншот или скопировать нужный вам контент, т. к. содержание кэша может измениться в любой момент в результате создания новых копий после очередного обхода.

Веб–сервис «Машина прошлого» проекта Архив Интернета

Если вы хотите знать, как изменялась конкретная страница на протяжении длительного периода времени, например, на протяжении месяцев или лет, вы можете воспользоваться веб–сервисом The Wayback Machine(Машина прошлого) проекта Internet Archive (Архив Интернета), который с определенной периодичностью делает снимки наиболее популярных страниц сети. Вы идете на сайт проекта, вводите адрес, который вы хотите изучить, и если в системе хранятся копии этой страницы, то вам будет показан календарь, на котором вы сможете выбрать нужный вам период времени. После этого вам будет показано, как выглядела страница в тот момент. Зачастую на страницах будут отсутствовать элементы стиля или изображения, однако и остального бывает вполне достаточно, чтобы понять, каков был основной контент страницы в прошлом.

Просмотр исходного кода

Это может отнять много времени, однако разработчики нередко оставляют комментарии или другую информацию в HTML–коде страницы. В любом браузере, пусть и в разных местах меню, имеется функция просмотра исходного кода, которая позволяет просматривать HTML–код. Вам не обязательно понимать, что означают машиночитаемые участки кода, просто просматривайте куски текста, которые нередко бываютраскиданы между ними Даже если это просто уведомления об авторском праве или имена разработчиков, эта информация может дать важные подсказки о создании и предназначении страницы.

TinEye

Иногда вам может понадобиться информация об источнике изображения, однако без сопроводительного текста такую информацию бывает трудно добыть с помощью традиционных поисковых движков, таких, как, например, Google. Сервис TinEyeосуществляет «обратный поиск изображений», т. е. вы предоставляете изображение, а он находит в Интернете другие изображения, похожие на предоставленное вами. Т. к. в процессе сравнивания используется распознавание изображений, результат можно получить, даже если копия была обрезана, деформирована или сжата. Этот сервис может оказаться очень полезным, если вы подозреваете, что изображение, которое выдается как оригинальное или новое, таковым не является, кроме того, этот сервис может привести вас к реальному источнику изображения.

YouTube

Щелкнув значок «Статистика» в нижнем правом углу любого видео, вы получите богатый набор информации об аудитории этого видео на протяжении определенного времени. Несмотря на то, что предоставляемая информация не является полной, она может оказаться полезной для понимания состава зрителей, того, откуда и когда они приходят.

Адреса электронной почты

При изучении адресов электронной почты вам зачастую хочется узнать больше о личности и местоположении отправителя. Хороших готовых инструментов для этого не существует, однако очень полезно обладать базовыми знаниями о скрытых заголовках, входящих в состав каждого электронного письма. Они работают как почтовые марки и могут раскрыть неожиданный объем информации об отправителе. В частности, они часто включают в себя IP–адрес компьютера, с которого было отправлено письмо, что напоминает функцию определителя номера в телефонном аппарате. Вы можете изучить этот адрес с помощью сервиса whois, чтобы найти информацию об организации, которой принадлежит этот компьютер. Если окажется, что владельцем является какой–нибудь крупный интернет–провайдер вроде Comcast или AT&T, вы можете посетить ресурс MaxMind, чтобы узнать приблизительное местоположение этого адреса. Чтобы посмотреть эти заголовки в Gmail, откройте письмо, затем откройте меню рядом с кнопкой «Ответить» в верхнем правом углу и выберите «Показать оригинал». Откроется новая страница, на которой будет показано скрытое содержимое. В начале письма будет пара десятков строк, представляющих собой слова с двоеточиями. Нужный вам IP–адрес может находиться где–то среди них, однако его название будет зависеть от того, откуда было отправлено это электронное письмо. Если оно было отправлено с Hotmail, имя будет выглядеть как «X–Originating–IP:», но если оно было отправлено из Outlook или Yahoo, имя будет находиться в первой строке и начинаться со слова «Received:». Проверка адреса с помощью сервиса whois показала, что он принадлежит компании Virgin Media, интернет–провайдеру из Великобритании, а после проверки с помощью сервиса геолокации MaxMind я выяснил, что письмо было отправлено из моего родного города Кембридж. Т. е. я небезосновательно могу быть уверенным в том, что это письмо было отправлено моими родителями, а не какими–нибудь самозванцами!

Тенденции

Если вы ведете расследование по какой–то широкой теме, а не по отдельному сайту или статье, вам может пригодиться пара инструментов.

Трафик статей Википедии

Если вы хотите знать, как менялся со временем общественный интерес к лицу или какой–то теме, на сайте stats.grok.se/вы можете получить данные о просмотре любой из страниц Википедии день за днем. Этот сайт немного сыроват и не доделан, однако он позволит вам получить необходимую информацию, приложив лишь толику усилий. Введите интересующее вас имя, чтобы получить информацию о месячном трафике этой страницы. Там будет график, показывающий, сколько раз в день просматривали данную страницу на протяжении выбранного месяца. К сожалению, за один раз вы можете посмотреть данные только за один месяц, поэтому, чтобы отследить более долгосрочные изменения, вам будет нужно выбрать новый месяц и задать новый поиск.

Сведения о поиске в Google

Вы можете получить ясное представление о поисковых предпочтениях пользователей с помощью сервиса Insights from Google. Введите пару распространенных поисковых фраз, например, «Justin Bieber» и «Lady Gaga», и вы увидите график, отображающий количество поисков на временной шкале. Сервис предлагает различные варианты представления данных, позволяет просматривать их по регионам или получать больше данных по тому или иному периоду. Единственный недостаток — отсутствие абсолютных показателей, вы получаете только относительные значения в процентах, которые бывает сложно интерпретировать.

Рис 62. Google Insights (Google)

Пит Уорден, независимый разработчик и аналитик данных.

Краудсорсинг данных на сервисе guardian datablog

Краудсорсинг, согласно Википедии  — это «распределенный процесс решения производственных задач, который предусматривает передачу этих задач для решения широкой общественности». Далее предлагаем вам информацию, полученную в ходе интервью, взятого у Саймона Роджерса, на тему о том, как сервис Datablog газеты Guardian использовал краудсорсинг для освещения скандала, связанного с расходами членов парламента, проблемы употребления наркотиков и темы документов Сары Пэйлин.

Рис 63. A redacted copy of Stephen Pound’s incidental expenses (The Guardian)

Может случиться так, что у вас окажется огромное количество файлов, статистических документов и отчетов, которые просто невозможно обработать в одиночку. Или имеющиеся у вас материалы не открываются или имеют не тот формат, и вы ничего не можете с этим поделать. В таких ситуациях вам может помочь краудсорсинг.

У Guardian есть очень много читателей, очень много пар глаз. Если у нас есть интересный проект, по которому нам необходима помощь, то мы можем за ней обратиться. Именно это мы и сделали в деле о расходах членов парламента. У нас было 45 000 документов и очень мало времени. Наилучшим вариантом было привлечение к данной задаче наших читателей.

В результате мы получили огромное количество материалов по этому проекту. Статей было больше, чем данных. Проект оказался очень успешным с точки зрения трафика. Он очень понравился читателям.

В настоящее время мы вместе с ресурсом MixMag изучаем проблему употребления наркотиков, что также приносит феноменальные результаты. Этот проект по количеству принявших в нем участие людей превосходит даже исследование преступности в Великобритании, что само по себе просто замечательно.

Объединяет эти проекты то, что они посвящены вопросам, которые действительно волнуют людей, и поэтому люди действительно готовы тратить на них время. Краудсорсинг в значительной мере зависит от помощи одержимых людей. В проекте по расходам парламентариям был огромный прирост трафика вначале, который потом сошел на нет. Однако до сих пор люди настойчиво просматривают каждую страницу в поисках фактов и материалов для статей. Один человек просмотрел 30 000 страниц материалов. Они обладают теперь огромной информацией.

Также мы прибегли к краудсорсингу в проекте с бумагами Сары Пэйлин. И читатели снова оказали нам большую помощь в поиске материалов для статей.

С точки зрения сбора информации для статей краудсорсинг нам очень помог. Читателям это нравится, и Guardian «хорошо выглядит» в их глазах. Что же касается генерирования данных, то в этой области не так активно пользовались краудсорсингом.

Некоторые из наших краудсорсинговых проектов, показавших хорошие результаты, больше походили на старые добрые опросы. Когда вы спрашиваете людей об их опыте, об их жизни, о том, чего они добились, вы получаете реальные данные, т. к. люди не склонны их приукрашивать. Они расскажут вам то, как у них обстоят дела на самом деле. Если же вы просите людей проделать за вас вашу работу, то вы должны найти таких людей, которые предоставят вам данные, которым вы сможете доверять.

Что касается надежности данных, то, я считаю, очень хороший подход применяет проект Old WeatherОни предлагают обрабатывать каждый элемент данных десяти людям, что позволяет обеспечить требуемую точность. В деле о расходах членов парламента мы пытались минимизировать риск того, что они отредактируют свои собственные отчеты в сети, чтобы выглядеть лучше. Однако обеспечить постоянную защиту от этого невозможно. Вы можете только искать определенные URL–адреса или смотреть, совершаются ли исправления из района Лондона SW1. Это довольно ненадежный способ. Данным, которые мы получали, не всегда можно было доверять. Несмотря на то, что у нас получились замечательные материалы, мы не получали в ходе проекта какие–то конкретные цифры, которые мы могли бы использовать.

Если бы я был должен дать совет журналистам, работающим в сфере данных, которые хотят использовать краудсорсинг для сбора данных, я бы рекомендовал им выбрать тему, которая действительно волнует людей и которая будет продолжать волновать их даже после того, как она сойдет с первых страниц газет. Так же можно устроить что–то вроде игры — это тоже хорошо помогает привлекать людей. Когда мы занимались проектом о расходах во второй раз, мы сделали его похожим на игру, в которой люди получали индивидуальные задания. То, что мы давали людям конкретные задачи, действительно помогло нам. Ведь когда вы просто даете людям горы информации и говорите им: «давайте, обработайте ее», то вы ставите перед ними трудную и в какой–то мере неблагодарную задачу. И поэтому, я считаю, очень важно превратить эту работу в развлечение или игру.

Интервью Саймона Роджерса, журналиста Guardian, Марианне Баучарт, блог «Data Journalism»

Как сервис datablog использовал краудсорсинг для освещения темы распространения билетов на олимпийские игры

Рис 64. How many Olympic tickets did you get?: the readers' results (The Guardian)

Я думаю, что краудсорсинговым проектом, получившим наибольший отклик, был проект о распространении Олимпийских билетов. Тысячи жителей Великобритании пытались купить билеты на Олимпиаду 2012 года, и было очень много недовольства тем, что им не удалось это сделать. Люди размещали заказы на сотни фунтов стерлингов, и получали ответ, что им ничего не достанется. Но было непонятно — может быть, это просто были громкие жалобы нескольких человек, в то время как основная масса людей была всем довольна? Поэтому мы попробовали найти способ выяснить это.

Мы решили, что лучшее, что мы можем сделать в отсутствие каких–либо достоверных данных, это спросить людей. И мы считали, что мы должны будем с осторожностью относиться к результатам, так данная выборка респондентов не являлась сбалансированной.

Мы создали форму на сайте Google и наполнили ее вполне конкретными вопросам. Форма получилась действительно длинной, мы спрашивали, на какие суммы люди заказывали билеты, сколько в результате списывали с их кредитных карт, на какие соревнования они планировали пойти и т. д.

Мы разместили эту форму в виде небольшой картинки на главной странице сайта, и она очень быстро распространилась среди читателей. Важный момент здесь, я считаю, заключается в том, чтобы вы думали не только о том, «что мне необходимо знать для написания моей статьи», но и о том, «что люди хотят рассказать мне в данный момент». Только тогда, когда вы поймете, что люди хотят вам рассказать, вы сможете успешно применить краудсорсинг. Объем ответов, полученных в ходе данного проекта (который был одной из первых наших попыток краудсорсинга), был огромен. Мы получили тысячу ответов менее, чем за час, к концу дня количество ответов достигло семи тысяч.

Вполне понятно, что после этого мы стали более серьезно относиться к результатам. Изначально мы не предполагали, что получим так много ответов. Поэтому мы приняли для себя несколько оговорок: читатели Guardian могут быть более состоятельными, чем другие люди, лица, получившие меньше, чем они рассчитывали, будут более охотно общаться с нами, и т.д.

Мы не знали, какую ценность будут иметь результаты нашего проекта. В итоге мы получили семь тысяч ответов для нашего проекта, и мы выяснили, что около половины людей, запрашивавших билеты, ничего не получили. Мы изучили все полученные отклики, и, так как их было очень много, результаты представляли большой интерес.

Через несколько недель вышел официальный отчет, и наши данные были до невероятности близки к его цифрам. Они практически полностью совпадали с ними. Конечно, в этом была доля везения, однако сыграл свою роль и тот факт, что нам ответили столько много людей.

Если вы будете спрашивать читателей о подобных вещах в ленте комментариев, то вы будете ограничены в применении результатов. Поэтому следует подумать: «Какой инструмент лучше выбрать, чтобы получить нужную информацию?» Ленту комментариев? Или разработать приложение? И если вы решите разработать приложение, следует подумать, «Есть ли смысл тратить время на разработку? Оправдает ли оно затраченные на его разработку ресурсы?»

В данном случае мы сделали выбор в пользу форм на Google (Google Forms). Когда кто–то заполняет форму, вы видите результаты в виде строки таблицы. Т. е. даже если эта таблица еще пополняется, даже если ответы все еще продолжают поступать, вы все равно можете открыть ее и увидеть все имеющиеся на данный момент результаты.

Я мог попробовать проделать всю работу в Google, но я решил скачать их в Microsoft Excel и после этого отсортировать по возрастанию, чтобы найти ответы, в которых люди написали числа прописью, и исправить их. Я решил постараться исключать как можно меньше вариантов. Поэтому вместо того, чтобы принимать только действительные ответы, я пытался исправлять остальные. Люди использовали иностранные валюты, и я переводил их в фунты стерлингов, что было довольно утомительно.

Однако в целом анализ занял всего несколько часов, и в итоге я отмел все очевидно неуместные ответы. Многие люди решили заполнить форму, отметив при этом, что они ничего не платили за билеты. Забавно, но ладно. Таких оказалось менее сотни из более чем семи тысяч респондентов.

Несколько десятков человек написали откровенно большие суммы в попытке исказить результаты. Например, десять миллионов фунтов стерлингов. Оставшийся набор ответов я мог обрабатывать, исходя из обычных принципов работы с данными. Я сделал так называемую сводную таблицу. Я вывел средние значения. И т. д.

Мы не знали, какой ход наберет этот проект, поэтому над ним работали только я и редактор спортивного блога. Мы сели, подумали и решили, что этот проект может оказаться интересным. На весь проект, от начала до конца, у нас ушло 24 часа. У нас появилась идея, мы поразмышляли над ней за обедом, мы разместили форму на сайте, мы увидели, что идея пользуется популярностью, мы продержали форму на сайте до конца дня и на следующее утро поместили в сети ее результаты.

Выбор в пользу сервиса Google Docs был сделан потому, что он позволяет полностью контролировать результаты. Мне не пришлось пользоваться каким–то сторонними аналитическими инструментами. Я мог с легкостью поместить результаты в базу данных или в таблицу. Когда вы используете специальное программное обеспечение для опросов общественного мнения, вы зачастую можете использовать только предусмотренные им инструменты. Если бы информация, которую мы хотели собрать, требовала какого–то деликатного обращения, то мы могли бы не прибегать к сервисам Google и попробовать справиться со всем своими собственными силами. А в целом оказалось очень просто разместить форму Google Form на странице Guardian, при этом пользователю было практически не видно, что именно мы используем. Так что это оказалось очень удобно.

В качестве совета журналистам, работающим в сфере данных, которые хотят использовать краудсорсинг: вы должны очень точно знать, какую информацию вы хотите получить. Задавайте вопросы, которые могут иметь очень большое количество разных ответов. Попробуйте понять демографию аудитории, к которой вы обращаетесь, чтобы понять, не является ли ваша выборка предвзятой. Если вы спрашиваете о суммах и других подобных вещах, попробуйте указать, что ответ должен быть в цифрах, что пользователи должны использовать определенную валюту т. п. Многие все равно не выполнят эти указания, но чем больше вы регламентируете этот процесс, тем будет лучше. И всегда, всегда добавляйте поле для комментариев, так как большое количество людей заполнят поля опроса, но при этом им очень хочется довести до вас свое мнение по данному вопросу. Особенно если речь идет о нарушениях прав потребителей или произволе.

Интервью Джеймса Болла, журналиста Guardian, Марианне Баучарт, блог «Data Journalism»

Использование и обмен данными: готический шрифт, мелкий шрифт и реальность

В данном разделе мы кратко рассмотрим положения законодательства о данных и базах данных, и посмотрим, что вы можете сделать, чтобы открыть ваши данные, используя имеющиеся общедоступные лицензии и правовые инструменты. Не позволяйте ниже перечисленным преградам ослаблять ваше стремление к журналистике, посвященной данным. Обычно вы не будете сталкиваться с правовыми ограничениями при использовании данных, и вы можете легко сделать так, чтобы они не мешали другим людям пользоваться опубликованными вами данными.

Следует признать, что сейчас добывать данные стало просто, как никогда. Раньше, до эпохи широкой публикации данных в Интернете, даже если вы обнаруживали нужную вам базу данных, вы должны были просить того, у кого она находилась, предоставить вам доступ к ней, отправляя для этого письмо или совершая личный визит. Теперь ваш компьютер просит другой компьютер отправить ему нужную копию . Это, конечно, очень упрощенная схема, но в настоящее время у вас есть право на копирование, а они (лица, создавшие или опубликовавшие данные) ничего не сделали и, возможно, даже не знают, что вы скачали себе копию.

А что насчет скачивания данных какой–либо программой (называемого иногда «выскребанием») и условиями предоставления услуг? Посмотрите на предыдущий абзац: ваш браузер как раз и является такой программой. Могут ли условия предоставления услуг разрешать доступ только определенным программам? Если вы обладаете огромным количеством времени и денег на чтение таких документов и на получение юридических консультаций, то, конечно, действуйте. Однако обычно достаточно просто не делать резких движений: если ваша программа нанесет сайту какой–либо урон, то доступ к нему может оказаться просто заблокированным для вашей сети, и вполне возможно, что вы именно того и заслуживаете. В настоящее время наработана большая практика доступа к данным и «выскребания» их из Интернета. Если вы планируете такие действия, то для начала можно почитать об этом на таких сайтах, как ScraperWiki.

Получив интересующие вас данные, вы можете изучать их, сортировать, визуализировать, сравнивать и выполнять любые другие аналитические действия с вашей копией данных. Вы можете опубликовать ваш анализ, который может содержать любые данные. Популярное выражение «факты бесплатны» (как и выражение «свобода слова») имеет глубокий смысл, однако, возможно, оно является просто популярным выражением для тех, кто слишком много думает о правовой стороне баз данных или даже об управлении данных.

Что, если, являясь или стремясь быть хорошим журналистом, работающим в сфере данных, вы намереваетесь опубликовать не только ваш анализ, включающий некоторые факты или отдельные данные, но и наборы/базы данных, использованные вами в подготовке анализа и добавленные к нему? Или, может быть, вы являетесь просто смотрителем данных и никак не анализировали их — в конце концов, смотрители данных тоже нужны. Если вы используете данные, собранные каким–то другим лицом, то можете столкнуться с определенными проблемами. (Если база данных собрана полностью вами, все равно прочитайте следующий абзац для мотивации описываемого далее распространения данных.)

Вы, должно быть, знаете, как авторское право защищает творческий труд: если владелец авторского права не давал разрешения на использование работы (или если работа является общественным достоянием, или ваше использование попадает под исключения или ограничения, например, положения о добросовестном использовании), а вы ее все равно используете — распространяете, исполняете и т. д., владелец авторского права может заставить вас прекратить делать это. И, несмотря на то, что факты сами по себе бесплатны, коллекции фактов могут охраняться таким же образом, хотя соответствующие законы являются более разнообразными, чем законы об авторском праве на творческие работы. Кратко говоря, база данных может быть объектом авторского права, как творческая работа. Во многих юрисдикциях применяется принцип «труда автора», по которому сам факт создания базы данных, даже без приложения творческих усилий, делает эту базу данных объектом авторского права. В Соединенных Штатах, однако, имеется тенденция установления более высокого уровня минимальной творческой составляющей, необходимой для применения авторского права (классическим примером является дело «Feist против Rural» — спор о признании авторского права на телефонную книгу). Однако в некоторых юрисдикциях существуют права на базы данных, защищающие эти базы, при этом эти права не являются авторскими правами (хотя зачастую области, на которые эти права распространяются, пересекаются друг с другом, особенно в тех случаях, когда необходимый для признания авторского права минимальный уровень творчества практически отсутствует). Самым распространенным примером является применяемые в Европейском Союзе права на базы данных «sui generis». Так что, особенно если вы находитесь в Европе, вам может понадобиться разрешение на публикацию базы данных, полученной от другого лица.

Несомненно, эти ограничения не способствуют развитию экосистемы журналистики в сфере данных (не приносят они пользу и обществу в целом — социологи и другие исследователи уже говорили ЕС об этом еще до того, как появились права на базы данных «sui generis», и проводящиеся с тех пор исследования подтверждают их правоту). К счастью, вы, публикуя базу данных, можете снять эти ограничения (при условии, что база данных не содержит элементов, на публикацию которых вы не вправе предоставлять разрешения), в частности, предоставляя разрешения заблаговременно. Вы можете сделать это, издав вашу базу данных по общедоступной лицензии или объявив ее всеобщим достоянием — наподобие того, как это делают многие программисты, выпуская свободное программное обеспечение с общедоступными (открытыми) исходными кодами, с тем чтобы все желающие могли использовать их код (т. к. журналисты, работающие с данными, часто работают и с кодами, вам следует снять ограничения и с вашего кода, чтобы вашу коллекцию данных и аналитику можно было переопубликовывать). Можно назвать много причин, по которым вам следует открывать свои данные. Например, ваша аудитория может создать новую визуализацию или приложения, на которые вы можете затем ссылаться, как, например, делает Guardian, располагая сообществом визуализации на ресурсе Flickr. Ваши наборы данных могут быть объединены с другими наборами данных, что позволит вам и вашим читателям более широко взглянуть на изучаемую проблему. То, что сделают другие пользователи с вашими данными, может привести вас к новой статье или дать вам идеи для новой статьи либо нового проекта в сфере данных. И, конечно, все это принесет вам всеобщее уважение.

Рис 65. Open Data badges (Open Knowledge Foundation)

Когда автор понимает, что издание работ с общедоступными лицензиями является необходимостью, возникает вопрос: какую лицензию применить? Ответ на этот непростой вопрос зачастую будет зависеть от проекта или сообщества, на работу которого вы опираетесь, либо которому вы планируете предоставить вашу работу — используйте ту лицензию, которую использует это сообщество. Если вам нужно копать глубже, начните с открытых и свободных лицензий — означающих предоставление разрешения на использование всем желающим (может требоваться указание автора и распространение на таких же условиях). То значение, которое имеют для программного обеспечения такие понятия, как «Определение свободного программного обеспечения» и «Определение Open Source» (Открытого программного обеспечения), имеет Определение открытой информацииработы и устанавливает права, предоставляемые пользователям открытыми лицензиями.

На веб–сайте Open Knowledge (Открытая информация) вы можете найти список таких лицензий. В целом эти открытые лицензии делятся на три класса:

 Объявление всеобщим достоянием, что является лицензией, предоставляющей максимальный объем разрешений; использование работы не ограничивается никакими условиями.

 Разрешающие лицензии или лицензии, требующие указания авторства; единственным основным условием является указание автора работы.

 Копилефт, перекрестные лицензии или лицензии, предусматривающие дальнейшее распространение на тех же условиях.

Если вы используете набор данных, опубликованный другим лицом на условиях открытой лицензии, то можете считать предыдущий абзац очень кратким руководством по выполнению условий этой открытой лицензии. Чаще всего вам придется сталкиваться с лицензиями, созданными организациями Creative Commons и Open Data Commons, а также различными правительствами, во всех этих лицензиях обычно имеется раздел, в котором находятся все основные условия лицензии. Обычно лицензия указывается на странице, с которой можно скачать (или «выскрести», т. к., несомненно, веб–страницы могут содержать наборы данных) базу данных, либо на видном месте в самой базе данных, в зависимости от формата. Эти обозначения должны нанести и вы, открывая свои наборы данных.

Возвращаясь к началу, зададим вопрос: что, если нужной вам базы данных нет в Интернете или доступ к ней каким–то образом контролируется? Подумайте о том, чтобы не просто попросить доступ для себя, но и попросить открыть эти данные всему миру для их использования. Вы можете рассказать владельцам данных о том, какие замечательные вещи могут произойти с их данными, если они сделают это.

Вместе с тем, открытие данных всему миру может привести к тому, что к ним станут применимы положения о неприкосновенности личной жизни и другие норма. Действительно, тот факт, что открытие данных снимает многие технические барьеры и ограничения, связанные с авторскими правами, не означает, что вы не должны соблюдать иные применимые законы. Однако так было всегда, кроме того, существуют замечательные инструменты и меры защиты журналистов, если ваш здравый смысл подскажет вам, что эти данные необходимо исследовать.

Удачи вам! Хотя, вероятнее всего, удача больше понадобится вам для выполнения других аспектов вашего проекта, а не для регулирования (низких) правовых рисков.

Майк Линксвайер, Creative Commons

Трактование данных

Получив данные, что вы будете с ними делать? На что нужно обращать внимание? Какие инструменты использовать? В данной главе мы познакомим вас с некоторыми идеями о том, как можно повысить грамотность в сфере данных, подскажем, как работать с цифрами и статистикой, и расскажем, о чем следует помнить, работая со спутанными, некачественными и зачастую недокументированными наборами данных. Мы научимся писать статьи на основе извлекаемой из данных информации, изучим основные инструменты журналистов, работающих с данными, и рассмотрим, как использовать визуализацию данных для проникновения в суть рассматриваемой проблемы

Обретение грамотности в сфере данных за три простых шага

Рис 66. Digging into data ( JDHancock)

Как под грамотностью понимается «способность читать для получения знаний, умение писать и критически осмысливать печатный материал», под грамотностью в сфере данных понимается способность использовать данные для извлечения информации, производить связанные данные и критически осмысливать их. Грамотность в сфере данных включает в себя грамотность в сфере статистики, умение работать с большими наборами данных, понимание того, как данные были составлены, умение объединять разные наборы данных и способность толковать данные.

В Университете новостей (проект Института им. Пойнтера) проводятся занятия по математике для журналистов, на которых их учат таким вещам, как изменения процентных значений и средние показатели. Что интересно, тому же самому учат во флоридских школах (именно там находится Институт им. Пойнтера) учеников пятых классов (в возрасте 10–11 лет), о чем свидетельствует программа школьного обучения.

Тот факт, что журналистам нужна помощь в тех разделах математики, которые школьники изучают в пятых классах, показывает, как печально обстоят дела в ньюсрумах с грамотностью в сфере данных. Соответственно, не обходится без проблем. Как может журналистка, работающая в сфере данных, извлечь пользу из массива данных по изменению климата, если она не знает, что означает доверительный интервал? Как может репортер, работающий в сфере данных, написать статью о распределении доходов, если он не может отличить среднее значение от медианы?

При этом, чтобы научиться обращаться с данными, журналисту не обязательно получать диплом магистра статистики. Существует несколько простых способов, которые могут помочь лучше понять цифры и данные. Как говорит преподаватель Института им. Макса Планка Герд Гигеренцер, хорошие инструменты не гарантируют хорошую журналистику, если ими пользоваться без хороших знаний.

Даже если у вас отсутствуют какие–либо знания из области математики или статистики, вы легко можете стать журналистом в сфере данных, задав три очень простых вопроса.

1. Как были собраны данные?

Удивительный рост ВВП

Самый простой способ продемонстрировать зрелищные данные — сфабриковать их. И этот способ применяется даже к таким привлекающим всеобщее внимание данным, как показатели ВВП. Бывший посол Великобритании Крейг Мюррей пишет в своей книге «Убийство в Самарканде», что показатели роста в Узбекистане являются объектом напряженных переговоров местных властей с международными организациями. Другими словами, они не имеют никакого отношения к местной экономике.

ВВП считается самым главным показателем, т. к. он необходим государству для контроля над своим главным источником дохода — НДС. Если государство финансируется не за счет НДС или если оно не раскрывает данные о своем бюджете, то у него нет причин собирать данные о ВВП, ему будет проще сфабриковать их.

Преступность всегда растет

«Преступность в Испании выросла на 3 %», пишет El Pais. Брюссель стал жертвой роста преступности, вина за которую возлагается на незаконных иммигрантов и наркоманов, говорит RTL. Такой вид сообщений, основанных на собираемых полицией данных, является широко распространенным, однако они не содержат какой–то особой информации о насилии.

Мы можем верить в то, что в Европейском Союзе данные не подтасовываются. Однако на полицейских влияют побуждающие стимулы. Например, когда эффективность работы определяется уровнем раскрытия преступлений, у полицейских появляется стимул сообщать о как можно большем количестве происшествий, не требующих расследований. Одним из таких преступлений является курение травки. Этим объясняется тот факт, что за последние 15 лет количество преступлений, связанных с наркотиками, увеличилось во Франции в четыре раза, в то время как уровень потребления остается неизменным.

Что вы можете сделать

Если вы сомневаетесь в достоверности данных, проверяйте и перепроверяйте их, так, как вы делали бы это, если бы источником данных было высказывание политика. В примере с Узбекистаном будет достаточно позвонить кому–нибудь, кто прожил там какое–то время («Можете ли вы сказать, что страна стала в 3 раза богаче, чем она была в 1995 году, как говорят официальные данные?»).

В случае с данными полиции, социологи часто проводят исследования виктимизации, в ходе которых они спрашивают респондентов, становились ли они жертвами преступлений. Результаты этих исследований обычно менее изменчивы, чем данные полиции. Возможно, именно поэтому они и не попадают в заголовки.

Наши тесты, например, применение закона Бенфорда, позволят вам точно оценить достоверность данных, однако ничто не заменит вашего собственного критического мышления.

2. Какую информацию из них можно извлечь?

Риск рассеянного склероза удваивается, если работать по ночам

Конечно, любая немка в здравом уме, прочитав подобный заголовок. перестанет работать в ночные смены. Однако в статье так и не сообщается, каков же реальный риск на самом деле.

Возьмем 1000 жителей Германии. На протяжении всей жизни только один из них заболеет рассеянным склерозом. Соответственно, если все эти немцы работают в ночную смену, то количество случаев рассеянного склероза вырастет до двух. Дополнительный риск заболевания рассеянным склерозом при работе в ночные смены составляет 1 шанс из 1000, а не 100 %. Конечно, такая информация более полезна в тот момент, когда вы размышляете, стоит ли идти на ту или иную работу.

В среднем 1 из 15 европейцев абсолютно безграмотен.

Такой заголовок пугает. Кроме того, это абсолютная правда. Из 500 миллионов европейцев 36 миллионов не умеют читать. А еще 36 миллионов находятся в возрасте до 7 лет (данные Евростата).

Когда вы собираетесь написать «в среднем», подумайте, «в среднем от чего»? Однородно ли описываемое население? Принципы неравномерного распределения, например, помогают объяснить, почему большинство людей водят машину лучше, чем в среднем. Многие люди за всю жизнь попадали в аварию лишь единожды, либо не попадали вовсе. Немногочисленные безрассудные водители попадали в аварии много раз, тем самым значительно увеличивая показатель среднего количества аварий, т. е. среднее количество аварий на всех водителей будет выше, чем реальное количество аварий у большинства водителей. То же самое происходит и с распределением доходов: доходы большинства людей ниже средних значений.

Что вы можете сделать

Всегда учитывайте распределение и базовые значения. Проверка среднего значения и медианы, а также моды (наиболее часто встречающееся значение в распределении) поможет вам в проникновении в суть данных. Знание порядка величины облегчает контекстуализацию, как видно в примере с рассеянным склерозом. И, наконец, применение в ваших материалах числовых значений (1 из 100) больше поможет читателям понять суть вопроса, чем применение процентов (1 %).

3. Насколько надежны данные?

Проблема объема выборки

«80 % граждан недовольны судебной системой», говорится в исследовании, о котором пишет газета из Сарагосы Diaro de Navarra. Но как можно экстраполировать ответы 800 респондентов на 46 миллионов испанцев? Конечно, эти данные нельзя воспринимать всерьез, подумаете вы.

При исследовании больших групп населения (больше нескольких тысяч) для достижения предела погрешности менее 3 % вам обычно потребуется не более одной тысячи респондентов. Т. е., если вы проведете то же исследование с другой выборкой, то в 9 случаях из 10 полученные ответы будут отличаться от ответов, полученных в первый раз, не более, чем на 3 %. Статистика — мощный инструмент, и объемы выборки редко бывают повинны в недостоверных результатах опросов.

Употребление чая снижает риск инфаркта

Статьи о пользе употребления чая появляются постоянно. Эта небольшая статья в Die Welt, говорящая о том, что чай снижает риск инфаркта миокарда, не является исключением. В то время как свойства чая подвергаются серьезным исследованиям, во многих случаях исследователи не принимают во внимание такие факторы образа жизни, как диеты, род деятельности или занятия спортом.

В большинстве стран чай является напитком заботящегося о своем здоровье высшего класса. Если исследователи не учитывают при исследовании свойств чая факторы образа жизни, то в результате они говорят нам лишь о том, что «богатые люди более здоровы — и, возможно, они еще пьют чай».

Что вы можете сделать

Математические выкладки, касающиеся взаимосвязей и погрешностей в исследованиях свойств чая, конечно правильны, по крайней мере, в большинстве случаев. Однако, если исследователи не обращают внимание на соотношения взаимосвязей (например, как употребление чая соотносится с занятиями спортом), то их результаты не имеют большой ценности.

Как журналисту вам не имеет смысла ставить под сомнение численные результаты исследования, например, объемы выборки, за исключением случаев, когда они вызывают серьезные сомнения. Однако, вы можете легко понять, не упустили ли исследователи в своих исследованиях какую–либо значимую информацию.

Николас Кайзер–Брил, Journalism++

Советы по работе с цифрами в новостях

 Наилучший совет по обработке данных — делайте это с удовольствием. Данные могут показаться вам устрашающими. Однако стоит вам позволить напугать себя — и вы не добьетесь никаких результатов. Отнеситесь к процессу как к игре, и может случиться так, что данные с удивительной легкостью раскроют вам свои секреты. Поэтому обрабатывайте их как обычно, как вы обрабатывали бы любые другие свидетельства, без страха или предпочтения. В частности, относитесь к этому процессу как к тренировке воображения. Примените творческий подход, подумайте, какие альтернативные факторы могут быть связаны с этими данными и могут объяснять их, проверяйте данные с помощью дополнительной информации. «Чем еще можно объяснить эти данные?» В некоторых случаях этот полезный подход может помочь понять вам, что эти цифры, эти очевидно большие или плохие показатели, эти ясные доказательства того или этого, могут оказаться совсем не тем, чем кажутся.

 И не путайте скептицизм по отношению к данным с цинизмом. Скептицизм — это хорошо; цинизм приведет к тому, что вы просто поднимите руки вверх и сдадитесь. Если вы верите в журналистику в сфере данных — а вы, скорее всего, верите, иначе вы не читали бы эту книгу, — то вы должны верить в то, что данные могут предложить нечто лучшее, чем рассчитанные на потеху публике карикатуры или убийственные факты сводящих с ума заголовков. При аккуратном использовании данные зачастую позволяют получить глубокие знания. Не стоит быть циничным или наивным, однако стоит быть внимательным.

 Если я скажу вам, что люди стали больше пить во время кризиса, вы можете ответить, что причина заключается во всеобщей депрессии. Если я скажу вам, что люди стали пить меньше, вы можете ответить, что у всех просто кончились деньги. Иными словами, сами по себе данные не оказывают никакого влияния на то, как вы собираетесь их интерпретировать, а именно, если вы собираетесь сказать, что все ужасно так или эдак. Если пить стали больше — плохо, если пить стали меньше — плохо. Я хочу сказать, что если вы верите в данные, то старайтесь понять их до того, как на них наложится ваше настроение, убеждения или ожидания. Вокруг нас столько данных, что очень часто вы сможете находить подтверждения своим давним убеждениям, просто оглянувшись вокруг. Другими словами, журналистика в сфере данных, по крайней мере на мой взгляд, имеет мало смысла, если вы отличаетесь предвзятостью. Она настолько объективна, насколько вы стремитесь к этому, ее объективность определяется не лежащими в ее основе цифрами.

 Неопределенность — это не страшно. Мы ассоциируем данные с авторитетом и точностью. Но бывает так, что ответ заключается в том, что ответа нет, либо ответ может быть самым лучшим из возможных, и все равно не отличаться точностью. Я считаю, что мы должны говорить об этом. Если вам покажется, что такой подход просто убьет все возможные статьи, я возражу, сказав, это замечательный способ поднять новые темы. И еще, зачастую существует много законных способов обрезать данные. Цифры не обязательно должны представлять собой либо правду, либо неправду.

 Статью можно сделать из самого расследования. История о том, как вы пытались получить результат, как переходили от одних свидетельств к другим, может стать настоящим произведением журналистики — особенно когда речь идет о свидетельствах, основанных на данных. Различные источники предлагают новые точки зрения, новые идеи, более широкое понимание. Интересно, не стремимся ли мы быть излишнеавторитетными, давая людям готовые ответы — что приводит к тому, что мы упускаем возможность показать сам процесс расследования.

 Самые хорошие вопросы — это проверенные вопросы: это действительно важные цифры? Откуда они взялись? Вы уверены, что они обозначают то, что вы думаете? Это всего лишь подсказки о том, как следует размышлять о данных, о первых выводах, сделанных на основании какой–то одной цифры, о трудностях реальной жизни, о широком ряде других потенциальных сравнений по времени, группе или географии — короче говоря, о контексте.

Майкл Бластленд, журналист–фрилансер.

Основные этапы работы с данными

Перед запуском проекта с данными вам необходимо усвоить три основные идеи:

 Запрос данных должен начинаться со списка вопросов, на которые вы хотите получить ответ.

 Данные зачастую приходят запутанными и требуют сортировки.

 Данные могут включать незафиксированные элементы

Рис 67. Messy Data

Понимайте вопросы, на которые хотите получить ответ

Во многом работа с данными напоминает интервью в прямом эфире. Вы задаете вопросы и пытаетесь выудить ответы. Но точно так же, как каждый источник может ответить только на те вопросы, в которых он сведущ, массив данных может только ответить на вопросы о том, о чем в нем имеются достоверные данные и необходимые переменные. Это означает, что вы должны как следует продумать вопросы, прежде чем собирать данные. По сути, вы работаете в обратном порядке. Сначала составьте список утверждений для вашей статьи, которые вы хотите подкрепить данными. Затем определите, какие переменные и данные необходимо собрать и проанализировать, чтобы получить такие утверждения.

Рассмотрим это на примере репортажей из местной криминальной хроники. Скажем, вы хотите написать статью о статистике преступлений, которые произошли в вашем городе. Вы хотите включить в репортаж время суток и дни недели, в которые чаще всего случаются разные виды преступлений, а также в каких частях города чаще всего случаются те или иные преступления.

Вы увидите, что запрос данных должен включать дату и время, когда о преступлении было заявлено в полицию, а также вид преступления (убийство, кража, ограбление и т.д.) и место совершения преступления. Таким образом, дата, время, вид преступления и место – минимальный набор данных, которые нужны, чтобы ответить на поставленные вопросы.

Но будьте внимательны. Есть множество потенциально интересных вопросов, ответы на которые не даст этот набор данных из четырех переменных. Это, например, раса и пол жертвы, полная стоимость украденных ценностей или кто из полицейских производит больше арестов. Вы также сможете получить данные только за определенный период (например, за последние три года), а это значит, что вы не сможете сказать, изменилась ли статистика преступлений за более долгий период времени. Эти вопросы могут выходить за планируемые рамки репортажа, и это нормально. Но будьте предусмотрительны: если вы уже начали анализировать данные, а потом решили, что хотите узнать процент преступлений, закончившихся арестом, будет уже поздно.

Хорошим советом здесь будет запросить ВСЕ переменные и данные из базы, а не только подмассив данных, который может дать информацию исключительно для текущего репортажа. На самом деле получить все данные будет дешевле, чем их часть, так как во втором случае придется платить агентству за программирование фильтра. Вы всегда сможете вычленить данные самостоятельно, а имея доступ к более широкому набору данных, сможете получить ответы, возникающие в процессе работы над статьей, и даже написать дополнительный материал. Возможно, политика конфиденциальности не позволит вам получить некоторые переменные (например, имена жертв или конфиденциальных осведомителей). Но даже часть данных это лучше, чем ничего, если вы хорошо понимаете, на какие вопросы может и не может ответить отфильтрованная база данных.

Сортировка беспорядочных данных

Самая сложная проблема в работе с базами данных заключается в том, что зачастую вам придется анализировать данные, собранные с бюрократической целью. Проблема в том, что требования, предъявляемые к точности обоих типов данных, будут различаться.

Например, база данных системы уголовного правосудия существует главным образом для того, чтобы некий подзащитный Джонс был вовремя доставлен из тюрьмы на слушание к судье Смиту. Поэтому не так уж важно, точно ли указана в базе дата рождения Джонса, правильно ли написан его домашний адрес и даже вторая инициала его имени. Эти неточные данные не помешают доставить Джонса в зал суда к судье Смиту в назначенное время.

Но такие ошибки могут помешать журналисту, работающему с данными, обнаружить в базе данных закономерность. Поэтому первым делом после получения новых данных следует определить, насколько они беспорядочны, и устранить ошибки. Сделать это быстро можно, создав таблицы частоты категориальных переменных, т.е. такие таблицы, где разброс значений по идее должен быть сравнительно небольшой. (в Excel, например, это можно сделать через фильтр или сводные таблицы).

Простой пример – графа «пол». Может оказаться, что в этой графе встречаются различные варианты: «мужской», «женский», «М», «Ж», «1», «0», «МУЖСКОЙ», «ЖЕНСКИЙ» и т.д., включая варианты с ошибочным написанием («жнский»). Для толкового гендерного анализа вам придется стандартизировать эти данные и остановиться, например, на М и Ж, а затем подвести все значения под единый стандарт. Есть еще одна известная база данных с подобными проблемами – это база финансирования избирательных кампаний в США, где в графе «профессия» может стоять «адвокат», «юрист», «юрисконсульт», «юрконсульт», «адв.» и прочие варианты, в том числе с орфографическими ошибками. Опять же, фокус в том, чтобы привести названия профессий к единому стандарту и существенно сократить список вариантов.

Упорядочение данных может оказаться еще более сложным, когда дело доходит до личных имен. А вдруг Джозеф Т. Смит, Джозеф Смит, Д.Т. Смит, Джоз. Смит и Джо Смит – это один и тот же человек? Возможно, придется обратить внимание и на другие переменные – адрес, дату рождения – и даже копнуть глубже, чтобы узнать наверняка. Попробуйте Google Refine. С ним задача упорядочения и стандартизации данных будет не такой трудоемкой и утомительной.

Данные могут содержать незафиксированную информацию

Образцом для расшифровки любой базы данных является так называемый словарь базы данных. Как правило, этот файл (он может существовать в виде текста, PDF или даже таблицы) содержит информацию о формате файла с данными (текстовый файл с разделителями, текстовый файл с полями фиксированной ширины, файл Excel, dBase и т.д.), порядке переменных, названии каждой переменной и типе каждой переменной (текстовая строка, целое число, десятичная дробь и т.д.). Эта информация вам понадобится для правильного импортирования файла с данными в анализирующую программу (Excel, Access, SPSS, Fusion Tables, различные вариации SQL и т.д.)

Другой важный элемент словаря базы данных – описание кодов, которые используются для обозначения каких–либо переменных. Например, пол можно закодировать: «мужской» = 1, «женский» = 2. Преступления можно закодировать по номерам, зафиксированным в законодательных актах вашей юрисдикции. В историях болезни для обозначения диагноза врачи используют сотни пятизначных кодов. Без словаря эти массивы данных будет сложно и даже невозможно проанализировать.

Но даже вооружившись словарем данных, вы можете столкнуться с проблемой. Например, вот что случилось несколько лет назад с репортерами из «Майами Геральд» во Флориде, когда они анализировали наказания, назначенные нарушителям за вождение в нетрезвом виде. Репортеры получили данные о судимостях из судебной базы данных и проанализировали числа в трех разных категориях наказаний по словарю данных: количество длительных тюремных сроков, количество коротких тюремных сроков и количество назначенных штрафов. Среди судей количество наказаний несколько разнилось, что дало репортерам повод написать статью о суровых и снисходительных судьях.

Но статистика по каждому судье отдельно показала, что примерно в 1–2% случаев не было назначено ни срока, ни штрафа. Поэтому на графике, демонстрирующем закономерность наказаний, как будто бы добавленная в последний момент, появилась маленькая графа с теми случаями, где наказание отсутствовало. Когда статья вместе с графиком была опубликована, судьи в один голос возмутились: мол, «Геральд» пытается обвинить их в нарушении законов штата, требующих наказания любому нетрезвому водителю.

Тогда репортеры вновь обратились к секретарю суда, который составил для них файл с данными, с просьбой разъяснить причину ошибки. Секретарь объяснил, что в указанных делах ответчиками являлись люди неимущие, совершившие правонарушение впервые. По закону им был положен штраф, но они не могли его заплатить. Поэтому судьи приговаривали их к общественным работам (например, подметать улицы). Как выяснилось, закон, требующий наказания, был принят после создания базы данных. Поэтому все судебные секретари знали, что пропуск в графе «наказание» означал общественные работы. Но этого НЕ БЫЛО в словаре данных, поэтому «Геральд» пришлось опубликовать опровержение.

Поэтому никогда не забывайте уточнить у источника данных, существуют ли какие–то неучтенные данные, новые коды, изменения в структуре файла и прочее. Кроме того, внимательно изучайте результаты анализа на предмет адекватности. Репортерам «Геральд» пришлось строить график в очень сжатые сроки, поэтому их интересовала закономерность в наказаниях, назначенных каждым судьей. Та горстка дел, где наказание якобы отсутствовало, ускользнула от их внимания. Им следовало спросить себя: а не кажется ли странным, что все судьи допустили нарушение закона, даже если только в самой малой доле случаев?

Стив Дойг, Школа журналистики им. Уолтера Кронкайта, Университет штата Аризона

Буханка хлеба за 32 фунта

Газета Wales on Sundayопубликовала статью о том, что уэльское правительство тратит уйму денег на рекомендации употреблять продукты, не содержащие глютен. В заголовке говорилось, что правительство платит 32 фунта стерлингов за буханку хлеба, хотя на самом деле речь шла об 11 буханках по цене 2,82 фунта каждая.

В данных, взятых из письменного комментария уэльского правительства и статистики службы здравоохранения Уэльса, цифра была обозначена как стоимость одного рецепта. Тем не менее, дополнительных разъяснений относительно того, что считать рецептом и как отдельная колонка может определять его стоимость, в словаре данных не было.

Предположили, что цифра относится к одному предмету, т.е. к буханке хлеба, а не к нескольким буханкам.

Ни один человек из тех, кто составлял комментарий, ни даже пресс–служба, не заметили нестыковки, пока в понедельник не вышла статья.

Поэтому не думайте, что комментарии к правительственным данным помогут объяснить, какая информация представляется, или что люди, ответственные за сбор данных, заметят нестыковку, даже если вы озвучите свое неверное предположение.

Обычно газетам нужна информация, из которой можно сделать громкий заголовок. Поэтому, как правило, журналистам проще работать с тем, что подойдет для такого заголовка. Они не всегда щепетильно проверяют данные из страха потерять историю, особенно перед сдачей статьи. Разве что данные серьезно расходятся с их интерпретацией.

Однако, журналисты обязаны проверять нелепые заявления, даже если в результате статья сильно потеряет в скандальности.

Клэр Миллер, WalesOnline

Начали с данных, закончили статьей

Чтобы увлечь читателя, вы должны выдать в заголовке цифру, которая заставит читателя навострить уши. Статья должна читаться так, как будто она не основана на статистике. Сделайте ее увлекательной и на любом этапе не забывайте об аудитории.

Пример: проект Бюро журналистских расследований с использованием Системы финансовой прозрачности Комиссии Евросоюза. Статья была написана как результат применения специфических запросов к массиву данных.

Мы искали ключевые слова «коктейль», «гольф» и «выездное заседание». Таким образом, удалось определить, сколько Комиссия потратила на эти пункты бюджета. В результате возникло множество вопросов и сюжетных линий, по которым пришлось провести расследование.

Но ключевые слова не всегда могут дать вам нужную информацию. Иногда приходится сесть и поразмыслить, а что вы действительно ищите. Во время этого проекта мы также решили узнать, сколько члены комиссии тратят на частные перелеты, но так как данные не содержали фразу «частный самолет», пришлось выяснять названия авиакомпаний другим способом. Когда мы узнали, услугами какого частного перевозчика пользуется Комиссия (Abelag), мы задали вопрос и выяснили, сколько денег тратится на услуги Abelag.

Таким образом, мы четко определили задачу наших запросов: нам нужна цифра, которая сделает громкий заголовок и которую можно интерпретировать так или иначе.

Еще один возможный подход – начать с черного списка и искать исключения. Проще всего написать статью о той информации, которой быть не должно! Хороший пример: совместный проект Financial Times и Бюро журналистских расследований по изучению Структурных фондов ЕС.

Мы сделали запрос на основе правил самой Комиссии о том, каким видам компаний и ассоциаций должен быть закрыт доступ к структурным фондам. Пример: затраты на табак и производители табака.

Мы запросили у базы данных названия табачных компаний и производителей табака. Выяснилось, что компания British American Tobacco получает полтора миллиона евро за фабрику в Германии.

Так как правил затрат Комиссии исключают финансирование, мы очень быстро нашли повод для статьи.

Никогда не знаешь, какую информацию можно будет получить из массива данных, поэтому будьте внимательны. Нужно быть очень предприимчивым, так как лучше всего этот метод подходит для определения очевидных характеристик, которые выявятся в процессе сортировки (самые большие или предельные значения, наиболее часто встречающиеся и т.п.).

Селейн Барр, Citywire

Данные в статье

Иногда складывается впечатление, что журналистика данных заключается исключительно в представлении данных – визуализации, которая быстро и наглядно передает содержание цифр, или интерактивных базах данных с функцией поиска, которые позволяют, скажем, найти улицу или больницу в районе. Все это, конечно, может быть полезно, но, как и другие виды журналистики, журналистика данных предполагает написание статьи. Так какие статьи можно написать о данных? На основе моего опыта работы в BBC, я составил «типологию» статей, представляющих данные.

Думаю, стоит иметь в виду этот список – не только в процессе анализа данных, но и на стадии их сбора (ищете ли вы данные в свободном доступе или компилируете широкий набор информационных запросов).

1. Измерение

Простейшая история ; подсчет или подведение итога: «В прошлом году муниципалитеты потратили на скрепки Х миллиардов фунтов».

Зачастую сложно понять, много это или мало. Нужен контекст, который можно дать при помощи:

2. Соотношения

«В прошлом году муниципалитеты закупили скрепок на две трети своего бюджета на канцтовары»

3. Внутреннего сравнения

«Муниципалитеты тратят больше денег на скрепки, чем на передвижную кухню для престарелых»

4. Внешнего сравнения

«Муниципальные затраты на скрепки в прошлом году в два раза превысили государственный бюджет помощи иностранным государствам»

5. Изменение во времени

«Муниципальные затраты на скрепки за последние четыре года выросли втрое»

6. Ранжирования

Ранжировать можно по географическому местоположению или по учреждениям, но убедитесь, что основание для сравнения справедливо (например, учитывает численность местного населения).

«Муниципалитет Борсетшира тратит на скрепки для сотрудников больше, чем другие органы власти, и в четыре раза выше, чем тратится в среднем по стране».

Вы также можете разделить субъекты данных по группам:

7. Анализа по категориям

«Муниципалитеты Красной партии тратят на скрепки в 1,5 раза больше, чем муниципалитеты Желтой партии».

Вы можете соотнести факторы с помощью цифр

8. Ассоциаций

«Муниципалитеты, возглавляемые политиками, получившими взносы от производителей канцтоваров, тратят на скрепки больше, и на каждый фунт взноса приходится в среднем сто фунтов затрат»

Разумеется, не забывайте, что корреляция и причинная зависимость – не одно и то же.

Поэтому, изучая затраты на скрепки, получаете ли вы следующие цифры?

 Общие затраты для контекста

 Сортировку по географическим/историческим/иным факторам, чтобы получить сравнительные данные

 Дополнительные данные, чтобы обеспечить справедливость сравнения (например, численность населения)

 Другие данные, которые могут стать основой любопытного анализа, и с которыми можно сравнить или соотнести затраты

Мартин Розенбаум, ВВС

Журналисты, работающие с данными, обсуждают выбранные инструменты

Шршршр. Вот с таким звуком ваши данные сыплются из герметичной упаковки. Что теперь? Что вы ищите? Какие инструменты вы используете, чтобы начать работу? Мы попросили журналистов, работающих с данными, рассказать о том, как они работают. Вот что они ответили.

В блоге «Guardian Datablog» мы любим общаться с читателями. Мы позволяем им копировать наши исследования, а значит, они могут написать что–то на основе нашей работы и иногда подметить то, что от нас ускользнуло. Мы стараемся выбирать инструменты, которые может легко освоить любой без изучения языков программирования, без специального обучения или бьющей по карману лицензионной платы.

Именно по этой причине мы сейчас используем продукты Google. Все массивы данных, которые мы чистим и публикуем, доступны в формате Google Spreadsheet, а значит, пользователи, имеющие аккаунт в Google, смогут скачать данные, импортировать в свой аккаунт и составить собственные графики, отсортировать данные и создать сводные таблицы, либо импортировать данные в ту программу, которую они предпочитают использовать.

Для преобразования данных мы используем таблицы Google Fusion. Когда мы создаем теплокарты в Fusion, то расшариваем свои шейп–файлы KML, чтобы читатели смогли скачать их и создать свои теплокарты, может быть, добавив дополнительные слои данных на первоначальную карту Datablog. Еще одно преимущество инструментов Google – они работают на множестве платформ, с которых наши читатели заходят на наш блог (настольный компьютер, мобильные устройства, планшетники).

Помимо таблиц Google и Fusion мы используем в своей работе еще два инструмента. Первый – это планшет для визуализации многомерных массивов данных. Второй – это ManyEyes для быстрого анализа данных. Они, конечно, не совершенны, поэтому мы продолжаем искать более подходящие средства визуализации, которые понравятся нашим читателям.

The Guardian— Лиза Эванс

Буду ли я когда–нибудь программистом? Очень сомневаюсь! Не думаю, что журналистам обязательно уметь программировать. Но полезно представлять возможности программистов, чтобы уметь правильно поставить задачу.

На начальном этапе действуйте аккуратно. Сначала нужно убедить коллег и редакторов, что для работы над статьей вам необходимы данные и игра стоит свеч. Когда они поймут ценность такого подхода, вы можете расширить свою работу до более сложных статей и проектов.

Рекомендую научиться работать в Excel, чтобы сначала выполнять простые операции с данными. Постепенно переходите к анализу баз данных и созданию теплокарт. В Excel столько можно сделать. Это очень полезный инструмент, и большинство людей не знают и половины его возможностей. При случае пойдите на курс работы в Excel для журналистов (такой, например, предлагают в Центре журналистских расследований).

Что касается интерпретации данных: все не так просто. Будьте внимательны ко всем деталям, подвергайте сомнению результаты. Записывайте наблюдения по работе с данными, храните копию оригинальных данных. Очень просто совершить ошибку. Я всегда провожу анализ два или три раза, причем практически с начала. Еще лучше – привлеките редактора или другого коллегу проанализировать данные отдельно от вас и сравните результаты.

Financial Times— Синтия О’Мурчу

Раньше от журналиста не требовалось одновременно уметь писать и так же быстро использовать сложные программы. Раньше работа с данными отнимала у журналистов гораздо больше времени. Все изменилось благодаря развитию двух открытых и бесплатных фреймворков: Django и Ruby on Rails, которые были разработаны в 2000–е годы.

Django, написанный на языке Python, разработал Адриан Головатый и журналисты оперативных выпусков The Lawrence Journal–World в г. Лоуренс, штат Канзас. Ruby on Rails был разработан в Чикаго Дэвидом Хайнемайером Ханссоном и компанией–разработчиком веб–приложений 37Signals.

Хотя фреймворки используют разные подходы к модели MVC, они оба отлично подходят для быстрой разработки даже очень сложных веб–приложений. Они освобождают от самой первичной работы по созданию приложений. В них уже встроены функции создания и переноса данных из баз, сопоставление URL с кодами в приложении, поэтому у разработчиков нет необходимости писать код для таких элементарных вещей.

Хотя в США не проводили официального опроса среди групп, работающих с новостными приложениями, общепринятая точка зрения заключается в том, что большинство использует один из этих двух фреймворков для новостных приложений с базой данных. В ProPublica мы используем Ruby on Rails.

С появлением инфраструктуры веб–сервисов (например, Amazon Web Services) также решило проблему замедленного использования веб–приложений.

Помимо этого, мы используем и стандартные инструменты для работы с данными: Google Refine и Microsoft Excel для очистки данных; SPSS и R для создания статистики; ArcGIS и QGIS для создания геоинформационных систем; Git для работы с исходным кодом; TextMate, Vim и Sublime Text для написания кода; и сочетание MySQL, PostgreSQL и SQL Server для работы с базами данных. Мы разработали свой собственный фреймворк Glass на JavaScript, он помогает очень быстро создавать сложные приложения на JavaScript для внешнего интерфейса.

ProPublica— Скотт Кляйн

Зачастую простейший инструмент – лучший инструмент. Переоценить значение электронных таблиц сложно. Но когда все еще работали в DOS, электронные таблицы помогли мне понять сложную формулу партнерского соглашения для владельцев «Техасских рейнджеров» (тогда Джордж Буш еще был одним из них). С помощью электронной таблицы можно выявить резко отклоняющиеся значения или ошибки в вычислениях. Я могу написать скрипт для очистки данных – и многое другое. Для журналиста, работающего с данными, это основной инструмент. Мои любимые инструменты имеют еще больше возможностей: SPSS проводит статистический анализ, а программы для создания графиков позволяют увидеть географические закономерности.

Seattle Times— Шерил Филипс

Я очень люблю программировать на языке Python. Это отличный язык программирования с открытым исходным кодом, которым легко пользоваться (например, не нужно ставить точку с запятой в конце каждой строки). Более того, Python имеет огромный базовый контингент потребителей, поэтому есть плагины (расширения) практически для любых функций.

Мне кажется, журналисты редко пользуются Django. Это фреймворк для веб–приложений на языке Python, инструмент для создания больших приложений с базами данных. Для маленькой интерактивной инфографики это, конечно, чересчур.

Я также работал в QGis — это инструментарий в открытом доступе, который предлагает широкий набор функций для создания геоинформационных системы. Он будет полезен журналистам, которые периодически имеют дело с географическими данными. Если нужно преобразовать геопространственные данные из одного формата в другой, QGis — то что надо. Он может работать практически с любым существующим форматом геоданных (шейп–файлы, KML, GeoJSON и др.). Если нужно вырезать несколько регионов, с этим прекрасно справится QGis. К тому же, вокруг QGis сложилось огромное сообщество пользователей, поэтому в Сети вы найдете уйму ресурсов и рекомендацийпо работе с этой программой.

R создавался главным образом как инструмент визуализации научных данных. Вы вряд ли найдете метод визуализации или обработки данных, который не встроен в R. R содержит в себе все, это универсальное средство анализа визуальных данных. Единственный недостаток, о котором вам следует знать: вам придется выучить (еще один) язык программирования, так как R использует собственный язык. Но как только вы немного освоитесь, то поймете, что более мощного инструмента, чем R, нет. Подготовленные журналисты используют R для анализа огромных массивов данных, который выходит за пределы возможностей Excel (например, если вы работаете в таблице с миллионом строк).

Чем действительно хорош R, так это тем, что вы можете хранить точный «протокол» всех действий с данными на протяжении всего процесса, начиная с чтения CSV–файла до создания таблиц. В случае изменения данных, вы можете создать таблицу заново одним кликом мышки. Если кто–то усомнится в безошибочности вашей таблицы, вы сможете показать источник данных, который позволяет любому самостоятельно в точности воссоздать эту таблицу (или найти ваши ошибки, если они есть).

NumPy и MatPlotLib позволяют делать примерно то же самое, но на языке Python. Они подойдут вам, если вы уже хорошо программируете на Python. По сути NumPy и MatPlotLib — примеры ПО, созданного на Python. Их можно использовать для анализа и визуализации данных, но только для статической визуализации. В них нельзя создавать интерактивные графики с всплывающими подсказками и прочими наворотами.

Я не работаю в MapBox, но слышал, что в нем можно делать сложные диаграммы на основе OpenStreetMap. Например, можно настроить под пользователя стили диаграмм (цвета, легенды и т.д.). У MapBox есть дополнительное приложение, Leaflet. По сути это та же библиотека на JavaScript для составления диаграмм и графиков, но более высокого уровня. Leaflet позволяет с легкостью переключаться с одного поставщика карт на другого (OSM, MapBox, Google Maps, Bing…).

RaphaelJS — библиотека для визуализаций более низкого уровня, которая позволяет работать с базовыми элементами (круги, линии, тексты) и создавать на их основе анимацию, добавлять интерактивные элементы. Шаблонов для столбчатых диаграмм в нем нет, так что придется нарисовать пару прямоугольников самостоятельно.

Тем не менее, все графики Raphael будут открываться в Internet Explorer. Многие другие (даже очень хорошие) библиотеки для визуализации (например, d3) такого свойства не имеют. К сожалению, многие пользователи до сих пор работают в IE, а ни один ньюсрум не имеет права игнорировать 30% своей аудитории.

Помимо RaphaelJS, можно создавать резервный вариант флэш для IE. Именно так поступают в New York Times. Это значит, что каждое приложение придется создавать дважды.

Не уверен насчет полной совместимости визуализаций в RaphaelJS с IE и современными браузерами. Очень часто приложения RaphaelJS работают в IE очень медленно, почти в десять раз медленнее, чем в формате Flash в новых браузерах. Так что резервный вариант в формате Flash может быть хорошим решением, если вам нужна высококачественная визуализация для всех пользователей.

Open Knowledge Foundation— Грегор Эйш

Для меня самый надежный инструмент – Excel, который может справиться с большинством автоматизированных задач журналистики. Более того, он прост в использовании и доступен большинству журналистов. Для объединения таблиц я обычно использую Access, затем экспортирую объединенную таблицу обратно в Excel и работаю дальше. Для географических анализов я использую ArcMap от ESRI. Им пользуются многие агентства, которые собирают геокодированные данные.

TextWrangler отлично подходит для изучения текстовых данных в замысловатом формате и разделителями. Он также может выполнять сложный поиск и замену с распространенными выражениями. Когда мне нужны статистические методы (линейная регрессия), я использую SPSS. У него очень удобное и простое меню. Для мудреных заданий (например, массивов данных с миллионами записей, которые нуждаются в сортировке и программировании переменных трансформаций) я используют SAS.

Школа журналистики имени Уолтера Кронкайта— Стив Дойг

Мы используем Python и Django для обработки, очистки и переработки данных. PostGIS, QGIS и MapBox мы используем для создания навороченных веб–карт. R и NumPy + MatPlotLib сейчас борются за превосходство в анализе научных данных, хотя последнее время мы все чаще обращаемся к «доморощенному» инструменту, CSVKit. Практически все, что мы делаем, происходит в облаке.

Chicago Tribune— Брайан Бойер

В La Nacion мы используем: * Excel для очистки, структурирования и анализа данных; * Таблицы Google для публикации и объединения с сервисами типа Google Fusion Tables и Junar Open Data Platform; * Junar для расшаривания данных и внедрения их в статьи и блоги; * Tableau Public для интерактивной визуализации данных; * Qlikview – очень быстрый инструмент бизнес–аналитики для анализа и фильтрования больших массивов данных; * NitroPDF для конвертирования PDF в текстовые и Excel–файлы; * Google Fusion Tables для визулизации карт.

La Nacion (Аргентина)— Анхелика Перальта Рамос

Как стихийное сообщество без предубеждений относительно технических средств, мы в Transparency Hackers используем множество различных инструментов и языков программирования. У каждого из нас свой список предпочтений, и в этом разнообразии наша сила и слабость одновременно. Кто–то разрабатывает дистрибутив Linux от Transparency Hacker, который загружается где угодно и начинает вскрывать данные. Этот набор инструментов имеет несколько любопытных функций и библиотек для работы с данными (Refine, RStudio и OpenOffice Calc), о которых подкованные пользователи обычно забывают, но которые очень полезны для быстрых и мелких операций. Я также часто использую Scraperwiki, чтобы быстро смоделировать и сохранить результаты данных онлайн.

Для визуализации данных и создания схем есть много хороших инструментов. Например, очень много возможностей у Python и NumPy. Кое–кто из нашего сообщества балуется с R, но в конечном счете в большинстве проектов мы все равно используем библиотеки графиков на Javascript типа d3, Flot и RaphaelJS. Наконец, мы много экспериментировали с составлением диаграмм, и для этого нам очень интересным показался Tilemill.

Как использовать визуализацию данных для поиска взаимосвязей

Визуализация крайне важна для анализа данных. Это главная линия нападения, открывающая запутанные структуры в данных, которые нельзя получить другим способом. Мы находим то, что не ожидали найти, и ставим под вопрос то, что было ожидаемо.

— Уильям С. Кливленд: визуализация данных

Сами по себе данные, состоящие из битов и байтов в файле на жестком диске, невидимы. Чтобы увидеть данные и разобраться в них, нужно их наглядно представить. В этой главе я расскажу о более широком понятии визуализации, которая включает и чисто текстовое представление данных. Например, уже загрузка массива данных в программу создания таблиц будет визуализацией. Невидимые данные внезапно превращаются во вполне видимую картинку на экране. Вопрос не в том, нужно или нет журналистам наглядно представлять данные, а какой вид представления данных может быть наиболее наглядным в конкретном случае.

Другими словами, когда есть смысл идти дальше табличного представления? Ответ: почти всегда. Самих таблиц явно недостаточно для общего представления массива данных. И только таблицы не дают быстро определить закономерности в данных. Самый простой пример – географические закономерности, которые можно наблюдать только после визуализации данных на схеме. Есть и другие закономерности, о которых мы поговорим далее в этой главе.

Выявление взаимосвязей с помощью визуализации

Было бы опрометчиво ожидать, что инструменты для наглядного представления данных способны тут же обрушить на вас тонну готовых историй, возникших по мановению палочки из массивов данных. Нет никакого алгоритма, никакой гарантии, что вы получите сюжет. Напротив, думаю, имеет смысл искать взаимосвязи, которые руками хорошего журналиста мастерски вплетаются в статью.

Каждая новая визуализация, скорее всего, поможет увидеть взаимосвязи между данными. Какие–то взаимосвязи нам уже известны (но еще не доказаны), тогда как другие могут быть совершенно новыми и даже неожиданными. Какие–то новые взаимосвязи могут дать начало истории, в то время как другие будут просто результатом ошибки, которые наверняка обнаружатся в процессе визуализации.

Чтобы более эффективно находить взаимосвязи в данных, очень помогают описанные ниже шаги:

Рис 68. Data insights: a visualization (Gregor Aisch)

Как визуализировать данные

Визуализация позволяет в совершенно новом свете увидеть данные. Наглядное представление может быть самым разным.

Если у вас сравнительно небольшое количество элементов, то очень наглядными будут таблицы. Они демонстрируют подписи и значения в наиболее структурированном и организованном виде, раскрывая весь потенциал, а также позволяя сортировать и фильтровать данные. Кроме того, Эдвард Туфт предложил включить в колонки таблиц маленькие графики (одна графа на строку или линейный график – спарклайн). Те не менее, как было сказано во введении, у таблиц есть свои ограничения. Они отлично подходят для демонстрации одномерных значений, сильно отличающихся от других (например, первые 10), но когда дело доходит до сравнения нескольких измерений одновременно (например, изменение численности населения страны в течение времени), они мало полезны.

Рис 69. Tips from Tufte: Sparklines (Gregor Aisch)

В целом, графики позволяют изображать величины, придавая им визуальные характеристики геометрических фигур. Очень многое было написано об эффективности индивидуальных визуальных характеристик, но если суммировать коротко: с цветами работать сложно, ключевым является расположение. На диаграмме рассеяния, например, два измерения передаются координатами на осях x и y. Вы даже можете изобразить третье измерение – цветом или размером изображенных символов. Линейные графики особенно подходят для изображения изменений во времени, а гистограммы отлично подходят для сравнения категорийных данных. Можно накладывать элементы друг на друга. Если хотите сравнить небольшие группы данных, можно изобразить различные варианты одного графика (их также называют сетчатыми диаграммами). Во всех графиках можно использовать различные шкалы (линейную или логарифмическую, например), чтобы изучить данные с разных сторон.

На самом деле большинство данных, с которыми мы имеем дело, касаются реальных людей. Задача диаграмм – соотнести данные с нашим материальным миром. Представьте себе статистику преступлений, распределенную географически. Главное, что вы хотите увидеть – это места совершения преступлений. На диаграммах также можно обозначать географические связи между данными, например, изменение статистики в направлении с севера на юг или от городов к сельской местности.

Рис 70. Cloropeth (Gregor Aisch)

Что касается связей, четвертый по важности тип визуализации – это график. Графики показывают взаимосвязи (линии) между элементами данных (узлами). Расположение узлов высчитывается более–менее сложными алгоритмами разметки графиков, которые позволяют сразу же увидеть структуру внутри сети. Главное в визуализации с помощью графиков – найти верный способ моделирования самой сети. Не все массивы данных уже имеют встроенные связи, и даже в тех массивах, где они есть, это не самые интересные характеристики. Иногда журналисту приходится самому находить линии между узлами. Отличный пример —  Социальный граф Сената США, где линии соединяют сенаторов, проголосовавших одинаково в 65% случаев.

Анализируйте и интерпретируйте то, что видите

После того, как вы наглядно изобразили данные, из созданной картинки можно почерпнуть информацию. Спросите себя:

 Что я вижу на рисунке? То ли это, что я ожидал увидеть?

 Просматриваются ли какие–то интересные закономерности?

 Что это означает в контексте имеющихся данных?

Иногда может получиться изображение, которое, несмотря на внешнюю складность, не говорит вам ничего интересного. Но из любого изображения почти всегда можно что–то почерпнуть, каким бы обычным оно ни было.

Фиксируйте свои наблюдения и действия

Если представить весь процесс как плавание через массив данных, то фиксировать наблюдения – все равно что вести судовой журнал. Из него вы узнаете, где уже побывали, что увидели и почему решили взять курс на тот берег, куда теперь плывете. Вы даже можете начать фиксировать наблюдения еще до того, как впервые взглянете на данные.

В большинстве случаев, когда вы начинаете работать с новым массивом данных, у вас уже есть какие–то ожидания и предположения насчет данных. Обычно тот или иной массив данных интересует вас по конкретной причине. Неплохо начать ведение «журнала» с этих первоначальных предположений. Это поможет определиться с точкой зрения и уменьшит риск неверного истолкования данных только потому, что вы обнаружили то, что хотели найти.

Лично я считаю, что фиксирование шагов – наиболее важный этап всего процесса. И именно его почему–то многие упускают. Как вы увидите в ниже приведенном примере, описанный процесс подразумевает обширный анализ данных и нанесение их на схемы. Рассматривать 15 диаграмм, даже созданных вами, без пометок может быть очень затруднительно, особенно по прошествии времени. Эти схемы вообще представляют ценность (вами или тому, кто будет знакомиться с вашими изысканиями) исключительно в контексте исследования. Поэтому не сочтите за труд ответить на следующие вопросы:

 Для чего создана диаграмма?

 Как я обработал данные, чтобы получить ее?

 Какую информацию сообщает диаграмма?

Преобразуйте данные

Естественно, выявив из уже имеющихся визуализаций взаимосвязи, вы будете примерно представлять, что хотите получить дальше. Возможно, вы найдете какую–то интересную закономерность в массиве данных, которую захотите исследовать подробно.

Возможные преобразования:

Увеличение

Чтобы рассмотреть какую–либо деталь на изображении

Группировка Чтобы соединить элементы в одну группу

Фильтрование

Чтобы (временно) удалить те элементы, которые не представляют интереса

Удаление резко отличных значений

Чтобы убрать отдельные точки, которые не отражают 99% массива данных.

Давайте представим, что вы изобразили график, но получился только набор точек, связанных сотнями линий (очень распространенный результат при визуализации так называемых сетей с множественными связями). Тогда разумным было бы отфильтровать линии. Если, например, линии отражают поток средств из стран–кредиторов в страны–получатели, можно удалить потоки ниже определенного уровня.

Какие инструменты использовать

Выбор инструмента — вопрос непростой. Каждый инструмент визуализации данных по–своему хорош. Визуализация и извлечение данных должны быть простыми и незатратными. Если у вас уходят часы на изменение параметров визуализации, вы не станете много экспериментировать. Это вовсе не означает, что вам не нужно учиться работать с этим инструментом. Но когда вы научитесь его использовать, он должен стать действительно полезным.

Нередко имеет смысл выбрать инструмент, который и обрабатывает, и визуализирует данные. Если разделить задачи между разными инструментами, то вам придется несколько раз импортировать и экспортировать данные. Вот несколько инструментов визуализации и обработки данных:

 Электронные таблицы: LibreOffice, Excel или Google Docs

 Фреймворки для статистического программирования: R (r–project.org) или Pandas (pandas.pydata.org)

 Геоинформационные системы (GIS): Quantum GIS, ArcGIS, GRASS

 Библиотеки для визуализации: d3.js (mbostock.github.com/d3), Prefuse (prefuse.org), Flare (flare.prefuse.org)

 Инструменты обработки данных: Google Refine, Datawrangler

 Программы для визуализации без программирования: ManyEyes, Tableau Public (tableausoftware.com/products/public)

Примеры визуализаций в следующем разделе были созданы в фреймворке R. Он как швейцарский армейский нож со множеством лезвий — справится с чем угодно.

Пример: Взносы кандидатов в президенты США

Возьмем для примера базу данных финансирования президентских выборов в США, которая содержит около 450 000 взносов для кандидатов в президенты. Файл CSV весит 60 Мб, поэтому он слишком большой для таких программ, как Excel.

Для начала я подробно опишу свои предположения об этой базе данных: * Обама получил больше всего взносов (т.к. он президент и пользуется большей популярностью) * С приближением даты выборов количество взносов увеличивается * Обама получил больше маленьких взносов, чем кандитаты–республиканцы.

Чтобы ответить на первый вопрос, нужно преобразовать данные. Необходимо суммировать все взносы и получить общую сумму по каждому кандидату. Изобразив результаты в видеотсортированной таблицы, мы можем доказать предположение о том, что Обама собрал больше всех средств:

Кандидат Сумма ($)
Обама, Барак 72,453,620.39
Ромни, Митт 50,372,334.87
Перри, Рик 18,529,490.47
Пол, Рон 11,844,361.96
Кейн, Герман 7,010,445.99
Гингрич, Ньют 6,311,193.03
Поуленти, Тимоти 4,202,769.03
Хантсмен, Джон 2,955,726.98
Бакманн, Мишель 2,607,916.06
Санторум, Рик 1,413,552.45
Джонсон, Гари Ирл 413,276.89
Рёмер, Чарльз Э. Бадди III 291,218.80
Маккоттер, Тадеус Дж. 37,030.00
Хотя в таблицу указаны суммы в порядке убывания, нам это мало говорит о закономерностях в ранжировании кандидатов. Рис 71демонстрирует иное представление данных – в виде графика или точечной диаграммы, на которой видны те же данные, что и в таблице, плюс закономерности внутри области. Например, точечная диаграмма позволяет быстро сравнить разрыв между Обамой и Ромни или между Ромни и Перри, не вычисляя разницу. (Примечание: точечная диаграмма была составлена в R. Ссылки на исходный код вы найдете в конце главы).

Рис 71. visualizations to spot underlying patterns (Gregor Aisch)

Теперь перейдем к более обширной картине массива данных. На первом этапе с помощью простого скрипта я визуализировал все взносы за период времени. Как видно, взносы почти всех кандидатов ничтожно малы по сравнению с тремя наиболее крупными значениями. Дальнейший анализ показывает, что эти огромные взносы пришли из «Фонда победы Обамы 2012» (по–другому «Супер ПАК»), а именно 29 июня ($450 тыс.), 29 сентября ($1,5 млн.) и 30 декабря ($1,9 млн.).

Рис 72. Three clear outliers (Gregor Aisch)

В то время как сами взносы от «Супер ПАК» уже без сомнения дают отличный повод для написания статьи, можно взглянуть шире. Дело в том, что эти крупные взносы отвлекают наше внимание от маленьких взносов, сделанных частными лицами. Поэтому уберем их из поля зрения. Такое преобразование обычно называют исключением резко отклоняющихся значений. Вновь изобразив данные на графике, мы видим, что большинство взносов составляли от $10 тыс. до –$5 тыс.

Рис 73. Removing the outliers (Gregor Aisch)

Согласно «Закону о федеральной избирательной кампании», частные лица не могут делать взносы более $2 500 в пользу каждого кандидата. Как видно из графика, очень много взносов гораздо выше этого допустимого уровня. В частности, наше внимание привлекли два больших взноса, сделанных в мае. Складывается впечатление, что они, как в зеркале, отражены в отрицательных значениях (возвратах) в июне и июле. Дальнейший анализ данных выявил следующие транзакции:

 10 мая Стивен Джеймс Дэвис из Сан–Франциско, юрисконсульт Banneker Partners, перечислил Обаме $25 800.

 25 мая Синтия Мёрфи из Литл–Рок, специалист по связям с общественностью в Murphy Group, перечислила Обаме $33 300.

 15 июня $30 800 было возвращено Синтии Мёрфи, в результате чего ее фактический взнос составил $2 500.

 8 июля $25 800 было возвращено Стивену Джеймсу Дэвису, в результате чего его фактический взнос составил $0.

Что любопытного в этих цифрах? Деньги, возвращенные Синтии Мёрфи ($30 800), эквивалентны максимальному годовому взносу, который может внести частное лицо в пользу комитетов национальной партии. Возможно, она хотела объединить два взноса в одну транзакцию, но ей было отказано. Деньги, возвращенные Стивену Джеймсу Дэвису ($25 800) теоретически равны разнице между $30 800 и $5 000 (максимально возможный взнос в любой другой политический комитет).

Еще один любопытный вывод из последнего графика – это горизонтальная линия, показывающая взносы республиканским кандидатам: от $5 000 до $2 500. Для большей наглядности я изобразил только взносы кандидатам–республиканцам. Получившийся график – это отличный пример выявления закономерностей, которые иначе не удалось бы обнаружить.

Рис 74. Removing outliers 2 (Gregor Aisch)

Мы видим, что многие кандидаты–республиканцы получили взносы по $5 000. При более близком рассмотрении видно, что таких взносов 1234, т.е. только 0,3% от общего числа взносов. Но так как взносы равномерно распределены во времени, просматривается линия. Интересно то, что частные взносы ограничены суммой в $2 500. Следовательно, каждый доллар сверх лимита был возвращен спонсору, в результате чего возникла вторая линия на уровне –$2 500. Такая закономерность не прослеживается, если проанализировать взносы в пользу Барака Обамы.

Рис 75. Removing outliers 3 (Gregor Aisch)

Таким образом, было бы интересно выяснить, почему тысячи спонсоров кандидатов–республиканцев не знали об ограничении, существующем для частных взносов. Для дальнейшего анализа рассмотрим общее количество взносов в размере $5 000 на каждого кандидата.

Рис 76. Donations per candidate (Gregor Aisch)

Конечно, это не совсем точная картина, так как не учитывается общее количество взносов каждому кандидату. Следующий график показывают долю взносов в сумме $5 000 на каждого кандидата.

Рис 77. Where does the senator’s money come from?: donations per candidate (Gregor Aisch)

Какой можно сделать вывод

Зачастую подобный наглядный анализ нового массива данных кажется очень увлекательным путешествием в незнакомую страну. Вы – чужеземец, при вас только данные и предположения, но с каждым шагом, с каждым новым графиком вы все больше вникаете в вопрос. На основе полученных выводов вы предпринимаете новые шаги, решаете, какие вопросы требуют более тщательного изучения. Как становится ясно из этой главы, процесс визуализации, анализа и преобразования данных можно повторять практически бесконечно.

Исходный код

Все графики, изображенные в этой главе, были созданы с помощью очень полезного и эффективного инструмента R. Создавался он главным образом как инструмент визуального представления научных данных, но трудно найти способ визуализации или извлечения данных, который бы не был уже предусмотрен в R. Для тех, кто интересуется работой с R, я даю ссылки на исходные коды графиков, представленных в этой главе. Существует также множество книг и руководств по этой программе.

Точечная диаграмма: взносы на каждого кандидата

График: все взносы за период времени

График: взносы от уполномоченных комитетов

Грегор Эйш Open Knowledge Foundation

Представление данных

Представление данных общественности

Существует много разных способов представить ваши данные общественности — начиная с публикации наборов исходных данных вместе с информационно–аналитическими материалами, и заканчивая созданием красивых визуализаций и интерактивных веб–приложений. Мы попросили ведущих журналистов, работающих с данными, обозначить подсказки и дать советы по поводу того, как представлять данные общественности.

Визуализировать или не визуализировать?

Бывают случаи, когда данные могут рассказать историю и передать суть материала лучше слов или фотографий, вот почему такие термины как «новостное приложение» и «визуализация данных» получили статус своего рода модного словечка в столь многих ньюсрумах в последнее время. Также подпитывает интерес и небывалый урожай новых инструментов и технологий (зачастую, свободно распространяемых и бесплатных), предназначенных для того, чтобы помочь даже самым продвинутым журналистам данных создать проект в области визуализированной подачи материала.

Такие инструменты как таблицы Google Fusion (Google Fusion Tables), Many Eyes, Tableau, Dipity, и другие, облегчают задачу, будь то создание карт, графиков, диаграмм, или даже полноценных и полномасштабных приложений по работе с данными, которые до того были исключительно прерогативой специалистов. В результате в условиях, когда барьер для входа в эту область ныне уменьшился до размеров дорожного полицейского, перед журналистами теперь встал вопрос не столько о том, как превратить ваш набор данных в визуализацию, сколько о том, стоит ли это делать. Плохая визуализация данныххуже во многих отношениях, чем никакой визуализации.

Арон Пилхофер, New York Times

Использование анимированной графики

С четким, жестким сценарием, четко размеченной по времени анимацией и ясными объяснениями, анимированная графика может отлично служить решению задачи оживления сложных цифр или идей, может направлять вашу аудиторию по ходу освоения ею вашего сюжета или материала. Видео–лекции Ханса Рослинга (Hans Rosling) могут служить хорошим примером того, как данные могут воплотиться в жизнь, ожить и заиграть новыми красками, чтобы рассказать основанную на цифрах историю. И вы бы не стали, или вам не следовало бы, представлять эту графику в виде статичной картинки. Там слишком много всего происходит. А когда это выстраивается и монтируется шаг за шагом, у вас остается понимание того, как и когда авторы пришли к этому показателю. С анимированной графикой и анимированными короткими роликами вы можете усилить то, что слышит ваша аудитория из озвучки, путем объясняющих все видео– и визуализаций, что дает в итоге очень мощный и запоминающийся способ создания сюжета и рассказа истории.

Лулу Пинней,BBC

Повествуя всему миру

Наш рабочий процесс обычно начинается в Excel. Это очень простой способ быстро выяснить и решить, есть ли в данных что–нибудь интересное. Если у нас появляется ощущение, что в них что–то есть, тогда мы уже идем в редакцию информационного отдела. Нам правда повезло, так как мы сидим прямо рядом с основным новостным отделом в Guardian. Потом мы смотрим, как нам стоит визуализировать эти данные или показать их на странице. Потом мы пишем пост, который сопровождает данные. Когда я пишу, у меня обычно открыта сокращенная версия таблицы рядом с текстовым редактором. Часто я провожу небольшой анализ, когда пишу, чтобы выделить и отметить наиболее интересные моменты. Потому я публикую пост и трачу некоторое время на то, чтобы написать твит о нем, при этом пишу разным людям, и в итоге удостоверяюсь, что на этот пост есть ссылки изо всех нужных мест.

Половина трафика для некоторых из наших постов идет с «Твиттера» или с «Фэйсбука». Мы весьма гордимся тем, что среднее количество времени, которое пользователи проводят в статье в Datablog, составляет 6 минут, по сравнению с одной минутой в среднем для остальной части вебсайта Guardian. Шесть минут это весьма хороший показатель, а время, проведенное пользователем на странице, является одним из ключевых индикаторов при анализе нашего трафика.

Это также помогает убедить наших коллег в ценности и полезности того, что мы делаем. Это, а также большие основанные на данных сюжеты и материалы, которые мы создали, и которые знакомы каждому в ньюсруме: COINS, Wikileaks и британские волнения. Для проекта данных по расходам COINS у нас было 5–6 спецкорреспондентов в Guardian, которые работали над тем, чтобы представить свою точку зрения на данные, когда они были обнародованы британскими властями. У нас также была команда из еще 5–6 человек, которая работала на проектом, посвященным расходам британского правительства в размере свыше 25 000 фунтов стерлингов — в эту команду входили также хорошо известные журналисты, такие как Полли Кертис (Polly Curtis). Данные Wikileaks также совершенно очевидно были очень большими — множество историй об Ираке и Афганистане. Проект по беспорядкам в Британии также был очень большим, и набрал более 550 000 «хитов» всего за два дня.

Но речь не только о краткосрочных «хитах»: эти проекты также стали надежным источником полезной информации. Мы стараемся быть тем местом, где вы можете получить качественную, осмысленную, выразительную и достоверную информацию по темам, которые мы освещаем.

Саймон Роджерс, The Guardian

Опубликование данных

Мы часто встраиваем наши данные в наш сайт при помощи визуализации, в той форме, которая дает возможность легко скачивать наборы данных. Наши читатели могут изучать данные, лежащие в основе материалов, посредством взаимодействия в рамках визуализации, или же использовать сами исходные данные иными способами. Почему это важно? Это увеличивает степень прозрачности The Seattle Times. Мы показываем читателям те же самые данные, которые мы сами использовали для того, чтобы прийти к серьезным выводам и заключениям. А кто этим пользуется? Конечно, наши критики, а также те, кто просто интересуется поднятой темой и всеми ее ответвлениями, последствиями и вариантами развития событий. Делая данные доступными, мы также можем набрать подсказок от этих самых критиков и читателей в целом — о том, что мы, возможно, могли упустить, и что нам, возможно, стоит исследовать дальше — что очень ценно в погоне за созданием журналистских материалов, которые будут иметь значение.

Шерил Филлипс (The Seattle Times)

Открытие ваших данных

Предоставлять потребителям новостей легкий доступ к данным, которые мы использовали для нашей работы — это правильно по нескольким причинам. Читатели могут удостовериться, что мы не вымучиваем данные, чтобы прийти к несправедливым, нечестным или неправильным выводам. Делать наши данные открытыми — это традиция для общественных и социальных наук, которая позволяет исследователям повторить нашу работу. Стимулирование читателей к тому, чтобы изучать данные, может дать нам подсказки, которые могут привести к появлению дополнительных историй или сюжетов на основе данных. Наконец, участвующие в процесс читатели, интересующиеся вашими данными, весьма вероятно, будут возвращаться к вам снова и снова.

Стив Дойг (Школа журналистики Уолтера Кронкайта, Университет штата Аризона)

Создавая платформу открытых данных

В La Nación публикация открытых данных является неотъемлемой составной частью нашей деятельности в области журналистики данных. В Аргентине нет закона о свободе информации, и нет национального портала данных, поэтому мы испытываем непоколебимые убеждения в необходимости предоставления нашим читателям доступа к тем данным, которые мы используем в наших сюжетах и материалах.

Поэтому мы публикуем структурированные исходные данные на нашей интегрированной платформе Junar, а также в Google Spreadsheets. Мы намеренно даем возможность и стимулируем других повторно использовать наши данные, и мы даже немного объясняем, как это сделать, при помощи документальных и видео–инструкций.

Более того, мы представляем некоторые из этих наборов данных и визуализаций в нашем блоге данных NACION(NACION Data blog). Мы делаем это с целью продвигать, буквально–таки проповедовать данные и инструменты для публикации данных в Аргентине, а также для того, чтобы показать другим, как мы собирали наши данные, как мы использовали их, и как они могут повторно их использовать.

С тех пор, как мы открыли эту платформу в феврале 2012 года, мы получили много предложений и идей по поводу работы с наборами данных, в основном, от представителей академических кругов и разных исследователей, а также от студентов университетов, которые всякий раз выражают огромную благодарность, когда мы реагируем на их запросы созданием какого–либо решения или специального набора данных. Люди также работают с нашими данными и комментируют их в Tableau, и несколько раз наши заметки и статьи становились наиболее комментируемыми и выходили в топ этой службы. В 2011 году на нашу долю пришлось 7 из топ–100самых просматриваемых визуализаций.

Ангелика Перальта Рамос, La Nación, Аргентина

Сделать данные более человечными и понятными

По мере того, как разговоры вокруг больших объемов данных ведутся во все более широких масштабах и начинают охватывать все более широкий набор тем, одна важная часть подозрительным образом отсутствует в таких обсуждениях — это человеческий фактор. В то время как многие из нас считают данные ни к чему не причастными, пребывающими в свободном обращении цифрами, на самом деле они представляют собой результаты измерений и оценки весьма ощутимых и осязаемых фактов (зачастую вполне человеческих). Данные привязываются к реальной жизни реальных людей, и когда мы имеем дело с цифрами, мы должны учитывать те субстанции и системы реального мира, откуда они, эти данные, поступают.

Возьмем, например, данные о местоположении, которые сейчас, прямо в данный конкретный момент, собирают сотни миллионов телефонов и иных мобильных устройств. Легко думать об этих данных (цифрах, которые фиксируют широту, долготу и время), как об эдаких цифровых «выхлопных газах», своего рода побочной информации, но на самом деле они являются дистиллированными моментами нашей личной жизненной повести, представляют собой хронологически подобранные сведения о нас. И хотя они могут казаться сухими и безжизненными, если их читать в таблице, то когда мы даем возможность людям нанести данные о самих себе на карту и вновь проиграть их, они испытывают своего рода повтор памяти, что является мощным инструментом и вписывается в рамки человеческой составляющей.

В настоящий момент данные о местонахождении используются многочисленными «третьими сторонами» — разработчиками приложений, крупными брендами и рекламщиками. В то время как «вторые стороны» (телекоммуникационные компании и диспетчеры устройств) владеют данными и хранят их, «первые стороны» в этом уравнении — вы сами — не имеют ни доступа к этой информации, ни контроля над ней. В исследовательском отделе NYTimes мы запустили предварительный проект под названием «Открытые пути» (OpenPaths — openpaths.cc) — как для того, чтобы дать людям возможность изучить свои собственные локационные данные, так и для того, чтобы на опыте изучить концепцию владения данными. В конце концов, люди должны иметь возможность контролировать эти цифры, так как они так тесно связаны с их собственной жизнью.

Журналисты играют очень важную роль в обнародовании, вытаскивании, так сказать, «на свет божий», этой присущей данным человеческой природы, человеческой составляющей. Делая это, они обладают силой, позволяющей менять общественное понимание и восприятие — как данных, так и тех систем, их которых эти данные возникли.

Джер Торп, специалист по работе с данными: Научно–исследовательский отдел New York Times

Открытые данные, открытые источники, открытые новости

2012 год вполне можно назвать годом открытых новостей. Это лежит в самом центре нашей редакционной идеологической политики и является ключевым посылом нашей нынешней брендовой политики. На фоне всего этого ясно, что нам нужен открытый процесс для журналистики в области работы с данными. Этот процесс должен не только подпитываться открытыми данными, но также обеспечиваться наличием открытых инструментов для работы с ними. К концу года мы рассчитываем иметь возможность сопровождать каждую визуализацию, которую мы публикуем, доступом как к данным, которые лежат в ее основе, так и к программе, благодаря которой она была сделана и работает.

Многие из инструментов, используемых для визуализации сегодня, являются закрытыми исходниками и программными продуктами. Другие выпускаются с ограниченными лицензиями, которые запрещают использование деривативных, производных, вторичных данных. Библиотеки открытых источников, которые сейчас существуют, часто могут решить одну проблемы, но неспособны предложить более широкую методологию. Все это вместе взятое осложняет людям задачу делать свои построения на работах друг друга. Эта проблема скорее способствует сокращению разговоров и обсуждений проектов, чем увеличению и распространению их. В связи с этим мы разрабатываем набор открытых инструментов для интерактивного рассказывания историй и создания материалов — the Miso Project (@themisoproject).

Мы обсуждаем эту работу с многочисленными медийными организациями. Требуется участие всего сообщества, чтобы осознать полный потенциал программного обеспечения с открытым исходным кодом. Если нам будет сопутствовать успех, это будет способствовать появлению совершенно иной динамики среди наших читателей. Их вклад тогда отойдет от одних лишь комментариев и станет представлять собой уже дублирование и копирование нашей работы, поиск ошибок и недочетов в нашей работе или повторное использование данных неожиданными способами.

Алистер Дант, The Guardian

Добавляем ссылку для загрузки

За последние несколько лет я успел поработать с несколькими гигабайтами данных для проектов или статей, начиная от отсканированных документов в виде печатных таблиц 1960–х годов, и заканчивая полутора гигабайтами дипломатических депеш, опубликованных Wikileaks. Всегда было трудно убедить редакторов систематически публиковать данные источников в открытом и доступном формате. Пытаясь обойти эту проблему, я добавил ссылки типа «Загрузить исходные данные» в статьи, которые вели на архивы, содержащие файлы соответствующих документов Google docs. Интерес со стороны потенциальных неоднократных пользователей совпал с тем, который мы видели в случае с финансируемыми правительством программами (т.е. был очень–очень низким). Однако несколько случаев повторного использования позволили нам получить новые сведения и стимулировали разговоры о проекте, которые вполне стоят того, чтобы потратить пару лишних минут на проект!

Николас Кайзер–Бриль, Journalism++

Знать ваши масштабы

Знайте ваш масштаб, ваш охват. Существует большая разница между тем, чтобы решать проблему программирования для удовольствия, и тем, чтобы создавать программу для определенного масштабного проекта и качественной работы. Удостоверьтесь, что вы взяли в партнеры людей, которые имеют соответствующие подходящие навыки для вашего проекта. Не забудьте про дизайн. Юзабилити, удобство использования, пользовательский интерфейс и дизайн, конструкция самой презентации, самого представления данных, могут в значительной степени сказаться на успехе или неуспехе вашего проекта.

Крис Ву, Hacks/Hackers

Как создать новостное приложение

Рис 78. Проект по отслеживанию устройств диализа (Dialisis Facility Tracker)(ProPublica)

Проект по отслеживанию устройств диализа (Dialisis Facility Tracker) (ProPublica)

Новостные приложения являются, образно говоря, окнами, ведущими в те данные, которые лежат в основе сюжета или материала. Это могут быть пригодные для поиска базы данных, приглаженные и элегантные визуализации, или что–то еще. Но неважно, какую форму они принимают — новостные приложения в любом случае подстегивают читателей, стимулируют их к взаимодействию с данными в том контексте, который является для них значимым: хотят ли они взглянуть на тенденции изменения уровня и характера преступности в их районе, проверить документы по безопасности их местного врача или найти информацию о политических пожертвованиях в пользу выбранного ими кандидата.

Представляя собой нечто большее, чем просто высокотехнологичную инфографику, лучшие новостные приложения являются товаром длительного пользования. Они живут вне рамок новостного цикла, часто за счет того, что помогают читателям решать проблемы реального мира, или отвечая на разные вопросы таким полезным или оригинальным способом, что становятся живучими, длительными в использовании, фактически постоянными источниками. Когда журналисты в ProPublica захотели изучить вопрос о безопасности в американских клиниках диализного лечения, они сконструировали приложение, которое могло помочь пользователям проверить, является ли безопасной соответствующая клиника, расположенная в их родном городе. Предоставление столь важной и значимой, основанной на конкретных требованиях услуги, создает отношения с пользователями, которые простираются далеко за пределы того, что способна сделать обычный повествовательный материал.

Здесь кроется и вызов, и перспектива создания самых передовых новостных приложений: создавать что–либо, что имело бы непреходящую, долговременную, перспективную ценность. Неважно, будь вы девелопер или менеджер, любые разговоры и споры о том, как создать великолепное, самое лучшее новостное приложение, должны начинаться с психологической концепции разработки продукта: держите лазерный прицел наведенным на пользователя, и работайте таким образом, чтобы получить, грубо говоря, максимальный эффект за свои деньги. Поэтому прежде чем начать конструировать проект, будет совершенно не лишним задать себе три вопроса:

Кто представляет мою аудиторию и каковы их нужды?

Новостные приложения не служат сюжету или материалу ради него самого, так сказать, из любви к искусству — они служат пользователю. В зависимости от проекта, этим пользователем может быть либо диализный пациент, который хочет знать о документах по безопасности в своей клинике, или даже владелец дома, неосведомленный об опасности землетрясения возле своего жилища. Неважно, кто это — любые дискуссии и разговоры о создании новостного приложения, как и любого качественного продукта, должны начинаться с определения того, кто те люди, которые, как предполагается, будут им, этим приложением, пользоваться.

Одно конкретное приложение может служить интересам многих пользователей. Напрмер, проект под названием Curbwise, созданный изданием Omaha (Nebraska) World–Herald, служит интересам, во–первых, владельцам домов, которые уверены, что они платят слишком много налогов; во–вторых, любознательных жителей, которые интересуются стоимостью недвижимости по–соседству; в–третьих, работникам сектора недвижимости, которые пытаются отслеживать свежие предложения по продаже. В каждом из этих случаев приложение отвечает конкретным нуждам, что заставляет пользователей возвращаться к нему еще и еще.

Домовладельцы, например, могут нуждаться в помощи при сборе информации о соседней собственности, чтобы они могли аргументированно заявить, что те налоги, которые платят они сами, несправедливо высоки. Собрать вместе эту информацию — это задача, требующая времени для ее решения, и кроме того она сложна — Curbwise решает ее для своих пользователей, собирая данные в дружественный для пользователя, интуитивно понятный отчет, в который сводится вся информация, которая им требуется, чтобы оспорить суммы налогов на недвижимость, возложенные на них местными властями. Curbwise продает такие отчеты по 20 долларов, и люди платят за них, потому что с их помощью можно решить вполне реальную проблему в их жизни.

И неважно, решает ли ваше приложение проблему из области реального мира, как Curbwise, или служит дополнением к повествовательной части истории или сюжета в виде интересной визуализации, всегда имейте представление о том, кто будут те люди, которые будут этим приложением пользоваться. А потом сконцентрируйте свои усилия на дизайне и разработке функций вашего приложении на основе их нужд, требований и пожеланий.

Сколько времени я могу на это потратить?

Разработчики в ньюсруме — это словно вода в пустыне: очень высоко ценятся и в дефиците. Создание новостного приложения означает достижение баланса между повседневными нуждами ньюсрума и долгосрочными обязательствами, которые редакция берет на себя, чтобы создать по–настоящему значительные, выдающиеся продукты.

Скажем, ваш редактор приходит к вам с идеей: в городском совете на следующей неделе будет голосование о том, снести или нет несколько исторических зданий в вашем городе. Он предлагает создать простое приложение, которое позволит пользователям увидеть эти строения на карте.

Как у разработчика, у вас есть несколько вариантов. Вы можете поиграть вашими разработческими мускулами, размяться и сделать великолепную карту, используя специальное программное обеспечение. Или вы можете использовать уже существующие инструменты, такие как Google Fusion Tables или картографические библиотеки, имеющиеся в открытом доступе, и завершить всю работу за пару часов. Первая возможность обеспечит вам лучшее, более качественное приложение; а вторая даст вам больше времени на конструирование чего–то еще, у чего, возможно, будут лучшие шансы оказать продолжительное воздействие.

Одно лишь то, что та или иная тема или история пригодна для создания сложного, красивого новостного приложения, не означает, что вам надо таковое создавать. Баланс приоритетов критически важен. Штука в том, что нужно помнить, что каждое приложение, которое вы делаете, чего–то стоит: а именно, вам приходится пожертвовать другим, потенциально более эффективным и влиятельным приложением, над которым вы могли бы поработать вместо этого.

Как я могу вывести какую–то информацию или данные на новый уровень?

Создание самых современных новостных приложений может занимать много времени и быть весьма затратным в плане финансов делом. Вот почему всегда стоит поинтересоваться размером вознаграждения. Как можно превратить разовый успех, подняв его до статуса чего–то особенного?

Одним из способов является создане продолжительного проекта, который выходит за пределы новостного цикла. Другим способом является создание инструмента, который экономит ваше время «в пути» (и выкладывание его в открытый доступ!), либо применение продвинутой аналитики в вашем приложении, с целью узнать больше о вашей аудитории.

Многочисленные организации рисуют карты результатов переписи, чтобы показать демографические сдвиги в их городах. Но когда команда Chicago Tribune, занимающаяся новостными приложениями, рисовала свою карту, они вывели задачу на новый уровень, разработав инструменты и технику по быстрому созданию таких карт, и сделали этот инструментарий доступным для использованиядругими организациями.

В моей организации–работодателе, Центре расследовательской журналистики, мы объединили простую базу данных с функцией поиска с мелкоструктурной рамочной конструкцией по отслеживанию событий, что позволило нам узнать, среди прочего, в какой степени пользователи ценят способность к случайному обнаружению ценных идей, приятные неожиданности и измерения с исследованиями в наших новостных приложениях.

Рискну высказаться в стиле какого–нибудь бухгалтера, но всегда думайте об окупаемости инвестиций, о прибыли на вложенный капитал. Решайте обычные проблемы; создавайте новые способы привлечения пользователей; открывайте части источников вашей работы; используйте аналитику, чтобы узнать больше о ваших пользователях; или даже отыскивайте такие случаи, как с Curbwise, где часть вашего новостного приложения способна напрямую приносить доход.

Сведение всего вместе

Процесс развития новостных приложений прошел долгий путь за очень короткое время. Образно говоря, «Новостные приложения версии 1.0» (News Apps 1.0) были во многом похожи на «Инфографику 2.0» (Infographics 2.0) — представляли собой интерактивные визуализации данных, смешанные с базами данных с функциями поиска, разработанные, в основном, для продвижения и повышения шансов на успех повествовательной части сюжета или материала. Сейчас многие из таких приложений могут создаваться самими журналистами в короткие сроки с использованием инструментов, находящихся в открытом доступе, что освобождает разработчиков и дает им время для обдумывания путей решения более масштабных задач.

«Новостные приложения версии 2.0» (News Apps 2.0), то, к чему движется отрасль, уже будут связаны с объединением процесса рассказывания историй и общественной работы журналистики с такой дисциплиной как разработка информационных продуктов, и с опытом работы в мире технологий. Результатом, без всякого сомнения, станет буквально взрыв инновационных решений, касающихся тех способов, которыми можно сделать данные значимыми, интересными и в особенности полезными нашей аудитории — и в то же время помогающими журналистам делать то же самое.

Чейз Дэвис, Центр расследовательской журналистики

Новостные приложения в ProPublica

Новостное приложение — это большая интерактивная база данных, которая сообщает новость, подает информационный материал. Думайте о нем как о любой другой составной части журналистики. Оно просто использует программное обеспечение вместо слов и иллюстраций.

Демонстрируя каждому читателю данные, которые имеют отношение непосредственно к нему, новостное приложение способно помочь каждому читателю понять сюжет или суть истории таким способом, который имеет значение персонально для него. Оно может помочь читателю понять и осознать свою личную связь с широкими явлениями общенационального масштаба, и дать пользователю возможность присоединить то, что он уже знает, к тому, чего он еще не знает, тем самым способствуя более глубокому пониманию абстрактных концепций.

Мы склонны конструировать новостные приложения в тех случаях, когда у нас имеется набор данных (или когда мы думаем, что можем получить такой набор данных), который является общенациональным по своему охвату, и при этом достаточно подробным и детализированным, чтобы иметь возможность вскрыть значимые для конкретного человека детали.

Новостное приложение должно подавать материал, рассказывать историю, и ровно как любой другой хороший и качественный новостной сюжет, оно нуждается в заголовке, в строке с указанием автора, в «лиде» (заходной информации), и в натграфе (абзаце, который разъясняет новостную ценность истории). Некоторые из этих понятий бывает трудно определить в том или ином образце интерактивного программного обеспечения, но если вы присмотритесь повнимательнее, то увидите, что они там присутствуют.

Также новостное приложение должно быть «порождающим, генерирующим» — в том смысле, что оно должно порождать, генерировать новые новостные сюжеты и журналистские материалы. Лучшие образцы приложений ProPublica использовались в качестве основы для местных сюжетов.

Например, возьмем наше новостное приложение «Доллары для врачей» ( Dollars for Docs). В нем впервые удалось проследить выплаты в размере миллионов долларов со стороны фармацевтических компаний врачам — за консультирование, высказывания, за хорошие отзывы о продукции, и т.п. Новостное приложение, которое мы создали, позволило читателям найти своего местного врача и посмотреть на список выплат, которые он получил. Журналисты в других новостных организациях, таких как Chicago Tribune и St. Louis Post–Dispatch, сделали информационно–расследовательские материалы о местных врачах на основе данных из приложения Dollars for Docs.

Некоторые из этих местных сюжетов стали результатом формальных партнерств, но большинство были созданы весьма независимым образом — в некоторых случаях мы даже особо не знали о том, что кто–то работает над таким материалом, вплоть до тех самых пор, пока материал не был опубликован. Как для небольшой информационной организации, но все же общенационального масштаба, такого рода вещи и случаи критически важны для нас. У нас не может быть информации на местном уровне в 125 городах, но если наши данные способны помочь журналистам, у которых присутствуют знания местной специфики, создавать сюжеты и материалы, которые дают нужное воздействие и обеспечивают нужный эффект, то это значит, что мы не зря едим свой хлеб и выполняем свое предназначение.

Рис 79. Картографируя Лос–Анджелес(Los Angeles Times)

Одним из моих любимых новостных приложений является приложение Los Angeles Times под названием «Картографируя Лос–Анджелес» ( Mapping L.A.), которое начиналось как составленная при помощи краудсорсинга карта многих районов Лос–Анджелеса, которые вплоть до запуска Mapping L.A. не имели независимых, общепризнанных границ. После изначального краудсорсингового проекта Los Angeles Times смогла использовать его как рамочную конструкцию для создания значительных, важных и интересных материалов на основе данных — таких, как, например, разбивка уровней преступности по районам, качество школ в зависимости от района, и так далее, чего они не смогли бы сделать раньше. Поэтому проект «Картографируя Лос–Анджелес» оказался не только масштабным, всеохватным и особенным, но и генерирующим, способным рассказывать собственные истории людей.

Ресурсы и источники, необходимые для создания новостного приложения, весьма широки и разнообразны. У New York Times имеются в распоряжении десятки человек, работающих над новостными приложениями и интерактивной графикой. Но вот проект под названием Talking Points Memoстал сверхсовременным, передовым приложением по отслеживанию выборов, а работали над ним всего два человека, причем ни у кого из них нет специального компьютерного образования.

Как большинство редакционных кодеров, мы следовали модифицированному варианту методологии Agile при конструировании наших приложений. Мы быстро выполняем первоначальную работу и показываем черновик другим ребятам в редакции, с которыми мы работаем. Что самое важное, так это то, что мы работаем действительно в тесной связке с журналистами, и читаем их черновики — даже самые ранние. Мы гораздо в большей степени трудимся как журналисты, а не как обычные программисты. В дополнение к написанию программы, мы обзваниваем источники, собираем информацию и строим экспертные заключения. Было бы весьма сложно создать хорошее новостное приложение, используя материал, в котором мы ничего не понимаем.

Почему ньюсрумы должны быть заинтересованы в производстве новостных приложений на основе данных? Три причины: это потрясающая журналистика, они очень популярны — самыми популярными продуктами ProPublica являются новостные приложения — и если не мы, то кто–нибудь другой их обязательно сделает. Подумайте обо всех тех сенсационных новостях, которые мы могли пропустить! И что самое важное, ньюсрумы должны знать, что они сами вполне способны все это делать. Это легче, чем кажется.

Скотт Клейн, ProPublica

Визуализация как «рабочая лошадка» журналистики данных

Прежде чем вы приступите к попытке построить график или нанести на карту ваши данные, возьмите и подумайте минутку о том, сколь многочисленную и многозначную роль играет статичная и интерактивная графика в вашей журналистской работе.

На стадии создания материала визуализации могут:

 Помочь вам найти и определить темы и поставить вопросы для остальной части вашего репортажа

 Идентифицировать какие–либо аномалии, резко выделяющиеся значения: превосходнейшие истории или, возможно, ошибки в ваших данных

 Помочь вам найти и выделить типичные примеры

 Показать вам пробелы в вашем репортаже — чего недостает

Визуализации также играют разные роли непосредственно при публикации:

 Могут проиллюстрировать какой–то момент сюжета более наглядным способом

 Могут убрать из повествования ненужную техническую информацию

 Особенно в тех случаях, когда они интерактивные, они могут давать возможность осуществлять исследовательские работы, а также обеспечивать прозрачность в отношении вашей репортажной работы в глазах ваших читателей

Эти роли заставляют предполагать, что вы должны начинать делать визуализации именно сразу при создании материала, независимо от того, начали вы уже собирать электронные данные или записи или нет. Не считайте это отдельным шагом, вопросом, который можно будет решить уже после того, как большая часть материала будет написана. Данный раздел призван помочь вам вести подготовку сюжета в правильном направлении.

Начать порой означает просто превратить в визуальную форму те записи, которые вы ужесделали. Посмотрите на график на Рис 80, который был в Washington Post в 2006 году.

Рис 80. Развитие сельскохозяйственных субсидий во времени(Washington Post)

Этот график демонстрирует долю сельскохозяйственных доходов, связанную с субсидиями, и ключевые события в этой области за последние 45 лет, он был создан в течение нескольких месяцев. При этом было достаточно проблематично искать и находить данные за разные периоды времени, которые могли бы использоваться и сводиться воедино с аналогичными определениями и значениями. При этом исследование и изучение всех высших и низших точек графика помогло нам удерживать этот контекст в памяти, когда мы делали остальную часть репортажа. Это также означало, что одна работа была практически закончена еще до того, как сюжеты и материалы были написаны.

Вот несколько подсказок, советов по использованию визуализации в начале изучения ваших наборов данных.

Совет 1: Используйте небольшие однотипные составляющие, чтобы быстро ориентироваться в больших наборах данных

Я пользовался этой техникой в Washington Post, когда мы искали подсказку, намек на то, что администрация Джорджа Буша–младшего выдавала гранты по политическим, а не предметно–содержательным мотивам. Большинство из этих программ помощи реализуются по формуле, а оставшиеся финансировались годами, так что нам было любопытно, сможем ли мы найти какой–то характерный образец поведения и вычленить повторяющийся сценарий, просмотрев примерно 1 500 различных произвольным образом выбранных денежных потоков.

Рис 81. HHS Grants: искрографики помогают найти и ухватить суть истории(Washington Post)

Я создал график для каждой программы помощи, где красные точки обозначали год президентских выборов, а зеленые точки — годы выборов в конгресс. Трудная задача: да, наблюдается резкий всплеск в период за шесть месяцев до выборов президента по нескольким из анализируемых программ — красные точки с пиковыми значениями рядом с ними — но это не тот предвыборный год. Вместо года, когда переизбирался Джордж Буш, мы видим, что пики постоянно приходятся на президентские выборы 2000 года, когда в Белом доме был Билл Клинтон, а его вице–президент, Альберт Гор, избирался на этот пост.

И все это было очень легко заметить именно на серии графиков, а отнюдь не в таблицах с цифрами, и интерактивная форма представления информации дала нам возможность проверить разные типы грантов, разные регионы и разные управления и агентства. Карты в небольших количествах могут стать способом показать время и место на статичной картинке, и информацию будет легко сравнить — порой, даже легче, чем в случае с интерактивом.

Этот пример был создан при помощи коротенькой программы, написанной на PHP, но теперь это гораздо проще делать при помощи искрографиков Excel 2007 и 2010. Эдвард Тафт (Edward Tufte), эксперт в области визуализации, изобрел эти «впечатляющие, насыщенные, простые и похожие на слова графики» для передачи информации таким образом, чтобы ее можно было воспринимать буквально с первого взгляда, даже когда речь идет о больших объемах данных. Теперь их можно увидеть повсюду — начиная с маленьких графиков под биржевыми котировками до записей о победах и поражениях в спорте.

Совет 2: Обрабатывайте и анализируйте ваши данные сверху вниз, вдоль и поперек

Когда вы пытаетесь понять сюжет или материал, построенный на базе набора данных, на него просто невозможно взглянуть с неправильной точки зрения; попробуйте сделать это любым способом, который только придет вам в голову, и вы получите разные точки зрения. Если вы делаете материал по преступности, вы, вероятно, будете смотреть на один набор графиков и диаграмм, повествующих о том, как изменилась ситуация с преступлениям против личности за год; можно анализировать процентные изменения, можно делать сравнения с другими городами, а еще можно делать акцент на изменениях с течением времени. Используйте все — исходные цифры, проценты и коэффициенты.

Смотрите на данные, используя разные шкалы. Сначала попробуйте делать это, соблюдая правило, что ось Х — это нулевой уровень. Потом нарушьте это правило, и посмотрите, не появилась ли у вас перед глазами какая–то новая информация. Пробуйте логарифмы и квадратные корни для данных с асимметричным распределением.

Не забывайте об исследовании, проведенном на основе визуального восприятия. Эксперименты Уильяма Кливленда (William Cleveland) показали, что глаз видит изменения в изображении, когда средний уклон составляет 45 градусов. Это означает, что вы можете игнорировать наставления всегда начинать с нуля, и вместо этого работаете над тем, чтобы создать максимально глубокую, поучительную и интуитивно понятную графику. Другое исследование в области эпидемиологии предлагает вам обозначить целевой уровень в качестве границы для вашей диаграммы. Каждый из этих способов помогает вам взглянуть на данные разными способами и с разных точек зрения. Когда они перестанут говорить вам что–то новое, тогда вы будете знать, что этот этап работы закончен.

Совет 3: Не предполагайте

Теперь, когда вы взглянули на ваши данные разными способами, вы, возможно, нашли записи, которые не выглядят верными — возможно, вы не поняли сначала, что они означают, или там есть какие–то отклонения, резко выделяющиеся значения, которые выглядят как ошибки, или есть тенденции, которые кажутся обратными.

Если вы хотите опубликовать что–либо на основании вашего первичного изучения, или сделать это в виде опубликованной визуализации, вам нужно решить эти вопросы, но при этом нельзя делать никаких предположений. Либо это интересные истории, либо это ошибки; интересный вызов здравому смыслу или недоразумение, недопонимание.

Для местных органов власти не является чем–то из ряда вон выходящим публикация таблиц данных, в которых полно ошибок, и кроме того, настолько же легко можно неправильно понять правительственный жаргон, профессиональный канцелярский язык в наборах данных.

Во–первых, пробегитесь обратно по вашей работе. Вы прочли документацию, все ее оговорки — так имеется ли проблема в оригинальной версии данных? Если с вашей стороны все выглядит правильным, тогда пришло время снять трубку. Вы собираетесь решить эту проблему, если вы планируете использовать эти данные, так что можно начать прямо сейчас.

И вместе с тем, не всякая ошибка важна. Например, в записях о финансировании предвыборной кампании часто встречаются несколько сотен почтовых индексов, которых нет в базе данных со 100 000 записей. Пока не случится так, что все эти непонятные индексы не окажуться в одном и том же городе или не будут иметь отношение к одному и тому же кандидату, эти случайные ошибки не имеют никакого значения.

Надо задать себе вопрос: если бы я собирался это использовать, будет ли для читателей принципиально важно иметь точное представление о том, что говорят данные именно в этом конкретном вопросе?

Совет 4: Избегайте вдаваться в излишние подробности, не зацикливайтесь на точности и аккуратности

Обратной стороной ситуации, когда вы не задаете достаточного количества вопросов, является зацикливание на излишней точности и аккуратности, в ущерб сути. Ваша исследовательская графика должна быть в общем и целом правильной, но не нужно волноваться, если у вас попадаются разные уровни округления, если они не дают в целом ровно 100%, или если у вас не хватает данных за один или два года из двадцати. Это часть исследовательского процесса. Вы по–прежнему будете способны видеть крупные тенденции, и будете знать, что еще вам нужно собрать, перед тем, как наступит время публикации.

На самом деле вы можете решить убрать все обозначения и масштабные отметки, примерно как на приведенных выше графиках, чтобы получить еще лучшее общее ощущение от данных.

Совет 5: Создавайте хронологические подборки случаев и событий

В самом начале какого–нибудь сложного проекта начинайте строить хронологию ключевых событий и моментов. Можно использовать Excel, Word или специальный инструмент типа TimeFlow для этих целей, но в какой–то момент вы наткнетесь на набор данных, который вы сможете подложить под нее. Потом, если периодически пробегаться по этой хронологии, вы сможете увидеть, где у вас есть пробелы, которые необходимо заполнить.

Совет 6: Встречайтесь с вашим графическим отделом как можно раньше и почаще

Устройте коллективное обсуждение, «мозговой штурм», решая вопрос о том, какую можно сделать графику, вместе с художниками–иллюстраторами и дизайнерами в вашем ньюсруме. Они взглянут другим взглядом на ваши данные, выскажут предположения о том, как они могут сработать в интерактивном режиме, и помогут с ноу–хау о том, как объединить данные с сюжетами и материалами. Ваша журналистская работа будет сильно облегчена, если вы будете знать, что вам нужно собрать с самого начала, или если вы сможете в экстренном порядке сообщить вашей команде подготовки, что сделать график не представляется возможным, так как вам не хватает данных.

СОВЕТЫ ДЛЯ ПУБЛИКАЦИИ

Вы могли потратить всего несколько дней или даже часов на ваше исследование, или же ваша история могла потребовать месяцев на подготовку. Но когда речь заходит о том, чтобы перейти к стадии публикации, наиболее важными становятся два момента.

Помните тот потерянный год, который вы провели, занимаясь ранними, заблаговременными исследованиями? Вдруг оказывается, что без них вы не можете двигаться дальше. Все эти плохие данные, которые вы проигнорировали в свое время? Они вернутся и будут преследовать вас.

Причина в том, что вы не можете писать на основе некачественных данных. Когда дело касается графика, то либо у вас есть все, что вам нужно, либо нет ничего. И никакой середины быть не может.

1. Объединяйте усилия по сбору данных с интерактивной графикой

В интерактивной графике нет никакой тайны или сокрытия. Если вы действительно собираетесь сделать так, чтобы ваши читатели изучали данные любым желаемым ими способом, тогда каждый элемент данных должен быть именно тем, чем он кажется. Пользователи в любой момент могут обнаружить какую–нибудь ошибку, и она может преследовать вас месяцы или годы.

Если вы строите вашу собственную базу данных, это означает, что вы должны ожидать того, что вам придется ее вычитывать в плане корректуры, проверять факты, и постоянно копировать и редактировать всю базу. Если вы используете данные разных органов власти, вы должны принять решение о том, сколько выборочных проверок вы сделаете, и что вы планируете делать, когда обнаружите неизбежную ошибку.

2. Разрабатывайте дизайн для двух типов читателей

График — будь то в виде отдельного интерактивного элемента или в виде статичной визуализации, который сопровождает ваш материал — должен удовлетворять запросам двух разных типов читателей. Он должен быть легко понятным с первого взгляда, но при этом и достаточно сложным, чтобы предложить что–нибудь интересненькое людям, которые хотят копнуть глубже. Если вы делаете его интерактивным, убедитесь, что ваши читатели получат от этого что–то большее, чем просто цифру или название.

3. Выражайте одну идею — потом упрощайте

Вы уверены, что есть что–то одно, самое главное, что вы хотите, чтобы люди увидели? Тогда решите вопрос о том, какое общее впечатление, на ваш взгляд, должен получить читатель, и сделайте так, чтобы все остальное исчезло. Во многих случаях это означает удалить какую–то информацию даже когда интернет позволяет вам предоставить все. За исключением случаев, когда вашей основной целью является демонстрация прозрачности журналистской работы, бОльшая часть тех деталей и подробностей, которые вы вставили в вашу временную шкалу и хронологию, просто не очень важны. В статичной графике они будут смущать и отпугивать. В интерактивной графике это будет просто скучно.

Использование визуализаций для рассказывания историй и создания материалов

Визуализация данных заслуживает внимания по нескольким причинам. Она не только может быть поразительно красивой и привлекающей внимание – ценной социальной валютой для того, чтобы ею делиться и привлекать читателей – она также является средством, дающим мощное познавательное преимущество: целая половина человеческого мозга предназначена для обработки зрительной, визуальной информации. Когда вы представляете пользователю информационную графику, вы захватываете его внимание посредством того пути в мозге, который обладает самой высокой пропускной способностью. Хорошо продуманная и качество сконструированная визуализация данных может обеспечить зрителям незамедлительное и глубокое, очень полное впечатление, и дать путь прохода через беспорядок сложной истории, чтобы добраться прямо до сути.

Но в отличие от других визуальных медиа – таких как статичные фотографии и видео – визуализация данных также имеет глубокие корни в поддающихся измерению фактах. При том, что она является эстетически привлекательной и, что называется, цепляющей, она в меньшей степени эмоционально перегружена, более сконцентрирована на том, чтобы пролить свет, нежели на том, чтобы возбудить и нагнать страсти. В эпоху узко ориентированных медиа, которые часто подгоняются под аудиторию с определенным взглядом или точкой зрения, визуализация данных – и журналистика данных в целом – предлагает дразнящую и манящую возможность рассказывания историй, основанных прежде всего на фактах, на данных, а не на фанатизме.

Более того, как и другие формы повествовательной журналистики, визуализация данных может быть эффективной как в плане подачи срочных новостей – быстро вводя новую информацию, такую как место происшествия и количество жертв, — так и в плане тематических статей и очерков, в случае с которыми она позволяет глубже проникнуть в тему и предлагает новую точку зрения, чтобы помочь вам увидеть что–то знакомое совершенно новым способом.

Увидеть знакомое новым способом

Рис 82. Уровень безработицы для таких людей, как вы(New York Times)

На самом деле, способность визуализации данных дать возможность проверить расхожее мнение или общепринятую точку зрения подтверждается, например, примером интерактивной графики, опубликованной New York Times в конце 2009 года, год спустя после начала глобального экономического кризиса. В условиях, когда общенациональный уровень безработицы в США колебался в районе 9%, пользователи имели возможность задать фильтр для населения США по различным демографическим и образовательным показателям, чтобы посмотреть, насколько резко варьировались уровни безработицы для разных слоев и групп населения. Как оказалось, этот самый уровень безработицы варьировался от менее чем 4% для женщин среднего возраста с учеными степенями выше бакалавра до примерно 50% среди молодых чернокожих граждан, которые не закончили среднюю школу, и более того, в этой диспропорции не было ничего нового – о чем свидетельствовало лихорадочное изменение, неустойчивость линии, показывающей исторические ценности для каждой из этих групп.

Даже после того, как вы перестаете на нее смотреть, хорошая визуализация данных остается у вас в мозгу и оставляет прочную, длительного действия ментальную модель факта, тенденции или процесса. Сколько всего люди смогли увидеть посредством анимации, распространенной исследователями цунамив декабре 2004 года, которая показывала каскадные волны, распространяющиеся в стороны от индонезийского землетрясения в Индийском океане, угрожающие миллионам жителей прибрежных районов в Южной Азии и Восточной Африке?

Визуализации данных – и эстетические ассоциации, которые они порождают – могут даже стать культурными эталонами, как это было с представлением глубоких политических расхождений в Соединенных Штатах после выборов 2000 и 2004 годов, когда «красные», удерживаемые республиканцами штаты заполнили центральную часть страны, а «синие» демократические штаты сконцентрировались на северо–востоке и дальнем западе страны. И неважно, что в американских СМИ до 2000 года основные вещательные сети свободно переключались между синими и красными, чтобы показать каждую партию, а некоторые даже выбрали вариант чередования каждые четыре года. Таким образом, некоторые американцы вспоминают об эпохальной сокрушительной победе над «синими» силами 49 штатов, когда в 1984 году победу одержал Рональд Рейган.

Но для каждой графики, которая пробуждает визуальное клише, появляется другая, обеспечивающая мощное фактическое подтверждение, такая как карта 2006 годаNew York Times, в которой круги разного размера использовались для того, чтобы показать, как сейчас живут тысячи эвакуировавшихся из Нового Орлеана в связи с ураганом, как их разбросало по континенту, и это было показано посредством соотношения между личными связями и программами переселения. Вернутся ли когда–нибудь эти «затерянные» переселенцы домой?

Так что теперь, когда мы обсудили силу и мощь визуализации данных, справедливо задаться вопросом: когда нам нужно ее, визуализацию, использовать, и когда не нужно.

Когда использовать визуализацию данных?

Прежде всего, посмотрим на несколько примеров, где визуализация данных может быть полезной для того, чтобы помочь рассказать ту или иную историю вашим читателям.

Показать изменения с течением времени

Рис 83. Как долго идет создание технологической империи?(Wall Street Journal)

Возможно, наиболее частое использование визуализации данных – это когда требуется показать, как с течением времени меняются ценности. Хорошие примеры —  рост населения Китая с 1960 годаили всплеск безработицы после экономического краха 2008 года. Но визуализации данных также могут сильным образом продемонстрировать изменения во времени – причем лучше, чем иные формы графического представления информации. Португальский исследователь Педро Круз (Pedro M. Cruz) использовал анимированную графику с кругами, чтобы наглядно и драматично продемонстрировать упадок западноевропейских империйс начала XIX века. Взятые по размеру населения, Британия, Франция, Испания и Португалия лопались, как мыльные пузыри, по мере того, как их заокеанские территории получали независимость. Ушли Мексика, Бразилия, Австралия, Индия, оставалось только ждать… ушли многие африканские колонии в начале 1960–х годов, практически уничтожив Францию.

График от Wall Street Journalпоказывает количество месяцев, которое потребовалось предпринимателям, чтобы достичь магической цифры в 50 миллионов долларов по своим доходам. Созданный при помощи бесплатного инструмента создания графиков и анализа данных Tableau Public, сравнительный график напоминает следы от многочисленных взлетающих самолетов – некоторые взлетают быстро, некоторые медленно, некоторые идут тяжело, накладываясь друг на друга.

Если уж мы заговорили о самолетах, то другой интересный график показывает изменения с течением времени в доле рынка, которую занимали крупнейшие американские авиакомпаниив течение нескольких десятилетий процесса консолидации отрасли. После того, как администрация Картера отменила государственное регулирование в гражданской авиации, серия финансируемых в долг приобретений создала из маленьких региональных авиалиний общенациональных перевозчиков, и этот процесс иллюстрирует график от New York Times.

Учитывая то, что почти что все обычные читатели воспринимают горизонтальную ось «Х» графиков как представляющую время, порой можно легко подумать, что все визуализации должны показывать изменения с течением времени.

Сравнить ценности

Рис 84. Подсчет человеческих потерь в войнах.(BBC)

Однако визуализация данных также показывает себя с лучшей стороны и в области помощи читателям в осуществлении сравнения двух и более дискретных значений, будь то в том, что касается восприятия в контексте событий трагических потерь среди военнослужащих в Ираке и Афганистане (путем сравнения их с тысячами убитых во Вьетнаме и миллионами погибших во Второй мировой войне, как сделала ВВС в анимированном слайд–шоу, сопровождающем их базу данных по потерям); или в том, что касается канала National Geographic, использовавшего очень минималистичный график, показывающий, насколько у вас больше шансов умереть от болезни сердца (1 шанс из пяти) или от сердечного приступа (1 шанс из 24), чем в результате авиакатастрофы (1 шанс из 5 051) или от укуса пчелы (1 шанс из 56 789), при помощи демонстрации относительных шансов умереть (при этом все это перекрывается огромной дугой, демонстрирующей шансы умереть в общем и целом: один из одного!). ВВС в сотрудничестве с агентством Berg Design также разработала вебсайт под названием «Размеры и измерения» (« Dimensions»), который позволяет вам наложить контуры крупных событий в мире – разлива нефти в результате аварии на буровой платформе Deepwater Horizon или наводнений в Пакистане, например – на карту вашей собственной местности обитания в Google. (howbigreally.com).

Показать связи

Рис 85. Зарплата и производительность(Ben Fry)

Введение в действие во Франции системы высокоскоростного железнодорожного сообщения в 1981 году в буквальном смысле не сделало страну меньше, но умным образом сделанная визуальная презентация показывает, насколько меньше времени теперь занимает задача добраться до разных мест, чем на обычном поезде. Наложенная на изображение страны сетка выглядит ровной и упорядоченной равным образом по всей стране в изображении ситуации «до», но потом предстает централизованной, направленной в сторону Парижа, в изображении ситуации «после», показывая, что «ближе» стали только населенные пункты в исходящем от столицы направлении, а также то, что большая часть выигрыша во ремени приходится на первую часть пути, прежде чем поезда достигнут неулучшенных железнодорожных трасс, и вынуждены будут замедлить скорость.

Чтобы получить сравнение двух отдельных переменных, взгляните на график, оценивающий выступления бейсбольных команд высшей лигипо отношению к зарплатам в них. В левой колонке команды ранжированы по их результатам на данный момент, а справа приведены цифры, показывающие суммарную зарплату их игроков. Строчки, окрашенные в красный (неадекватно высокая зарплата по сравнению с результатами) и синий (неадекватно низкая зарплата по сравнению с результатами в играх) связывают эти два показателя, давая удобное для понимания ощущение того, владельцы каких команд сожалеют о том, что их дорогие игроки себя не оправдывают. Более того, прокручивание ситуации по временной шкале дает живое и яркое анимированное впечатление о том, как развивается ситуация в текущем сезоне.

Отслеживать потоки

Рис 86. Tropicana(Sourcemap)

Сара Коэн, Университет Дьюка

Дизайн для данных

Примерно так же, как и обычные диаграммы и графики, функциональные и структурные диаграммы также кодируют информацию, превращая ее в соединительные линии, основная суть которых кроется в их толщине и/или цвете. Например, для ситуации с кризисом еврозоны, когда несколько ее государств–членов оказались неспособны платить по своим долгам, New York Times решила распутать паутину заимствований, которая связывает страны–члены ЕС с из торговыми партнерами на другом берегу Атлантики и в Азии. В одном из «режимов» визуализации ширина линий отражает суммы кредитов, идущие от одной страны к другой, а изменение цвета в диапазоне от желтого до оранжевого показывает, насколько этот поток вызывает тревогу или беспокойство — в смысле, что деньги вряд ли вернутся!

Если взять более приятную и радостную тему, то вот, например, журнал National Geographic сделал обманчиво простой график, показывающий связи между тремя американскими городами  — Нью–Йорком, Чикаго и Лос–Анджелесом — и ведущими районами производства вина, демонстрируя, как осуществляются транспортные перевозки продукта из каждого из источников, и насколько разные уровни негативных экологических последствий в плане выбросов парниковых газов дают разные маршруты. Так, например, получается, что вина из региона Бордо для жителей Нью–Йорка оказываются более «экологичными», чем калифорнийские.

«SourceMap», проект, начатый в бизнес–школе Массачусетского института технологий, использует функциональные, структурные диаграммы, чтобы скрупулезно взглянуть на глобальные закупки производственных товаров, их компонентов и сырья. Благодаря обширным и серьезным исследованиям, пользователь теперь может осуществлять поиск самой разной продукции, начиная с обуви под брендом Eccoи заканчивая апельсиновым соком, и выяснить, из каких уголков земного шара эти товары были взяты, и каков будет след именно от их производства в объемах углеродных выбросов.

Показать иерархию

Рис 87. OpenSpending.org(Фонд Open Knowledge)

В 1991 году исследователь Бен Шнейдерман (Ben Shneiderman) изобрел новый вид визуализации под названием « treemap», состоящий из многочисленных прямоугольников, концентрически вложенных друг в друга. Площадь данного прямоугольника соответствует количеству, которое он представляет, как сам собой, так и беря в совокупности все свое содержимое. Будь то при визуализации национального бюджета по тем или иным органам или их подразделениям, в случае с визуализацией фондового рынка по секторам и компаниям, или языка программирования по классам и подклассам, формат treemap представляет собой компактный и интуитивно понятный интерфейс для представления всей совокупности в целом и ее составных частей. Другим эффективным и действенным форматом является дендрограмма, который выглядит более похожей на обычный организационный график, где подкатегории продолжают отходить в виде ветвей от одного изначального ствола.

Ориентирование в больших базах данных

Рис 88. Каждая смерть на каждой дороге в Великобритании в 1999–2010 годах.(BBC)

В то время как некоторые визуализации данных очень эффективны, когда нужно взять знакомую, известную информацию и представить ее в совершенно новом свете, что происходит, когда у вас имеется совершенно новая информация, в которой люди хотят ориентироваться? Век данных приносит с собой потрясающие новые открытия практически каждый день, начиная с великолепного географического анализа фотографий FlickrЭрика Фишера (Eric Fischer), и заканчивая публикацией властями Нью–Йорка тысяч ранее недоступных и конфиденциальных оценок учителей.

Эти наборы данных приобретают максимальную силу, когда пользователи получают возможность копаться в них и дойти в своей детализации до той информации, которая будет иметь максимальное отношение непосредственно к ним.

В начале 2010 года New York Times получила доступ к обычно имеющим частный, скрытый характер записям и документам Netflix о том, в каких районах какие чаще всего брали в прокат фильмы. И хотя Netflix отказалась раскрыть точные цифры, New York Times смогла создать привлекательную интерактивную базу данных, которая позволяет пользователям просматривать прокатные данные по фильмам из топ–100 в 12 крупнейших метрополиях страны, разбитые по почтовым индексам. При этом по каждому коммьюнити можно смотреть, где именно какой фильм был более популярен — визуально это отображено при помощи цветов разной степени насыщенности.

К концу того же года New York Times опубликовала результаты проводящейся раз в десять лет переписи населения США  — всего через несколько часов после того, как эти результаты были обнародованы. Интерфейс, сделанный в Adobe Flash, предложил целый ряд возможных вариантов визуализаций и позволил пользователям просматривать информацию со степенью подробности вплоть до каждого конкретного избирательного участка в стране (коих насчитывается 8,2 миллиона), и увидеть, как распределяются на этих участках жители по расовому признаку, по уровню доходов и по уровню образования. При этом степень детализации данных была настолько высокой, что при просмотре информации в первые часы после публикации создавалось впечатление, что вы, возможно, первый человек в мире, который изучает данный конкретный уголок базы данных.

Аналогичное достойное похвалы использование визуализации в качестве интерфейса базы данных можно отметить в расследовании трагических инцидентах со смертельным исходом на дорогах, проведенном ВВС, а также в многочисленных попытках быстро проиндексировать масштабные массивы не всегда структурированных данных, таких как, например, публикации Wikileaks военных отчетов по Ираку и Афганистану.

Рисовать в своем воображении альтернативное развитие событий

Рис 89. Бюджетные прогнозы, сравнение с действительностью(New York Times)

В New York Times «дикобразоподобный график» Аманды Кокс (Amanda Cox) оказавшихся трагическим образом слишком оптимистичных прогнозов по бюджетному дефициту СШАза последние годы показывает, что порой бывает так, что то, что произошло, менее интересно, чем то, что не произошло. График температуры Кокс показывает всплеск бюджетного дефицита после десятилетия войн и налоговых льгот, и великолепно иллюстрирует, насколько нереалистичными могут стать прогнозы на будущее.

Бреет Виктор (Bret Victor), давний разработчик интерфейса для продуктов Apple (и создатель теории под названием «Отменить математику» (проект Kill Math), позволяющей использовать визуализацию для удобного представления количественной информации — получился нтерактивный интерфейс, где даже самые сложные уравнения не просто понятны каждому, но и являются новой формой искусства), создал прототип своего рода реагирующего документа . В его примере идеи экономии электроэнергии включают в себя доступные для редактирования исходные условия и положения, в соответствии с которыми даже такой простой шаг как выключение света в пустых комнатах может помочь американцам сэкономить энергию, которую производят от двух до сорока (!) работающих на угле электростанций. Изменение процентных показателей в середине текстового абзаца вызывает соответствующие изменения в остальном тексте на странице!

Если вы хотите ознакомиться с другими примерами и предположениями, то вот список различного использования визуализаций, карт и интерактвной графики, составленный Мэтью Эриксоном (Matthew Ericson) из New York Times.

Когда не использовать визуализацию данных

В конечном итоге эффективная и качественная визуализация данных зависит от качества, чистоты, точности и значимости информации. Ровно как хорошие цитаты, ценные факты и описанию способствуют созданию качественных материалов в рамках повествовательной журналистики, визуализация данных может быть хороша ровно настолько, насколько хороши данные, ее наполняющие.

Когда вашу историю можно рассказать лучше при помощи текста или мультимедиа

Порой бывает так, что одни только данные не могут рассказать историю самым убедительным и наглядным образом. И хотя тут может помочь простой график, иллюстрирующий тенденции или итоговую статистику, текстовый комментарий или описание фактов, связывающих данные с их последствиями в реальном мире, может оказаться более непосредственным, оперативным и впечатляющим, имеющим ударную силу для читателя.

Когда у вас очень мало отправных точек

Как гласит известное изречение, «цифры в отрыве от всего, сами по себе, ничего не значат». И как обычно отвечают редактора в ответ на цитирование статистики — «а по сравнению с чем?» Какова тенденция — понижательная или повышательная? Каковы нормальные показатели? В общем, с чем сравнивать–то?

Когда у вас очень незначительная изменчивость в ваших данных, отсутствует четкая тенденция или выводы

Порой вы собираете и организуете ваши данные в Excel или аналогичном позволяющем строить графики приложении, и обнаруживаете, что информация «зашумлена» и насыщена помехами — много колебаний или относительно плоская тенденция. Поднимаете ли вы в таком случае ось икс до какой–то величины, отличной от нуля, ровно под самое низкое значение, с целью придать графику немного более адекватную форму? Нет! Похоже, у вас имеются неоднозначные, нечеткие, двусмысленные или сомнительные данные, и вам нужно больше копать и анализировать.

Когда карта — не карта

Когда пространственный элемент невыразителен или неубедителен, или отвлекает внимание от более актуальных числовых тенденций, таких как, например, изменение во времени или демонстрация схожих элементов в неблизких областях.

Не забывайте о таблицах

Если у вас сравнительно мало отправных точек, но есть информация, которая может пригодиться некоторым из ваших читателей, рассмотрите такой вариант как просто изложение данных в форме таблицы. Это ясный и легкий для прочтения метод, который не создает нереалистичных ожиданий «сюжета». На самом деле, таблицы могут быть очень эффективным, действенным и элегантным способом изложения основной информации.

Брайан Суда, (optional.is)

Разные графики рассказывают разные истории

В современном цифровом мире, с перспективой погружения в 3D–опыт, мы склонны забывать о том, что так долго писали исключительно чернилами по бумаге. Сейчас мы думаем об этом статичном и плоском способе как о некоем гражданине второго сорта, но на самом деле на протяжении тех сотен лет, когда мы писали и печатали, нам удалось достичь невероятного уровня богатства знаний и опыта в области представления данных на бумаге. И хотя интерактивные графики, визуализации данных и инфографика и являются последним писком моды, они отказываются от лучших наработок и методов, которым мы научились. И лишь когда мы бросаем взгляд в историю совершенных и искусно выполненных графиков и диаграмм, мы можем осознать этот багаж знаний и использовать его в новой среде.

Некоторые из самых известных графиков и диаграмм появились из необходимости лучше объяснять малопонятные и непрозрачные таблицы данных. Уильям Плэйфэйр (William Playfair) был шотландским полиглотом, который жил в конце 1700–х — начале 1800–х годов. Он единолично представил миру многие из тех же видов графиков и диаграмм, которые мы до сих пор используем и сегодня. В своей книге 1786 года — «Коммерческий и политический атлас» (Commercial and Political Atlas), Плэйфэйр представил гистограмму, столбчатый график, чтобы ясно показать количественные показатели импорта в Шотландию и экспорта из нее новым, визуальным способом.

Рис 90. Ранние гистограммы и столбчатые графики(Уильям Плэйфэйр)

Потом он продолжил популяризировать разные графики, представив в своей книге 1801 года под названием «Статистический конспект» (Statistical Breviary) то, что мы ныне называем круговой, секторной диаграммой. Нужда в этих новых формах графиков и диаграмм возникла из торговой области, но с течением времени появились и другие графики и диаграммы, благодаря которым удавалось даже спасать жизни. В 1854 году Джон Сноу (John Snow) создал свою ныне ставшую знаменитой «Карту распространения холеры в Лондоне», добавив маленькую черную полоску к каждому адресу, по которому был зарегистрирован случай заболевания. Со временем можно было заметить очевидную увеличенную плотность вспышки заболевания, и принять меры к решению проблемы.

Рис 91. Карта распространения холеры в Лондоне(Джон Сноу)

С течением времени

Шло время, и те, кто работал с этими графиками и диаграммами, становились все смелее и смелее, и начинали все больше экспериментировать, приводя это средство отображения информации к тому виду, в котором мы знаем его сейчас. Андре–Мишель Герри (André–Michel Guerry) был первым, кто опубликовал идею карты, где разные регионы окрашивались в разный цвет в зависимости от чего–либо, поддающегося измерению. В 1829 году он создал первую хороплет–карту, взяв регионы во Франции и заштриховав их по уровню преступности. Сегодня мы видим подобные карты, представляющие позиции разных регионов на выборах, кто за кого голосовал, распределение богатства, и многие другие связанные с географическими параметрами переменные. Идея выглядит такой простой, но даже сегодня сложно освоить и понять ее, если она не использована с умом.

Рис 92. Хороплет–карта Франции, демонстрирующая уровень преступности(Андре–Мишель Герри)

Есть много инструментов, которые хороший журналист должен понять и иметь в своем арсенале для создания визуализаций. В том, что касается графиков и диаграмм, важно не бросаться с головой в рискованное предприятие, а заложить отличную основу. Все, что вы создаете, должно исходить из серии элементарных графиков, схем и диаграмм. Если вы способны овладеть основами, то потом вы можете перейти к построению более сложных и продвинутых визуализаций, которые будут состоять из этих базовых элементов.

Двумя основными видами графиков и схем являются гистограммы, сиречь столбчатые графики, и линейные диаграммы. Хотя они и очень похожи в своих вариантах и сценариях использования, они также могут сильно различаться по своему замыслу и смысловому содержанию. Давайте возьмем для примера продажи какой–нибудь компании за каждый месяц года. Мы получим 12 столбцов, представляющих суммы денег, полученные за каждый месяц.

Рис 93. Простая гистограмма: полезная для представления прерывистой, дискретной информации

Давайте посмотрим, почему в этом примере должна быть столбчатая диаграмма, а не линейный график. Линейная диаграмма очень хорошо подходит для непрерывного, сплошного, продолжительного потока данных. А наши цифры продаж — это итог за месяц, там ничего не меняется, они уже статичны. Если эти данные представить в форме столбца, то мы знаем, что в январе компания заработала 100 долларов, а в феврале 120. Если мы представим эту же информацию в виде линейной диаграммы, то тут по–прежнему будет 100 и 120 долларов по состоянию на начало каждого месяца. Но при этом, смотря на линейный график, мы автоматически представляем, что 15 числа компания заработала 110 долларов. Что неправда. Столбцы используются для дискретных, раздельных единиц измерения, а линии — когда данные носят непрерывный характер, например, температура.

Рис 94. Простой линейный график: полезный для представления непрерывной информации

Тут мы можем видеть, что в 8.00 утра температура составляла 20 градусов Цельсия, а 9.00 утра — 22 градуса. Если мы посмотрим на линию, то представим себе, что в 8.30 у нас был 21 градус, что является вполне корректным, так как температура носит непрерывный характер и каждая точка не является суммой других значений, а представляет собой точную величину на данный момент или возможное значение между двумя точными величинами.

И столбцы, и линии могут быть составными. Это отличный инструмент для представления материала, который может работать разными способами. Давайте возьмем для примера компанию, у которой имеется 3 территории, три месторасположения.

Рис 95. Сгруппированная гистограмма

Для каждого месяца у нас будет три столбца, по одному для каждого из магазинов, в общей сложности 36 за год. Если мы поместим их другрядом с другом, мы сможем быстро увидеть, в каком месяце какой магазин принес самую большую выручку. Это интересная и убедительная история, но в тех же данных кроется и еще кое–что. Если мы поставим столбцы друг на друга, то у нас получится только один столбец для каждого месяца, и мы утратим возможность с легкостью увидеть, какой магазин больше всего принес денег, но зато мы можем увидеть, в какой из месяцев компания в целом поработала лучше всего и заработала больше всего денег.

Рис 96. Составной столбчатый график

Оба этих варианта являются убедительными и действенными способами отображения одной и той же информации, но при этом они рассказывают две разные истории, используя одни и те же первоначальные данные. Как для журналиста, для вас самым важным аспектом работы с данными является то, чтобы в первую очередь выбрать, какую именно историю вы хотите рассказать. О том ли, какой месяц — лучший для бизнеса, или о том, какой магазин может считаться флагманским, по крайней мере, по доходам? Это, конечно, простой пример, но на самом деле, в этом вся суть, это центральный момент журналистики данных: нужно задать правильный вопрос прежде, чем вы зайдете слишком далеко. Сам сюжет, сам материал будет направлять вас и обусловливать ваш выбор варианта визуализации.

Столбчатый график и линейная диаграмма — это действительно повседневные, базовые инструменты, буквально–таки хлеб насущный любого журналиста данных. Отталкиваясь отсюда, вы можете уже расширять ваш инструментарий посредством включения в него гистограмм, горизонтальных графиков, искрографиков, потоковых графиков и других инструментов, которые обладают сходными свойствами, но предназначены для слегка отличающихся друг от друга ситуаций, в том числе по количеству данных, по источникам данных, по местоположению графика в тексте.

В журналистике одна из наиболее часто использующихся графических функций — это карта. Время, количество и географические данные — все это свойственно картам. Мы всегда хотим знать, сколько имеется того или иного в одной области по сравнению с другой, или как данные перетекают из одного региона в другой. Функциональные диаграммы и хороплеты — это очень полезные инструменты, и их обязательно нужно иметь в вашем арсенале и вы должны уметь ими пользоваться, когда работаете над визуализациями в журналистских целях. Знать, как превратить карту в набор разноцветных элементов должным образом, не вводя читателей в заблуждение и не путая его — это крайне важно. Политические карты обычно окрашиваются в разные цвета и сортируются по цветам по принципу «все или ничего» для каждого региона, даже если разница в какой–то части страны не превысила одного процентного пункта. Но работа с цветом не предполагает обязательного бинарного выбора, жесткого выбора одного из двух. Можно с достаточной степенью осторожности использовать оттенки цветов. Умение понимать карты — это значительная часть журналистики. Карты могут с легкостью ответить на вопрос «ГДЕ» из серии «пяти W» .

Когда вы хорошо освоите основные виды графиков и диаграмм, то потом можете приступить к созданию более сложных, разнообразных и фантазийных визуализаций данных. Если вы не понимаете основ, тогда получится, что вы, условно говоря, строите на зыбкой почве. Подобным же образом вы учитесь быть хорошим писателем, хорошим автором, умеющим делать предложения короткими и емкими, умеющим всегда помнить о своей аудитории, и не занимающимся искусственным усложнением вещей, чтобы казаться более умным, а старающимся в максимальной степени передать смысл для читателя. Однако же не стоит перебарщивать с данными. Начинать с небольших объемов — это самый эффективный и действенный способ рассказать историю, медленно наращивая объемы только в случае необходимости.

Решительная и энергичная манера письма подразумевает краткость, лаконичность. В предложении не должно быть ненужных слов, в абзаце — необязательных предложений. По той же причине, по которой в рисунке не должно быть лишних линий, а в машине — лишних деталей. Речь тут не о том, чтобы автор делал все свои предложения максимально короткими, или избегал любых подробностей, или говорил о своей теме лишь в общих чертах, а о том, чтобы каждое слово несло смысл и не выглядело лишним и не необходимым.

Вполне нормально не использовать каждый–каждый элемент данных в вашем сюжете или материале. Вы не должны спрашивать разрешения, можно ли быть сжатым и лаконичным, это просто должно быть правилом.

— Уильям Странк–младший («Элементы стиля» (Elements of Style) — 1918)

Брайан Суда, (optional.is)

Визуализация данных по принципу «сделай сам»: наши главные инструменты

Рис 97. Военные отчеты Wikileaks(The Guardian)

Какие инструменты для визуализации данных имеются в интернете, просты в использовании и бесплатны? Мы у себя в Datablog и Datastoreстараемся в максимальной степени пользоваться мощными бесплатными возможностями интернета.

Возможно, это прозвучит лицемерно и неискренне, особенно учитывая, что мы явно имеем доступ к великолепным отделам Guardian, занимающимся графикой и интерактивами, по крайней мере, это касается тех проектов, на воплощение которых у нас есть немного больше времени — таких, например, как вот эта карта государственных расходов(созданная при помощи программы Adobe Illustrator) или вот этот интерактив по беспорядкам в «Твиттере».

Но в нашей повседневной работе, когда нам что–то нужно сделать быстро и оперативно, мы часто используем такие же инструменты, которые может использовать любой другой – и создаем графику, которую легко мог бы сделать кто–то еще.

Итак, что мы используем?

Таблицы Google Fusion.

Эта доступная онлайн база данных и картографический инструмент стала нашим основным средством для создания быстрых и детализированных карт, особенно таких, где требуется функция приближения. Вы получаете все удобства карт Google с их высоким разрешением, но при этом они вдобавок могут содержать много данных – например, около 100 Мб CSV. Когда вы будете работать с таблицами Fusion в первый раз, они могут показаться несколько мудреными, но не бойтесь. Мы использовали их для создания карт типа вышеприведенной иракской, а также таких, как вот такая вот карта по бездомным.

Рис 98. Интерактивная карта по бездомным(The Guardian)

Основное преимущество – это гибкость. Можно загрузить, скажем, kml–файл региональных границ, и потом объединить его с таблицей данных. Сервис также потихоньку приобретает обновленный пользовательский интерфейс, что должно облегчить работу с ним.

И не нужно быть ни кодером, ни программистом, чтобы все сделать – а вот этот вот инструмент слоев Fusionдает вам возможность объединять несколько карт вместе, добавлять функции поиска и фильтрации, которые вы можете потом встроить в блог или на сайт.

А начать можно, например, с вот этого вот великолепного обучающего пособия от Кэтрин Херли (Kathryn Hurley) из Google.

Замечание используйте shpescapeдля конвертации служебных файлов shp в таблицы Fusion, которыми вы сможете пользоваться. Также будьте осторожны со слишком сложными и нагруженными картами – Fusion не способен справиться с размерами более миллиона точек на одну клетку.
Tableau PublicЕсли вам не требуется неограниченное пространство профессионального издания, то инструмент бесплатен – а его использование означает, что вы сможете создавать весьма сложные визуализации просто и легко – с данными объемом до 100 000 строк. Мы используем его, в основном, когда нам требуется свести вместе несколько графиков и схем — как, например, в этой карте самых высоких налоговых ставок по всему миру, где присутствует также и столбчатый график.

Или этот сервис можно использовать в качестве анализатора данных — как мы, например, поступили в случае с приведенным ниже проектом по Расходам на федеральные выборы в США(хотя у нас даже кончилось место в бесплатной версии — за этим нужно следить). Tableau также требует того, чтобы данные были отформатированы весьма специфическим способом, чтобы вы могли извлечь из них максимум. Но если вы справитесь с этим, то получите нечто очень интуитивно понятное, которое будет отлично работать. La Nación в Аргентине, например, строит без преувеличению всю свою работу в области журналистики данных на базе Tableau.

Рис 99. Финансирование президентской кампании 2012 года(The Guardian)

У Tableau есть несколько хороших онлайн–обучающих уроков, с которых вы могли бы начать.

Замечание Tableau сделан для PC, хотя разрабатывается и версия для Mac. Пользуйтесь различными обходными маневрами, чтобы заставить ее работать.
Диаграммы таблиц Google

Рис 100. Правительственные расходы и налогообложение в Великобритании(The Guardian)

После чего–то простого — типа линейного или столбчатого графика, или круговой диаграммы — вы обнаружите, что таблицы Google (которые вы создали на основе документов из вашего аккаунта Google) могут дать основу и для более сложных и весьма симпатичных и привлекательных схем. Включая анимированные пузыри, использованные, например, в проекте GapminderХанса Рослинга (Hans Rosling). В отличие от программ the по построению схем и графиков от Google, вам не нужно думать о кодировке — это примерно как строить график в Excel, где вы просто обозначаете данные и кликаете на виджет построения соответствующего графика. Опции индивидуальной настройки тоже стоит внимательно изучить — вы можете менять цвета, заголовки и шкалы. Они весьма нейтральные по дизайну, что полезно в случае небольших схем и графиков. Линейные диаграммы также могут похвастаться несколькими приятными возможностями, включая возможность аннотаций и добавления комментариев.

Замечание отведите некоторое время изучению опций по настройке и кастомизации графиков и схем — вы сможете создать свою собственную цветовую палитру.
Рис 101. Заключенные, отбывающие срок в ожидании исполнения смертного приговора, и исполнения смертных приговоров( Datamarket)

Изучите и проанализируйте эти данныеоб американских смертных приговорах

Более известный в качестве поставщика данных, Datamarket на самом деле является также и весьма толковым инструментом для визуализации чисел. Вы можете загрузить ваши собственные данные или использовать многочисленные наборы данных, которые они имеют вам предложить — но при этом стоит отметить, что набор ваших возможностей существенно расширяется, если вы подпишетесь на профессиональную версию.

Замечание Datamarket лучше всего работает с временными рядами данных, также стоит ознакомиться с их обширными наборами данных.
Many Eyes

Если какому сайту когда и требовались внимание и забота, то это IBM’овский Many Eyes. Когда он только–только был запущен, созданный Фернандой Вьегас ( Fernanda B. Viégas) и Мартином Уоттенбергом ( Martin Wattenberg), это был уникальный пример, позволявший людям просто загружать наборы данных и визуализировать их. Теперь, когда его создатели работают в Google, сайт выглядит словно бедный родственник с его приглушенной цветовой палитрой – и уже некоторое время на нем не появляется ничего нового в плане способов визуализации.

Рис 102. Негодяи из «Доктора Кто»(The Guardian)

Замечание вы не можете редактировать данные после того, как загрузили их, поэтому обязательно заранее проверьте, все ли у вас правильно, и нет ли ошибок, прежде чем начать выгружать их туда.
Color Brewer

Рис 103. Color brewer

Не являясь, строго говоря, инструментом визуализации, Color Brewer («Цветовар») – изначально сконструированный на государственные деньги и разработанный в Университете штата Пенсильвания – на самом деле удобен для выбора цветов карт, и стоит потратить некоторое время на него, если вы планируете что–то в этом роде. Вы можете выбрать базовый цвет и получить кодировку для всей палитры.

И еще немного

Рис 104. Еще от Color Brewer

Если ничего из этого вам не подошло, стоит также ознакомиться с этим материалом от DailyTekk, , где приведено еще больше разных инструментов и возможностей. То, о чем мы написали выше — не единственные инструменты, а просто те, которые мы применяем чаще всего. Существует также множество других, включая:

Chartsbin, инструмент для создания кликабельных карт мира

iChartsспециализируется на маленьких виджетах по созданию схем и графиков

Geocommonsделится данными и краевыми данными (граничными условиями) для создания глобальных и местных карт

А, да, и конечно есть еще piktochart.com, который представляет образцы для текстуально–цифровых визуализаций, которых на данный момент существует множество.

Саймон Роджерс, The Guardian

Как мы обрабатываем и подаем данные в «Верденс Ганг»

Новостная, информационная журналистика предполагает донесение до читателя новой информации максимально быстро. Самым быстрым способом может быть видео, фотография, график, таблица или комбинация этих методов. Что же касается визуализации, то целью должно быть то же самое — быстрая, быстро воспринимаемая информация. Новые инструменты по работе с данными позволяют журналистам отыскивать такие сюжеты и повороты тем, которые они не могли бы найти иначе, и презентовать свои материалы новыми способами. Вот несколько примеров, показывающих, как мы преподносим данные в самой популярной газете в Норвегии, «Верденс Ганг» (Verdens Gang или VG).

Цифры

Рис 105. Картографирование данных о налогоплательщиках и данных лотереи («Верденс Ганг»)

Этот сюжетоснован на данных Норвежского статистического бюро, данных о налогоплательщиках и данных национального монополиста в области проведения лотерей. Посредством этого интерактивного графика читатель может найти разного рода информацию по каждому району и каждому муниципалитету в Норвегии. Актуальная таблица показывает процент от дохода, который уходит на игры. Проект был создан при помощи Access, Excel, MySql и Flash.

Сети

Рис 106. Богатый рыбак рыбака видит издалека(«Верденс Ганг»)

Мы использовали анализ социальных сетей для того, чтобы проанализировать отношения между 157 сыновьями и дочерьми самых богатых людей Норвегии. Наш анализ показал, что наследники и наследницы богатейших людей нашей страны наследуют и связи и взаимоотношения их родителей. В итоге получилось более 26 000 элементов связей, все графики и схемы доводились вручную с использованием Photoshop. Мы использовали Access, Excel, Notepad и инструмент анализа социальных сетей Ucinet.

Карты

Рис 107. Анимированная карта данных о полиции («Верденс Ганг»)

На этой анимированной теплокарте, объединенной с простым столбчатым графиком, можно просмотреть данные о преступлениях, совершенных в центре Осло, час за часом, день за днем, за период в несколько месяцев. На той же анимированной теплокарте вы можете увидеть количество офицеров полиции, несущих службу в то же время. Видно, что когда действительно происходит преступление, число действующих офицеров полиции — минимально. Проект был реализован при помощи ArcView со Spatial Analyst.

Интеллектуальный анализ текстов

Рис 108. Интеллектуальный анализ выступлений и речей лидеров политических партий («Верденс Ганг»)

Для этой визуализациимы провели интеллектуальный анализ речей, с которыми выступили семь норвежских партийных лидеров на своих съездах. Все выступления были проанализированы, и анализ позволил создать материалы под определенным углом зрения. В каждом материале была ссылка на график, и читатели имели возможность ознакомиться с языком политиков и изучить его. Проект был создан при помощи таких инструментов как Excel, Access, Flash и Illustrator. Если бы он создавался в 2012 году, мы бы делали интерактивный график при помощи Javascript.

Заключительные положения

Когда нам требуется визуализировать историю, тему, сюжет? В большинстве случаев этого делать не требуется, но порой мы хотим сделать это, чтобы помочь нашим читателям. Материалы, содержащие большие объемы данных, весьма часто требуют визуализации. Однако нам стоит придерживаться очень критичного подхода при выборе, какого рода данные мы собираемся представить. Когда мы создаем материал, пишем о чем–то, мы знаем тему во всех подробностях. Но что именно из этого массива данных нужно или хочется знать читателю? Вряд ли все до мельчайших подробностей. Возможно, достаточно простой таблицы или не менее простого графика, показывающего развитие событий или изменение величин с течением времени. При работе с журналистикой данных суть в том, что совсем не обязательно ставить себе задачей презентовать все огромные объемы имеющихся данных!

В последние два–три года наблюдается отчетливая тенденция к созданию все большего числа интерактивных графиков и таблиц, которые дают возможность читателю глубже проникнуть в тему. В разные темы. Хорошая визуализация это как хорошая фотография. Ты понимаешь, что там изображено и о чем это, буквально взглянув на нее секунду–другую. Чем дольше ты смотришь на изображение, тем больше ты видишь. Визуализация может быть названа плохой, если читатель не знает, откуда начать или где остановиться, а также когда визуализация перегружена деталями. При таком сценарии, возможно, гораздо лучше будет смотреться просто текстовый материал?

&mdash Джон Боунс, «Верденс Ганг»

Публично доступные данные переходят в социальный формат

Данные бесценны. Доступ к данным дает потенциальную возможность осветить разные темы и вопросы таким способом, которые запускают механизм реакции, демонстрируя тем самым результативность. Тем не менее, некачественная обработка данных может превратить факты в непрозрачную структуру, которая ничего не сообщает и ничего не разъясняет. Если она не содействует обсуждению тему или не обеспечивает понимание чего бы то ни было в контексте других фактов и событий, то данные, представленные таким образом, будут иметь очень ограниченную ценность для общества.

Нигерия вернулась к демократии в 1999 году после долгих лет военного правления. Расследование фактов, лежавших в основе тех или иных данных, воспринималось как оскорбление власти, как попытка поставить под вопрос подмоченную репутацию хунты. Закон о государственных тайнах (Official Secrets Act) обязывал государственных служащих не делиться правительственной информацией. Даже спустя тринадцать лет после возвращения в страну демократии доступ к тем или иным официальным данным, к той или иной государственной информации может являться трудной задачей. Данные о государственных расходах мало что сообщают большинству населения, которое слабо разбирается в бухгалтерской отчетности и сложной арифметике.

С ростом числа мобильных устройств в стране и увеличением количества нигерийцев, имеющих доступ в интернет, в BudgIT мы увидели великолепную возможность использования технологий визуализации для разъяснения темы госрасходов обществу и для привлечения людей к этой тематике. Нам пришлось задействовать пользователей на всех платформах и устанавливать контакты с гражданами через неправительственные организации, чтобы это сделать. Этот проект посвящен превращению государственных данных в социальный объект и созданию разветвленной сети пользователей, которые требуют и ищут перемен.

Рис 109. Приложение BudgIT(BudgIT Нигерия)

Для успешного взаимодействия с пользователями мы должны понять, чего они хотят. Что беспокоит, что волнует гражданина Нигерии? Где, по их ощущениям, им не хватает информации? Как мы можем сделать данные относящимися непосредственно к жизни того или иного нигерийца? Типичным представителем целевой аудитории BudgIT является грамотный нигериец, присутствующий на интернет–форумах и в соцсетях. Чтобы победить в борьбе за ограниченное в объемах внимание пользователей, погруженных в самые разнообразные области интересов (компьютерные игры, чтение, общение в социальных сетях), нам нужно представить данные в краткой и емкой манере. Поместив отрывок из данных в «Твиттер» или представив его при помощи инфографики, вы получаете возможность обеспечить более устойчивое взаимодействие с аудиторией с большим опытом в области интерактива, чтобы представить пользователям более широкую картину.

При визуализации данных важно понимать уровень грамотности в отношении этих самых данных ваших пользователей. Какими бы красивыми и изощренными не были сложные, комплексные диаграммы и графики, все они, как и сами интерактивные приложения, все они тем не менее могут не обеспечивать содержательное обращение к нашим пользователям на основе их предшествующего опыта с интерпретацией данных. Хорошая визуализация же будет говорить с пользователем на том языке, который он способен понять, и принесет с собой сюжет, с которым они легко смогут связать самих себя.

Мы привлекли более 10 000 нигерийцев к проекту, посвященному бюджету, и мы разделили их на три категории, чтобы удостовериться, что была достигнута оптимальная степень ценности донесенной до них информации. Вот краткое описание этих категорий:

Случайные пользователи.Это пользователи, которые хотят получить информацию быстро и просто. Им интересно получить картинку с изображением данных, а не подробную, детальную аналитику. Мы можем привлечь таких пользователей через твиты или интерактивную графику.

Активные пользователи.Это пользователи, благодаря которым стимулируется процесс обсуждения той или иной темы. Они используют данные для того, чтобы увеличить объем своих знаний в соответствующей области, или предложить трактовку этой информации, или оспорить те или иные допущения и предположения, которые можно сделать на основе данных. Для этих пользователей мы обеспечиваем механизм обратной связи и возможность делиться взглядами и точками зрения, а также ценной информацией через социальные сети.

Любители рыться в данных:Этим пользователям нужна исходная информация для собственной визуализации или анализа. Мы просто даем им данные для их целей.

Рис 110. Слайдеры в приложении BudgIT показывают предпочтения граждан(BudgIT Нигерия)

В BudgIT у нас участие пользователей основано на следующих принципах:

 Стимулирование обсуждений текущих тенденций. BudgIT отслеживает онлайн– и оффлайн–дискуссии и обсуждения и стремится предоставить данные, связанные с обсуждаемыми темами. Например, во время забастовок в нефтяной отрасли в январе 2012 года протестующие постоянно тревожно обсуждали вопрос о необходимости восстановить субсидии на топливо и уменьшить нелепые, неумеренные, зачастую экстравагантные и не являющиеся необходимыми государственные расходы. BudgIT отследил обсуждение этой темы через социальные медиа и за 36 часов рабочего времени создал приложение, которое позволило гражданам реорганизовать нигерийский бюджет.

 Хорошие механизмы обратной связи. Мы взаимодействуем с пользователями посредством каналов связи для обсуждений, а также посредством социальных сетей. Многие пользователи хотят получать информацию не только в виде данных, но и в виде аналитических материалов, стоящих за этими данными, и многие интересуются нашим мнением. Мы обязательно соблюдаем правило о необходимости удостовериться в том, что наши ответы содержат только факты, основанные на данных, и не навязывают наших личных или политических взглядов. Нам нужно держать каналы обратной связи открытыми, чтобы активно отвечать на комментарии и творческим образом взаимодействовать с пользователями, чтобы убедиться в том, что то сообщество, которое возникло вокруг тех или иных данных, живет и поддерживается.

 Сделать значимым на местном уровне. Что касается наборов данных, ориентированных на конкретную целевую группу, BudgIT стремится локализовать содержание таких данных и предоставить канал обсуждения, который объединял бы потребности и интересы конкретных групп пользователей. В частности, мы заинтересованы в том, чтобы взаимодействовать с пользователями по ключевым вопросам, которые их беспокоят, посредством SMS.

После того, как мы выложили данные о расходах в открытый доступ на сайте yourbudgit.com, мы обратились к гражданам через различные неправительственные организации. Мы также планируем разработать некую коллективную структуру, в рамках которой граждане и правительственные учреждения смогут встречаться в помещениях магистратов для определения ключевых пунктов бюджета, которым должен быть отдан приоритет.

Проект удостоился освещения как в местной, так и в зарубежной прессе, в самых разных СМИ — от CP–Africaдо BBC. Мы сделали обзор разделов бюджетов, посвященных безопасности, за 2002–2011 годы для журналиста АР Инки Ибукуна (Yinka Ibukun). Большинство медийных организаций относятся к типу «любителей рыться в данных», поэтому они запрашивали у нас исходные данные для использования их в собственных репортажах и материалах. Мы планируем и в дальнейшем сотрудничать с журналистами и информационными организациями в ближайшие месяцы.

Олусегун Онигбинде, BudgIT Nigeria

Привлечение людей к вашим данным

Рис 111. Должны ли мы расследовать дальше?(Wired.co.uk)

Почти так же важно, как опубликовать данные в первую очередь, важно и получить реакцию от вашей аудитории. Вы — живой человек, вы можете допускать ошибки, упустить что–то, или иметь ложное представление о чем–либо. Ваша аудитория — один из самых ценных и полезных активов, который у вас есть — они могут проверить факты, или указать на что–то, на что вы могли не обратить внимания.

Между тем, привлечение этой аудитории и работа с ней — задача непростая. Вы имеете дело с группой людей, которая за долгие годы пользования интернетом привыкла перескакивать с сайта на сайт, не оставляя за собой ничего, кроме саркастичных комментариев. Создание некоего уровня доверия между вами и вашими пользователями является крайне важной задачей — они должны знать, что они намереваются получить, знать, как они могут реагировать на это, и как предложить обратную связь, а также знать, что к их ответной реакции прислушаются.

Но сначала вам нужно подумать о том, какая аудитория у вас есть или какую аудиторию вы хотите получить. Об этом можно узнать, взглянув на то, с какого рода данными вы работаете. Если они относятся к какому–то конкретному сектору, то это значит, что вы собираетесь освоить связи конкретно с этим сектором. Существуют ли какие–либо торговые организации, с которыми вы можете вступить в контакт, и которые могут изъявить желание обратить внимание общества на вашу работу и прорекламировать те источники, которые вы получили, и ту работу, которую вы проделали, с прицелом на более широкую аудиторию? Существует ли какой–нибудь вебсайт профильного сообщества или форум, с которыми вы тоже можете вступить в контакт? Имеются ли специальные, профильные издания, у которых может появиться желание создать публикации по некоторыми из сюжетов, которые вы обнаружили в ваших наборах данных?

Социальные сети, конечно, тоже важный инструмент, хотя тут снова все зависит от типа данных, с которыми вы работаете. Если вы изучаете, например, глобальную статистику морских перевозок, то вы вряд ли найдете соответствующую группу в «Фэйсбуке» или «Твиттере», которой будет особенно интересна ваша работа. С другой стороны, если вы перелопачиваете индексы восприятия коррупции по всему миру, или местную статистику по преступлениям, это, вероятно, будет представлять интерес гораздо для более широкой аудитории.

Когда дело касается «Твиттера», наилучшим подходом, судя по всему, будет связаться с видными деятелями, коротко объяснив, почему ваша работа важна, и добавить ссылку на нее. Если повезет, они ретвитят вас и для своих читателей. Это отличный способ максимизировать охват аудитории информацией о вашей работе с минимальными усилиями и затратами, но (!) — не надоедайте людям!

Итак, когда вы привлекли людей на страницу, вам нужно обдумать вопрос о том, как ваша аудитория собирается взаимодействовать с вашей работой. Конечно, они могут прочесть материал, сюжет, который вы написали, и взглянуть на инфографику или карты, но кроме этого чрезвычайно полезным, стоящим и необходимым является возможность для реагирования, обратную связь. В большей степени, чем что бы то ни было еще, это обеспечит вас ценной информацией по предмету, о котором вы пишете, позволит проникнуть в суть, получить уникальную информацию и аналитические наработки, даст информацию для будущих работ по этой теме.

Во–первых, само собой разумеется, что вам нужно публиковать исходные данные вместе с вашими статьями. Храните данные либо в формате «обычного текста, разделенного запятыми», либо на сервисах третьих стороны, типа Google Docs. В таком случае будет существовать лишь одна версия данных, и вы сможете вносить изменения и дополнения в случае необходимости, если вы найдете ошибки в таблицах данных, которые потребуют позднейшей корректировки. Тем не менее, лучше делать и то, и то. Делайте процесс получения людьми ваших исходных материалов максимально простым.

Затем начинайте думать о том, существуют ли иные пути и способы, которыми вы можете заставить аудиторию взаимодействовать. Следите за тем, какие части или разделы в ваших наборах данных привлекают внимание — весьма вероятно, что зоны и области, собирающие наибольший трафик, могут содержать в себе что–то интересное, что вы могли упустить. Например, вы могли не подумать о том, чтобы взглянуть на статистику по уровню бедности в Исландии, но если эти поля обращают на себя большое внимание пользователей, вероятно, там действительно есть что–то, на что стоит взглянуть.

Стоит также подумать о чем–то еще, нежели просто поле для комментариев. Можете ли вы присоединить комментарии к конкретным полям в таблице? Или к конкретной области в инфографике? Хотя большинство встраиваемых систем публикации не обязательно дают такую возможность, на это стоит обратить внимание, особенно если вы создаете что–то более специальное, заказное. Пользу, которую это может принести вашим данным, сложно переоценить.

Удостоверьтесь, что другие пользователи тоже могут видеть такие комментарии — они во многих случаях имеют почти такую же ценность, как и оригинальные данные, и если вы будете сохранять эту информацию только для себя, получится, что вы лишаете этой ценной вещи вашу аудиторию.

Наконец, другие люди могут захотеть опубликовать свою собственную инфографику и свои собственные сюжеты и материалы на основе тех же источников данных — подумайте о том, как лучше всего связать их вместе и рассказать об их работе. Можно использовать хэштег конкретно для этого набора данных, например, или же если они очень наглядны и иллюстративны, можно поделиться ими в группе Flickr.

Также может быть полезным иметь способ делиться информацией более конфиденциальным образом — в некоторых случаях для людей может быть небезопасным публично делиться своим вкладом в массивы данных, или они просто могут чувствовать себя некомфортно, имея дело с такой практикой. Эти люди могут предпочесть предоставить информацию через адрес электронной почты или даже через поле для анонимных комментариев.

Самое важное, что вы можете сделать с вашими данными — это делиться ими настолько широко и настолько открыто, насколько это возможно. Давая возможность вашим читателям проверять вашу работу, искать и находить ваши ошибки, и выявлять моменты, которые вы могли упустить. Все это сделает ваш уровень журналистской работы и уровень ваших знаний о вашем читателей несравненно лучше.

Данкан Гир, Wired.co.uk



Оглавление

  • Вступительная часть
  •   К пожелавшим остаться неизвестными
  •   Список тех, кто принял участие в создании этой книги
  •   Чем является эта книга (и чем она не является)
  •   Вкратце о справочнике
  • Введение
  •   Что такое журналистика данных?
  •   Почему журналисты должны использовать данные?
  •   Почему журналистика данных важна?
  •     Фильтрация потока данных
  •     Новый подход к созданию сюжетов
  •     Словно фотожурналистика с ноутбуком
  •     Журналистика данных – это будущее
  •     То, благодаря чему обработка числовой информации встречается с работой мастеров слова
  •     Обновление своего набора навыков
  •     Средство для борьбы с асимметричностью информации
  •     Ответ на создаваемый при помощи данных пиар
  •     Предоставление независимой интерпретации официальной информации
  •     Работа с лавиной данных
  •     Наша жизнь – это данные
  •     Способ сэкономить время
  •     Неотъемлемая часть набора инструментов журналиста
  •     Приспособление к изменениям в нашем информационном окружении
  •     Способ видеть вещи таким образом, каким бы вы их иначе не увидели
  •     Способ создавать более насыщенные сюжеты
  •   Несколько известных примеров
  •     Не навредив Las Vegas Sun
  •     База данных о зарплатах государственных служащих
  •     Полнотекстовая визуализация документов о войне в Ираке, Associated Press
  •     Тайны убийств
  •     Машина текстовых сообщений (Message Machine)
  •     Проект Chartball
  •   Журналистика данных в перспективе
  •     «Компьютерная журналистика» и «точность журналистики»
  •     Журналистика данных и создание репортажей при помощи компьютера
  •     Журналистика данных связана с массовой грамотностью в том, что касается данных
  • В ньюсруме
  •   Журналистика данных в АВС
  •     Состав нашей команды:
  •     Откуда мы брали данные?
  •     Что мы узнали?
  •     Картина в целом: некоторые идеи
  •   Журналистика данных в ВВС
  •     Сделать это личным
  •     Простые инструменты
  •     Добывание данных
  •     Понимание проблемы
  •     Описание команды
  •   Как работает группа подготовки новостных приложений в Chicago Tribune
  •   За кулисами в Guardian Datablog
  •   Журналистика данных в Zeit Online
  •   Как нанять хакера/программиста
  •   Использование внешнего опыта за счет интенсивной работы групп программистов (хакатона)
  •   Отслеживая деньги: трансграничное сотрудничество
  •   Наши сюжеты делаются в виде кода
  •   Kaas & Mulvad – полузавершенный контент для групп заинтересованных лиц
  •     Процессы: Инновационные информационные технологии + анализ
  •     Создаваемая ценность: Персонал, бренды, доходы
  •     Ключевая ценная информация этого примера
  •   Бизнес–модели для журналистики данных
  • Конкретные примеры
  •   Проект «Расхождение в возможностях» (Opportunity Gap)
  •   9–месячное расследование в отношении Европейских структурных фондов
  •     1. Определить, кто хранит данные и как они хранятся.
  •     2. Загрузить и подготовить данные.
  •     3. Создать базу данных.
  •     4. Дважды перепроверить и проанализировать.
  •   Мелтдаун Еврозоны
  •   Освещение темы госбюджета при помощи OpenSpending.org
  •   Финские парламентские выборы и финансирование предвыборной кампании
  •     1. Поиск данных и разработчиков.
  •     2. Мозговой штурм в поисках идей.
  •     3. Реализация идеи на бумаге и в сети.
  •     4. Публикация данных.
  •   Хакинг выборов (Electoral Hack) в режиме реального времени
  •     Какие данные мы использовали?
  •   Как проект развивался?
  •     За
  •     Против
  •     Выводы
  •   Данные в новостях: WikiLeaks
  •   Хакатон Mapa76
  •   Освещение волнений в Великобритании в Guardian Datablog
  •     Фаза один: Беспорядки как они произошли
  •     Фаза два: Прочтение/толкование беспорядков
  •   Сводные таблицы школ Иллинойса
  •   Выставление счетов в больницах
  •   Кризис домов престарелых
  •   Откровенный телефон
  •   Какой автомобиль выбрать? Рейтинг поломок от Минтранса
  •   Субсидирование автобусных перевозок в Аргентине
  •     Кто работал над проектом?
  •     Какие инструменты мы использовали?
  •   Журналисты, занимающиеся данными о гражданах
  •   Демонстрационное табло по результатам выборов
  •   Привлечение больших групп людей (краудсорсинг) для определения цены на воду
  • Получение данных
  •   Краткий справочник
  •     Направьте ваш поиск в нужное русло
  •     Поиск по сайтам и сервисам баз данных
  •     Поиск на форумах
  •     Поиск в списках рассылок
  •     Присоединиться к сообществу Hacks/Hackers
  •     Спросить эксперта
  •     Узнайте побольше об IT–структуре органов власти
  •     Снова проведите поиск, используя фразы и самые невероятные наборы слов, с которыми вы столкнулись с момента последнего поиска
  •     Напишите запрос на основании законодательства о свободе информации
  •   Ваше право на данные
  •   «WOBBING» Работает. используйте его!
  •     Пример 1 Фермерские субсидии
  •     Пример 2 Побочные эффекты
  •     Пример 3 Контрабанда смерти
  •   Получение данных из сети
  •     Что такое машиночитаемые данные?
  •     «Выскребание» веб–сайтов: зачем?
  •     Что можно и что нельзя выскрести
  •     Инструменты, помогающие в «выскребании» данных
  •     Как работает веб–скребок?
  •     Анатомия веб–страницы
  •     Пример: сбор информации о происшествиях в ядерной отрасли с использованием кода на языке Python
  •   Сеть как источник данных
  •     Веб–инструменты
  •     Веб–страницы, изображения и видео
  •     Адреса электронной почты
  •     Тенденции
  •   Краудсорсинг данных на сервисе guardian datablog
  •   Как сервис datablog использовал краудсорсинг для освещения темы распространения билетов на олимпийские игры
  •   Использование и обмен данными: готический шрифт, мелкий шрифт и реальность
  • Трактование данных
  •   Обретение грамотности в сфере данных за три простых шага
  •   Советы по работе с цифрами в новостях
  •   Основные этапы работы с данными
  •     Понимайте вопросы, на которые хотите получить ответ
  •     Сортировка беспорядочных данных
  •     Данные могут содержать незафиксированную информацию
  •   Буханка хлеба за 32 фунта
  •   Начали с данных, закончили статьей
  •   Данные в статье
  •   Журналисты, работающие с данными, обсуждают выбранные инструменты
  •   Как использовать визуализацию данных для поиска взаимосвязей
  •     Выявление взаимосвязей с помощью визуализации
  •     Как визуализировать данные
  •     Анализируйте и интерпретируйте то, что видите
  •     Фиксируйте свои наблюдения и действия
  •     Преобразуйте данные
  •     Какие инструменты использовать
  •     Пример: Взносы кандидатов в президенты США
  •     Какой можно сделать вывод
  •     Исходный код
  • Представление данных
  •   Представление данных общественности
  •     Визуализировать или не визуализировать?
  •     Использование анимированной графики
  •     Повествуя всему миру
  •     Опубликование данных
  •     Открытие ваших данных
  •     Создавая платформу открытых данных
  •     Сделать данные более человечными и понятными
  •     Открытые данные, открытые источники, открытые новости
  •     Добавляем ссылку для загрузки
  •     Знать ваши масштабы
  •   Как создать новостное приложение
  •     Кто представляет мою аудиторию и каковы их нужды?
  •     Сколько времени я могу на это потратить?
  •     Как я могу вывести какую–то информацию или данные на новый уровень?
  •     Сведение всего вместе
  •   Новостные приложения в ProPublica
  •   Визуализация как «рабочая лошадка» журналистики данных
  •     Совет 1: Используйте небольшие однотипные составляющие, чтобы быстро ориентироваться в больших наборах данных
  •     Совет 2: Обрабатывайте и анализируйте ваши данные сверху вниз, вдоль и поперек
  •     Совет 3: Не предполагайте
  •     Совет 4: Избегайте вдаваться в излишние подробности, не зацикливайтесь на точности и аккуратности
  •     Совет 5: Создавайте хронологические подборки случаев и событий
  •     Совет 6: Встречайтесь с вашим графическим отделом как можно раньше и почаще
  •     СОВЕТЫ ДЛЯ ПУБЛИКАЦИИ
  •   Использование визуализаций для рассказывания историй и создания материалов
  •     Увидеть знакомое новым способом
  •     Показать изменения с течением времени
  •     Сравнить ценности
  •     Показать связи
  •     Отслеживать потоки
  •   Дизайн для данных
  •     Показать иерархию
  •     Ориентирование в больших базах данных
  •     Рисовать в своем воображении альтернативное развитие событий
  •     Когда не использовать визуализацию данных
  •     Когда вашу историю можно рассказать лучше при помощи текста или мультимедиа
  •     Когда у вас очень мало отправных точек
  •     Когда у вас очень незначительная изменчивость в ваших данных, отсутствует четкая тенденция или выводы
  •     Когда карта — не карта
  •     Не забывайте о таблицах
  •   Разные графики рассказывают разные истории
  •   Визуализация данных по принципу «сделай сам»: наши главные инструменты
  •   Как мы обрабатываем и подаем данные в «Верденс Ганг»
  •     Цифры
  •     Сети
  •     Карты
  •     Интеллектуальный анализ текстов
  •     Заключительные положения
  •   Публично доступные данные переходят в социальный формат
  •   Привлечение людей к вашим данным