Что такое дата-журналистика и как работать в этом жанре
Последние 10 лет в журналистике развивается направление под названием «дата-журналистика» или другими словами журналистика данных.
Википедия дает следующее определение этому явлению – «направление, в основе которого лежит обработка данных и их использование для создания журналистского материала». Причем данные могут быть, как инструментом, с помощью которого проводится расследование, так и источником некого сюжета.
Цель остается все той же – рассказать о значимых для общества событиях. Но при создании текста основной упор делается не на пресс-релизы, мнения экспертов, комментарии участников, а именно на данные.
То, что дата-журналистика начала активно набирать популярность именно сейчас, связано с техническим прогрессом. Ведь если, например, раньше приходилось проводить много времени в архивах (а туда еще доступ нужно получить), запрашивать сведения из реестров, то теперь очень многую информацию можно достать, буквально не вставая с дивана, благодаря интернету.
Однако все-таки, надо сказать, что журналистика данных не такое уж и молодое явление. Если углубиться в историю, оказывается, что первая работа в данном жанре была сделана два века назад.
ИСТОРИЯ
Итак, первопроходцем жанра стало исследование британской газеты The Guardian в 1821 году. В публикации рассказывалось о стоимости высшего образования в различных учебных заведениях страны. Причем ключевой составляющей материала была таблица, в которой наглядно демонстрировались цены. Кстати, такая, казалось бы, крайне полезная информация, еще и в удобном формате, была холодно воспринята критиками. Рецензентам не понравилось то, что данные были показаны слишком, что называется «в лоб», так было не принято.
Следующий «громкий» текст в жанре дата-журналистики появился в 1858 году и снова в Великобритании. Это был большой материал (аж на 54 страницы), в котором проводился анализ ежегодных потерь в британской армии. Публикация содержала в себе множество диаграмм и таблиц. Причем за основу автор Флоренс Найтингейл взяла информацию, которая была доступна всем, так как размещалась в открытых источниках. И, к слову, это как раз стало «фишкой». По сути, журналистка просто привела сведения в удобоваримый вид (что, конечно, ни в коем случае не умаляет ее заслуги).
В начале 50-х в работу включился компьютер и чуть больше, чем через 30 лет – в конце 80-х серия репортажей, которая была создана при помощи все того же компьютера, получила Пулитцеровскую премию.
К слову, определение дата-журналистики было сформулировано только в 2010 году. И, собственно, именно с этого года журналистика данных считается полноценным направлением (несмотря на то, что существовала еще в прошлом веке) и живет по сей день.
ЧТО ВООБЩЕ ТАКОЕ «ОТКРЫТЫЕ ДАННЫЕ»
Прежде чем поговорить о том, где же можно найти открытые данные, нужно разобраться, что же это такое.
Начнем с того, что только на первый взгляд кажется, что любая информация хранится за семью печатями и достать ее невероятно трудно. Конечно, есть и такие сведения, однако еще больше данных лежит буквально на поверхности.
И это также связано с развитием технологий. Сейчас, чтобы оставить цифровой след, который в последствии кто-то может использовать для своей статьи, не обязательно даже открывать браузер. Достаточно установить на смартфон хотя бы одно приложение и с вероятностью в почти 100%, оно будет «сливать» кое-что о вас во всемирную паутину.
Плюс, большой массив данных генерируется государственными органами и компаниями, и это тоже попадает в интернет. А значит, то, что до них доберутся журналисты, лишь вопрос времени.
Кстати, в российском законодательстве отсутствует понятие «открытые данные», но, по словам медиаюриста, зато есть «общедоступная информация» — «информация, размещаемая ее обладателями в сети «Интернет» в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования, является общедоступной информацией, размещаемой в форме открытых данных».
Экспертный совет по открытым данным говорит, что «открытые данные» – это информация, которую раскрывают государственные органы и местные власти и которая отвечает трем требованиям: свобода доступа (любой может найти и бесплатно скачать), свобода использования (нет никаких авторских прав, любой может распространять и обрабатывает на свое усмотрение), автомашинная обработка (данные собраны в структурируемом виде).
Сразу оговоримся, сведения, которые вы получаете по запросу, уже не считаются открытыми данными, а значит, публикация, сделанная на основе такой информацией не считается работой в жанре «дата» (но это не может помешать быть отличным расследованием). Кроме того, не являются открытой информацией декларации чиновников или информацию на сайте госзакупок (они не соответствуют всем трем показателям), поэтому с ними нужно быть осторожными.
ИНСТРУМЕНТЫ И НАВЫКИ
На самом деле, инструментов не так уж и много. Самое первое и важное – вы просто обязаны уметь работать в Exel (кстати, в целом он довольно понятен даже интуитивно, однако знать о некоторых неочевидных фишках тоже важно), кроме того, идеально владеть каким-нибудь языком программирования типа Pyton. Все это нужно, чтобы грамотно структурировать сведения и создавать наглядные таблицы, графики, диаграммы.
Еще одним полезным навыком станет усидчивость. Если вы не можете просидеть несколько часов на одном месте, занимаясь рутинной работой, то дата-журналистика не для вас. Здесь очень часто необходимо обрабатывать открытые данные вручную: компилировать их, очищать от ненужных подробностей, в конце концов просто собирать. Журналисты, которые давно этим занимаются, говорят о том, что могут ради хорошей истории просидеть чуть ли не несколько дней за компьютером.
С чего начать сбор информации? Начинайте с простого. С самых очевидных мест. Официальные сайты компаний и госструктур, государственные статистические комитеты и т.п.
Искать данные можно абсолютно везде. Очень облегчит работу умение эффективно пользоваться поисковыми системами. Об этом мы писали здесь.
А вот здесь и здесь лежат ссылки на всевозможные реестры и базы данных. Также вам могут понадобиться:
- Государственный портал открытых данных;
- Открытые данные по социальным проблемам России;
- Данные по доходам чиновников;
- База данных НКО;
- Росстат;
- Единая межведомственная информационно-статистическая система;
- Открытые данные Минкультуры РФ.
Мы уже упоминали, что также дата-журналисты используют вообще всю информацию, которая может быть размещена на любых сайтах. Но проблема в том, что очень много времени тратится на их мониторинг. Ежедневно нужно просматривать кучу вкладок на предмет обновлений. Ведь никогда не знаешь, в какой момент в открытом доступе появятся нужные сведения. Облегчить жизнь здесь поможет парсинг.
Парсингом называют автоматический сбор информации. Другими словами, компьютер все за вас проверит, соберет и в удобном виде отправит, например, на электронную почту. Удобно также то, что такой способ позволяет не тратить время на ненужные обновления (например, на сайте поправили опечатку в старой публикации или продублировали уже размещенную ранее информацию). Парсинг можно настроить так, чтобы он передавал вам все только самое свежее.
Портал VC.Ru выделил топ инструментов для автоматического сбора сведений. Рассказываем о пятерке лучших:
- Import.ioпредлагает разработчику легко формировать собственные пакеты данных: нужно только импортировать информацию с определенной веб-страницы и экспортировать ее в CSV. Можно извлекать тысячи веб-страниц за считанные минуты, не написав ни строчки кода, и создавать тысячи API согласно вашим требованиям.
- Webhose.ioобеспечивает прямой доступ в реальном времени к структурированным данным, полученным в результате парсинга тысяч онлайн источников. Этот парсер способен собирать веб-данные на более чем 240 языках и сохранять результаты в различных форматах, включая XML, JSON и RSS.
- CloudScrapeспособен парсить информацию с любого веб-сайта и не требует загрузки дополнительных приложений, как и Webhose. Редактор самостоятельно устанавливает своих поисковых роботов и извлекает данные в режиме реального времени. Пользователь может сохранить собранные данные в облаке, например, Google Drive и Box.net, или экспортировать данные в форматах CSV или JSON.
- Scrapinghub– это облачный инструмент парсинга данных, который помогает выбирать и собирать необходимые данные для любых целей. Scrapinghub использует Crawlera, умный прокси-ротатор, оснащенный механизмами, способными обходить защиты от ботов. Сервис способен справляться с огромными по объему информации и защищенными от роботов сайтами.
- ParseHub может парсить один или много сайтов с поддержкой JavaScript, AJAX, сеансов, cookie и редиректов. Приложение использует технологию самообучения и способно распознать самые сложные документы в сети, затем генерирует выходной файл в том формате, который нужен пользователю.
Важно!
Парсинг, безусловно, очень полезная вещь, однако даже когда он выдал вам порцию сведений, не забудьте их тщательно проверить. Причем проверить и на достоверность (помним про подтверждение хотя бы из трех не связанных между собой источников), и на правила пользования, чтобы не нарушить закон об авторских правах. Вся эта информация обычно содержится в «подвале» сайта.
ЧТО ДЕЛАТЬ С ДАННЫМИ
К сожалению, найти базу, из которой можно будет взять информацию, собрать сведения – это далеко не самое главное при работе в жанре дата-журналистики. Это, скорее, основа, которая крайне важна, но и без последующих этапов хорошего материала не получится.
- Все данные, которые вы себе скопируете, нужно будет внимательно просмотреть и «вычистить» – исправить все опечатки, ошибки, повторы слов и пробелов. Провести тщательную корректорскую работу.
- Затем определиться, для кого вы пишете статью, насколько она должна быть «легкой» в терминологии. Составить план, исходя из того, какая аудитория и какую мысль вы хотите ей донести.
- Далее, опираясь на план, составляем текст. Вначале исходим только из собственных выводов, а затем, для подтверждения или опровержения собственных слов, обращаемся к экспертам.
- Шлифуем статью.
РАБОТА С ТАБЛИЦАМИ
Лучшие друзья дата-журналиста – таблицы. В общем-то это удобно упакованные сведения, которые вам уже не придется разбирать, анализировать, придумывать, каким образом сгруппировать. Но в объемных таблицах довольно легко потеряться, поэтому вот несколько советов:
- Сохраните оригинал
Никогда не вносите никакие изменения в исходник. Копируем таблицу и уже там работайте. Все мы люди, можем совершить ошибку, которую будет невозможно исправить, потому что изначальные сведения погребены глубоко под правками. Кстати, к копии полезно сохранить еще один файл, в котором следует указать, где скачали таблицу, когда, когда занимался ее конструированием.
- Копируйте
Выше мы говорили, что нужно создать копию исходника. Но также рекомендуем делать копии после каждого блока изменений. Так будет легче проследить, где совершили ошибку, если вдруг она проскочит.
- Выделяйте цветом
Чтобы не запутаться и не потеряться в строках и столбцах, выделяйте цветом первую строчку, так будет ясно, где вообще начало. Подкрашивайте одинаковые показатели и т.п.
- Удаляйте лишнее
Если вдруг вам нужна не вся таблица, а некая ее часть, сразу удаляйте все неважное, чтобы не запутаться.
Кстати, часто бывает, что собираешь одни и те же сведения из разных источников и оказывается, что они не совпадают. В этом случае нужно постараться найти того, кто их опубликовал и уточнить методологию подсчета, сбора, обработки и т.п.
ОТКУДА НЕЛЬЗЯ БРАТЬ ИНФОРМАЦИЮ
Запрещено разглашать персональные данные, даже если они вроде бы в открытом доступе и их может увидеть любой. В своем материале о них не говорите.
Все остальное, по закону, является открытой информацией.
КАК НАУЧИТЬСЯ ВИДЕТЬ СЮЖЕТ В ДАННЫХ
Если вы только начинаете работать в жанре дата-журналистики, нарабатывайте навык постепенно. Для начала просто тренируйтесь находить информацию, которая бы подтверждала какие-то ваши гипотезы или чьи-то высказывания. Причем заявляя какое-либо предположение в качестве темы, тщательно обдумайте, насколько реально получить нужные сведения и хотя бы примерно представьте, откуда их можно взять.
Когда начнете более-менее неплохо ориентироваться в источниках, начинайте пытаться рассмотреть что-то, что стоит за цифрами. Практически из любой официально озвученной статистики можно раскрутить историю. Но лучше всего совмещать общение с людьми, которые потенциально могут навести на интересный сюжет (какие-то чиновники, с которыми вы наладите более неформальное общение, секретари, которые могут что-то «слить» в личной беседе и т.п.).
Голые данные все-таки редко когда на все 100% делают историю, это лишь наводка и помощь. А самое главное, всегда думайте, для кого будет полезной ваша статья и что нового она даст обществу.