Литмир - Электронная Библиотека
Содержание  
A
A

Веб–сервис «Машина прошлого» проекта Архив Интернета

Если вы хотите знать, как изменялась конкретная страница на протяжении длительного периода времени, например, на протяжении месяцев или лет, вы можете воспользоваться веб–сервисом The Wayback Machine (Машина прошлого) проекта Internet Archive (Архив Интернета), который с определенной периодичностью делает снимки наиболее популярных страниц сети. Вы идете на сайт проекта, вводите адрес, который вы хотите изучить, и если в системе хранятся копии этой страницы, то вам будет показан календарь, на котором вы сможете выбрать нужный вам период времени. После этого вам будет показано, как выглядела страница в тот момент. Зачастую на страницах будут отсутствовать элементы стиля или изображения, однако и остального бывает вполне достаточно, чтобы понять, каков был основной контент страницы в прошлом.

Просмотр исходного кода

Это может отнять много времени, однако разработчики нередко оставляют комментарии или другую информацию в HTML–коде страницы. В любом браузере, пусть и в разных местах меню, имеется функция просмотра исходного кода, которая позволяет просматривать HTML–код. Вам не обязательно понимать, что означают машиночитаемые участки кода, просто просматривайте куски текста, которые нередко бывают раскиданы между ними Даже если это просто уведомления об авторском праве или имена разработчиков, эта информация может дать важные подсказки о создании и предназначении страницы.

TinEye

Иногда вам может понадобиться информация об источнике изображения, однако без сопроводительного текста такую информацию бывает трудно добыть с помощью традиционных поисковых движков, таких, как, например, Google. Сервис TinEye осуществляет «обратный поиск изображений», т. е. вы предоставляете изображение, а он находит в Интернете другие изображения, похожие на предоставленное вами. Т. к. в процессе сравнивания используется распознавание изображений, результат можно получить, даже если копия была обрезана, деформирована или сжата. Этот сервис может оказаться очень полезным, если вы подозреваете, что изображение, которое выдается как оригинальное или новое, таковым не является, кроме того, этот сервис может привести вас к реальному источнику изображения.

YouTube

Щелкнув значок «Статистика» в нижнем правом углу любого видео, вы получите богатый набор информации об аудитории этого видео на протяжении определенного времени. Несмотря на то, что предоставляемая информация не является полной, она может оказаться полезной для понимания состава зрителей, того, откуда и когда они приходят.

Адреса электронной почты

При изучении адресов электронной почты вам зачастую хочется узнать больше о личности и местоположении отправителя. Хороших готовых инструментов для этого не существует, однако очень полезно обладать базовыми знаниями о скрытых заголовках, входящих в состав каждого электронного письма. Они работают как почтовые марки и могут раскрыть неожиданный объем информации об отправителе. В частности, они часто включают в себя IP–адрес компьютера, с которого было отправлено письмо, что напоминает функцию определителя номера в телефонном аппарате. Вы можете изучить этот адрес с помощью сервиса whois, чтобы найти информацию об организации, которой принадлежит этот компьютер. Если окажется, что владельцем является какой–нибудь крупный интернет–провайдер вроде Comcast или AT&T, вы можете посетить ресурс MaxMind, чтобы узнать приблизительное местоположение этого адреса. Чтобы посмотреть эти заголовки в Gmail, откройте письмо, затем откройте меню рядом с кнопкой «Ответить» в верхнем правом углу и выберите «Показать оригинал». Откроется новая страница, на которой будет показано скрытое содержимое. В начале письма будет пара десятков строк, представляющих собой слова с двоеточиями. Нужный вам IP–адрес может находиться где–то среди них, однако его название будет зависеть от того, откуда было отправлено это электронное письмо. Если оно было отправлено с Hotmail, имя будет выглядеть как «X–Originating–IP:», но если оно было отправлено из Outlook или Yahoo, имя будет находиться в первой строке и начинаться со слова «Received:». Проверка адреса с помощью сервиса whois показала, что он принадлежит компании Virgin Media, интернет–провайдеру из Великобритании, а после проверки с помощью сервиса геолокации MaxMind я выяснил, что письмо было отправлено из моего родного города Кембридж. Т. е. я небезосновательно могу быть уверенным в том, что это письмо было отправлено моими родителями, а не какими–нибудь самозванцами!

Тенденции

Если вы ведете расследование по какой–то широкой теме, а не по отдельному сайту или статье, вам может пригодиться пара инструментов.

Трафик статей Википедии

Если вы хотите знать, как менялся со временем общественный интерес к лицу или какой–то теме, на сайте stats.grok.se/ вы можете получить данные о просмотре любой из страниц Википедии день за днем. Этот сайт немного сыроват и не доделан, однако он позволит вам получить необходимую информацию, приложив лишь толику усилий. Введите интересующее вас имя, чтобы получить информацию о месячном трафике этой страницы. Там будет график, показывающий, сколько раз в день просматривали данную страницу на протяжении выбранного месяца. К сожалению, за один раз вы можете посмотреть данные только за один месяц, поэтому, чтобы отследить более долгосрочные изменения, вам будет нужно выбрать новый месяц и задать новый поиск.

Сведения о поиске в Google

Вы можете получить ясное представление о поисковых предпочтениях пользователей с помощью сервиса Insights from Google. Введите пару распространенных поисковых фраз, например, «Justin Bieber» и «Lady Gaga», и вы увидите график, отображающий количество поисков на временной шкале. Сервис предлагает различные варианты представления данных, позволяет просматривать их по регионам или получать больше данных по тому или иному периоду. Единственный недостаток — отсутствие абсолютных показателей, вы получаете только относительные значения в процентах, которые бывает сложно интерпретировать.

Пособие по журналистике данных (ЛП) - img_63.jpeg

Рис 62. Google Insights (Google)

Пит Уорден, независимый разработчик и аналитик данных.

Краудсорсинг данных на сервисе guardian datablog

Краудсорсинг, согласно Википедии  — это «распределенный процесс решения производственных задач, который предусматривает передачу этих задач для решения широкой общественности». Далее предлагаем вам информацию, полученную в ходе интервью, взятого у Саймона Роджерса, на тему о том, как сервис Datablog газеты Guardian использовал краудсорсинг для освещения скандала, связанного с расходами членов парламента, проблемы употребления наркотиков и темы документов Сары Пэйлин.

Пособие по журналистике данных (ЛП) - img_64.jpeg

Рис 63. A redacted copy of Stephen Pound’s incidental expenses (The Guardian)

Может случиться так, что у вас окажется огромное количество файлов, статистических документов и отчетов, которые просто невозможно обработать в одиночку. Или имеющиеся у вас материалы не открываются или имеют не тот формат, и вы ничего не можете с этим поделать. В таких ситуациях вам может помочь краудсорсинг.

У Guardian есть очень много читателей, очень много пар глаз. Если у нас есть интересный проект, по которому нам необходима помощь, то мы можем за ней обратиться. Именно это мы и сделали в деле о расходах членов парламента. У нас было 45 000 документов и очень мало времени. Наилучшим вариантом было привлечение к данной задаче наших читателей.

42
{"b":"198391","o":1}