Западные газеты массово ринулись оцифровывать свои архивы. Увы, редакторы и прочие руководители редко способны адекватно оценить количество необходимых для этого человекочасов. Джон Эйнар Сэндванд (John Einar Sandvand) из Betatales.com побывал в Камбодже, где работает целая фабрика по оцифровке контента. Не так давно Джон возглавлял проект коммерциализации архива крупнейшей в Норвегии газеты – Aftenposten. Более чем за 150 лет своего существования эта газета стала настоящей летописью истории страны. Ее архив – это более 1,7 миллионов газетных полос, более восьми миллионов газетных статей и заметок!
Оцифровка газет – непростая задача, которая для многих может оказаться и вовсе непосильной. Бумажные страницы нужно разобрать, структурировать, сканировать, распознать текст, к ним нужно подобрать соответствующие теги, а полученную информацию правильно разложить, чтобы пользователям было удобно ею пользоваться. На подобный проект может уйти несколько лет.
Наиболее затратна по времени оцифровка – сканирование страниц и сортировка полученной информации. Немногие издания могут позволить себе заниматься подобной работой самостоятельно. Вполне логично, что большинству удобнее работать с компаниями, которые специализируются на оцифровке данных. Не удивительно и то, что эти компании перезаказывают самые трудоемкие работы в третьих странах – таких, как Индия или Филлиппины.
Как человек, связанный с архивным проектом крупного издания, Джон заинтересовался возможностью посмотреть, как же работает фабрика, занимающаяся оцифровкой газетных полос. Несомненно, это будет любопытно и настоящим Медиапедам!
Итак, нашему уважаемому коллеге довелось посетить компанию Digital Devide Data, офис которой находится в столице Камбоджи, городе Пномпень. Компания как раз специализируется на оцифровке данных с бумажных носителей. Этой самой оцифровкой и занимается большая часть из более чем шестисот сотрудников компании – выполняют самые тягомотные и однообразные операции.
Сто человек разом набросилось на голландскую газету. На повестке дня более семи миллионов газетных полос. На все про все есть три года. Впрочем, материалы были отсканированы еще в Европе. Камбоджийцы перебирают полученные данные, структурируют информацию. Работа заключается в разделении материалов по кучкам, добавлении к каждому материалу метатегов и двойной проверке правильности полученного результата.
По этому проекту приходится учитывать множество данных:
- связи статей с другими статьями,
- теги необходимы не только для самой статьи, но и для заголовков, подзаголовков и подписей,
- тексты названий проверяются дважды, во избежание ошибок,
- даже объявления и рекламные модули структуризируются и сопровождаются соответствующими тегами.
Результатом этой работы станет уникальная XML-база, в которой можно будет действительно эффективно искать нужную информацию. Издание получит множество уникальных возможностей по использованию прошлых публикаций.
Эта работа чрезвычайно утомительна, но дает плоды. Как рассказал Джону старший менеджер компании, Kunthy Kann, сто человек перерабатывают за месяц 200 000 газетных полос. Это 500 страниц на человека в неделю.
Digital Devide Data сотрудничает с немецкой компанией Content Conversion Specialists. В Камбодже не только используют программное обеспечение партнера, но и работают по субподряду, выполняя заказы для западных клиентов.
Занимаясь расчетами по проекту оцифровки архивов Aftenposten, Джон понял, что даже для того, чтобы рассортировать более полутора миллионов полос архивных данных и подобрать к каждому материалу теги, нужно в течение года содержать не менее семидесяти человек. И это не считая временных затрат на непосредственное сканирование страниц. Джон уверен, что лишь немногие из европейских медийщиков понимают, сколько сотрудников в действительности понадобится, чтобы перевернуть такую прорву материалов.
Впрочем, цель оправдывает средство. Огромный объем полученной информации можно эффективно использовать в коммерческих целях.
Заслуживает отдельного внимания тот факт, что Digital Devide Data – это некоммерческое предприятие. Главная цель компании – не заработать денег, а помочь малообеспеченным камбоджийцам получить высшее образование.
Вот как работает эта модель:
- Нанимаются первые молодые и умные люди из бедных семей, не имеющие никаких возможностей для получения нормального образования. Их родители – бедные и малограмотные фермеры.
- В течение шести месяцев новобранцы проходят программу обучения – занимаются английским языком и осваивают компьютер, которого большинство из них прежде в глаза не видели.
- После окончания подготовительного курса, компания предоставляет им работу по оцифровке данных и грант на обучение в университете. Ближайшие четыре года они будут работать по 5-6 часов в сутки, а в остальное время будут учиться.
- Окончив университет, лучшие из ребят получат более квалифицированную работу в Digital Devide Data. Остальные найдут себе других работодателей.
Программой воспользовались уже свыше тысячи молодых камбоджийцев. Все они успешно получили высшее образование и зарабатывают намного больше, чем могли бы, если бы остались работать на фермах своих родителей.
Разработанная в Камбодже бизнес-модель и огромный вклад в образование, который делает Digital Devide Data потрясли Джона. Он несколько лет путешествовал по Камбодже, собирая материалы для книги. За это время он вдоволь насмотрелся на то, как тяжело живут в этой стране люди. Без спонсоров даже самые умные и талантливые молодые люди напрочь лишены возможности получить высшее образование.
Той же бизнес-моделью пользуются еще несколько компаний. Они успешно работают в Индии, на Филипиннах и в Китае. В Камбодже Digital Devide Data – единственная подобная компания. В 2001 году ее основал Джереми Хокенштейн (Jeremy Hockenstein), бывший консультант McKinsey. С тех пор компания активно развивается и стремительно растет.
Люди в Камбодже живут действительно плохо. У них нет возможности получить достойное образование, они почти не имеют законных прав, живут в условиях тотальной коррупции и сплошных злоупотреблений со стороны властей всех уровней. Свой отпечаток накладывают и постоянные политические события.
Digital Devide Data успешно пытается изменить жизнь хотя бы некоторых граждан Камбоджи. Это действительно достойно восхищения.
Вы наверняка задаете себе вопрос – должны ли газеты оцифровывать свои архивы? Джон отвечает – да, и этот ответ кажется ему очевидным.
Читатели Aftenposten платят порядка 15 долларов за доступ к электронному архиву, и несмотря на то, что точными данными Джон не располагает, на графике видно, насколько больше стало пользователей этого архива, когда к накопленным публикациям добавились те, что в течение полутора сотен лет пылились на бумаге.
Да-да-да, у нас в журнале “Смена” очень похоже график выглядит сейчас по сегменту “Бесплатный поисковый трафик”! Мы начали оцифровывать и выкладывать с весны наш 86-летний архив. Что это такое в человекочасах, оборудовании и этапности мы теперь хорошо представляем.