Таким был ход его вычислений.
Прежде всего, для ответа на этот вопрос необходимо сделать несколько допущений и принять ряд базовых правил:
- Под «контентом» в интернете мы будем понимать данные, которые доступны абсолютно любому пользователю сети. Таким образом ваша лента Facebook (и ленты еще миллиарда пользователей соцсети) не подпадает под этот критерий и, таким образом, не учитывается в расчетах;
- Видео, аудио контент и визуальная информация (фото, картинки) также не рассматриваются;
- Не включаются в расчеты и сообщения электронной почты: причина та же, что и с Facebook — я не могу получить доступ к почтовым сообщениям других людей;
- Таким же образом из расчетов исключаются террабайты данных, хранящихся в Dropbox, AmazonS3 Storage и иже с ними. Как обычный пользователь интернета я не смогу получить доступ ко всем этим данным;
- Исключаются математические и численные данные. При чтении формул и прочих математических «фраз» нереально определить что-либо наподобие «слов в минуту»;
- Это указано в условиях вопроса — во внимание принимается только английский язык. Так что контент, написанный на любом другом языке, не будет учтен;
- Любая информация, которая так запрятана в глубины сети, что среднестатистический пользователь не сможет легко до нее добраться, также исключается из расчетов;
- Не учитывается контент, за доступ к которому нужно заплатить;
- Зато в расчетах необходимо учесть публикации научных журналов т. к. к ним может легко может получить доступ обычный пользователь сети;
- Рассматриваются только Web данные;
- Пожалуй, самое главное допущение, которое нам необходимо сделать. Мы должны допустить, что когда конкретный человек начинает чтение контента в интернете, вся остальная сеть находится в «замороженном» состоянии и никакого нового контента не добавляется.
Продвижение медцентров и клиник: три кейса о SEO, TikTok и Instagram*
Как получить измеримые результаты в фарммаркетинге.
Показываем на примерах →
Спецпроект
Теперь необходимо разобраться с тем, насколько велик такой объем данных. Все будет зависеть от того, какое количество источников мы будем рассматривать. Для того чтобы лучше представить количество данных в интернете, давайте взглянем на некоторые источники.
Минутка интернета
Отсюда понадобятся следующие данные:
1. Количество твитов.
2. Число постов в Tumblr.
3. Число созданных вебсайтов.
4. Количество блогпостов.
К ним мы вернемся чуть позже, а пока определимся с другими источниками.
Pingdom опубликовал отличный отчет «Интернет 2012 в цифрах» (Internet 2012 innumbers). Отсюда нам будут нужны следующие факты:
1. 634 миллиона сайтов.
2. 87,8 млн — число блогов Tumblr.
3. 59,4 млн — число блогов на Wordpress.
4. 246 млн — число доменных имен.
5. 163 млрд твитов (на июль 2012) с момента запуска Twitter.
6. Более 200 млн пользователей LinkedIn (согласно информации с сайта соцсети).
Tumblr публикует собственную статистику, которую можно найти на странице About | Tumblr сайта. На 10 марта 2013 года данные по количеству постов таковы:
Согласно сайту WorldWideWebSize.com, проиндексированная Google версия интернета выглядит вот так:
Соответственно, к 10 марта 2013 года количество веб страниц чуть не дотягивало до 45 млрд. До этого значения мы и округлим число всех страниц.
Версия индекса от Bing:
Поисковик от Microsoft насчитал только 12 млрд веб-страниц.
Кстати, если вы задались вопросом, почему трафик так упал 2 февраля, то причиной этому послужил зимний ураган в США, продлившийся с 31 января по 2 февраля. Предположительно, он повлек за собой сбой сервера, отвечающего за измерение, в результате значение в этот день был нулевым.
Если подсчитать, сколько же книг доступны в интернете простому пользователю, то их миллионы. Проект Гутенберг (Project Gutenberg) является одной из важнейших причин этому. Однако количество книг, доступных на этом сайте, не превышает 42 000, а Open Library дает бесплатный доступ к более чем 1 миллиону книг.
И, конечно, нельзя забывать о Wikipedia… Вот статистика по этому сайту от Active Counters:
Чтобы визуализировать, можно представить, как бы выглядели все эти данные в напечатанном виде:
Займемся классификацией и упорядочиванием цифр.
Мы будем измерять следующие области контента:
- Веб-сайты
- Веб-страницы
- Твиты
- Блоги WordPress
- Блоги Tumblr
- Страницы Wikipedia
- Страницы LinkedIn
- Книги
- и самая важная категория «Прочее», размер которой мы примем за 10% от всего объема проиндексированного Google контента сети (т. е. 4 500 000 страниц).
Все эти предположения нашли свое отражение в расчётах, представленных ниже:
Размер контента
Источники контента и их размер:
Вычисления для книг
Вычисления для страниц LinkedIn
Вычисления для Wikipedia
Вычисления для Tumblr
Вычисления для WordPress
Вычисления для Twitter
Вычисления для индекса Google
Вычисления для веб-сайтов
Вычисления для прочего контента
… и в конечном итоге, финальный результат будет примерно таким.
Общее количество лет, которые нужно затратить на прочтение всего доступного контента в интернете:
Осталось посчитать, сколько потребуется часов для прочтения русскоязычного контента. Правда, велика вероятность, что c годами контент постигнут большие изменения, за которыми мы никогда не успеем угнаться в своих расчетах.
Источник: