Корпусная лингвистика
Следующим шагом в освоении ресурсов Интернета может стать целенаправленное формирование специализированных корпусов текстов на жестком диске вашего компьютера. Современные средства позволяют быстро сформировать весьма обширный (несколько десятков миллионов слов) корпус текстов практически по любой тематике, и сделать это может каждый, кто владеет основными навыками работы с ПК и с Интернетом. Для создания корпусов, помимо обычных браузеров, используются т.н. оффлайновые браузеры и программы докачки. Полнотекстовый поиск по накопленным материалам осуществляется с помощью специализированных программ индексации и поиска.
Преимущества специализированных корпусов
* Вы сами определяете, что именно вы хотите проиндексировать. Здесь следует иметь в виду несколько моментов:
* Индексы поисковых систем очень обширны, вас же может интересовать употребление того или иного слова в текстах строго определенного типа.
* Не все сайты индексируются на 100%: ограничения на глубину индексирования накладываются по разным причинам как владельцами поисковых систем, так и владельцами сайтов. Такие сайты, тем не менее, поддаются скачиванию оффлайновыми браузерами.
* Существует феномен т.н. “невидимой Сети” ( invisible Web ): все большее число сайтов переходит от статического формирования вэб-страниц к динамическому и размещает всю основную информацию в базах данных. Страницы в этом случае формируются “на лету” в зависимости от запросов или “профилей” пользователей; этот метод также очень удобен для сайтов с постоянно обновляемой информацией (новости, развлечения и т.д.), однако большая часть материалов при этом становится недоступной для поисковых машин, которые в результате как бы скользят по поверхности. Такие сайты могут содержать уникальную информацию, которую вполне можно сохранить на жестком диске вручную или с помощью программы докачки.
* Все основные поисковые системы имеют т.н. “stop lists”, т.е. списки сверхчастотных слов (the, and, is, to), которые не подлежат индексации. Переводчика же зачастую интересуют особенности употребления выражений, содержащих такие служебные слова.
* Профессиональные поисковые программы предоставляют гораздо более широкий набор функций, чем онлайновые поисковые системы: поиск с заданным интервалом между ключевыми словами, варианты интерпретации дефиса, многочисленные логические операторы и маски, “нечеткий поиск” (fuzzy search), одновременный поиск по нескольким корпусам и проч.
* Наличие корпуса на жестком диске, естественно, не требует выхода в Интернет. Переход от одного результата поиска к другому также происходит на порядок быстрее, при этом все результаты поиска автоматически подсвечиваются.
Технические рекомендации
* Для формирования корпусов текстов лучше всего использовать популярный оффлайновый браузер Teleport Pro ( http://www.tenmax.com/teleport/pro/home.htm ). В тех случаях, когда сайт не поддается автоматическому скачиванию, интересующие вас материалы можно загрузить вручную, используя программу докачки ReGet ( http://www.reget.com/ru ) или ее аналоги.
* Для индексации и поиска информации можно рекомендовать программу dtSearch (www.dtsearch.com ). Программа поддерживает все основные типы файлов ( htm *, doc , txt ( ANSI и ASCII ), xls ), индексирует zip-архивы с минимальной потерей скорости, может работать с любыми языками на основе латиницы, с кириллицей и греческими шрифтами. Платная версия также поддерживает формат pdf .
Источники материалов для создания корпусов
Новостные сайты содержат самые свежие материалы на все темы, а также архивы за последние 5-6 лет; идеально подходят для создания большого общелингвистического корпуса. Следует, однако, иметь в виду, что у многих изданий доступ к архивам платный, другие предоставляют бесплатно номера за последние 7-14 дней плюс многочисленные тематические подборки.