Работа с текстом. Как определить кодировку файла
Давайте узнаем, что такое кодировка файла. Говоря проще, кодировкой считается набор байтовых символов, который соответствует буквенному алфавиту в определенном языке. Для каждого языка существует своя определенная последовательность таких знаков кодирования. Иногда возникает потребность определить кодировку. Рассмотрим это на примере текстового документа.
Что нужно
Набор определенных программных средств. Для начала достаточно приложений типа Word, KWrite, браузера Firefox и средства распознавания – enca.
Определить кодировку файла можно при помощи универсального редактора Microsoft Word. Прежде, его нужно проинсталлировать из пакета Office. Когда приложение будет установлено, и сможет открываться с помощью иконки в виде символа W на рабочем столе, переходим к следующему шагу.
Следующий этап распознавания
Через навигационную панель приложения по очереди откройте пункты «Файл» — «открыть». То же самое можно сделать, задействовав комбинацию клавиатуры Ctrl+O.
Затем в диалоговом окне выберите нужный каталог и, собственно, файл для чтения. Выделив его мышью, нажмите кнопку «открытие».
Когда у файла набор соответствий не CP1251, приложение пытается самостоятельно определить кодировку. Будет выведен список возможных соответствий. В предложенных наборах символов в правой части списка выберите одну из кодировок. Если выбор сделан правильно, в элементе «образец» отобразится распознанный текст.
Как определить кодировку посредством KWrite
Кроме препроцессора для обработки текста, Word, существуют и другие функциональные утилиты. Одна из них — KWrite (аналог для unix-систем). Чтобы вы не путались, распишу по пунктам задачу «определить кодировку документа в KWrite».
- Загрузка в приложение файла с расширением .txt.
- Перебор кодировок до тех пор, пока одна из них не окажется подходящей.
- Чтобы выполнить пункт 2, перейдите к опции tools в меню encoding.
Браузер Mozilla Firefox, цель та же – определить кодировку
Принцип примерно тот же, что и в утилитах для работы с текстом. Запускаем проинсталлированный браузер на выполнение, а если он не установлен – скачиваем инсталлятор с mozilla.org.
Затем в открытом окне программы нужно открыть текстовый документ через меню «Файл», подменю «Открыть файл». Если выбранный файл отобразится без искажений, и текст читаемый, определить кодировку не составит труда.
Для этого перейдите на «Вид» — «кодировка », там отображено несколько наборов символов, а тот из них, напротив которого стоит «галочка», и есть определенная браузером кодировка.
Если же текст не распознался правильно, выберите подраздел «дополнительно», поэкспериментируйте в нем с кодировками или выберите значение «авто».
Специализированное ПО – работаем с enca
Существует и ряд вспомогательных электронных средств, дающих возможность определить кодировку неформатированного текста.
Для тех, кто привык работать под unix, подойдет утилита enca. Ее можно установить при помощи сервиса «Диспетчер пакетов». Найдя доступную категорию пакетов, можно приступить к установке программного обеспечения.
Чтобы вывести листинг языков распознавания, выполните команду enca —list languages, используя терминал.
Если нужно определить кодировку текстового файла после ключа (g), введите его название, а после опции (L) примерно таким же образом введите язык распознавания:
enca -L russian -g /home/vic/temp/myfile.txt.
Подытожим сказанное о кодировке
Полагаю, что указанные выше утилиты станут для пользователя достаточным набором инструментов для раскодировки текстовых документов.
Пока, собственно, это всё о том, как распознать кодировку. Для стандартных целей, думаю, указанное программное обеспечение вполне подойдет. Есть и более специализированные методы определения, но их рассмотрение выходит за рамки этой статьи.
Для программы Microsoft Word источником распознавания может быть как простой текст, так и документ со сложным форматированием.