Текстовая информация определение по информатике. Текстовая информация текст как форма представления информации текстовые. Почему не получается создать алфавит

И основы типографики

Основным компонентом большинства документов является текст. Текстовой документ - это источник информации в языковой (знаковой) форме. В этой связи одним из важнейших элементов воспроизведения документов являются процессы формирования их текстовой части - наборные процессы.

Сегодня невозможно представить процесс набора, редактирования, корректуры и верстки текста без применения компьютерных техники и технологий. Поэтому для обозначения наборных процессов чаще всего употребляют термин «обработка текстовой информации», указывая на то, что подготовка текстовой части документов относится к области информационных технологий.

Основы графики текста, закономерности его композиции на странице документа, в частности, печатного издания - это результат пятисотлетней истории и практики печатного дела. Традиционное, ставшее привычным оформление вырабатывалось и совершенствовалось на этапе ручного, затем автоматизированного металлического набора текста, фотонабора.

Предметом и конечным продуктом обработки текстовой информации является текстовой документ, который можно рассматривать с двух точек зрения. С одной стороны, текстовой документ - это источник информации, с другой - знаково-графическая композиция, размещенная на бумажном (или ином) носителе.

Наиболее наглядно понятие информации отражается в определении информационных данных. Информационные данные - это всякие сведения, сообщения, знания, которые могут храниться, перерабатываться, передаваться, но характер информации приобретают лишь тогда, когда получают содержание и форму, пригодную для управления, и используются в управлении.

Информация обладает свойством структурированности, которое наглядно проявляется в тексте, написанном на естественном языке. Текст представляет собой цепочку знаков, расположенных в определенном порядке, а элемент цепочки - знак - принимает одно из возможных значений некоторого известного набора - алфавита. Знаковая форма, которой является любой естественный язык, составляет формальную структуру информации, передающую ее содержание. Поскольку информация носит семантический (смысловой) характер, то ее содержание составляют понятия, выраженные в знаковой (языковой) форме. Из этого вытекает другое важное свойство информации: большинство ее видов имеют языковую природу.

Текстовая информация является одним из видов информации. Любой текст, произнесенный, записанный или отпечатанный на любом естественном языке, представляет собой сообщение. Сообщение - это конкретная форма, содержащая информацию, иными словами, информация передается посредством конкретного сообщения.

Сообщение представляется на некотором языке. Языковые сообщения могут передаваться различными способами: устной речью, письмом, печатным текстом и т.п. Языковые сообщения дискретны (прерывисты) и строятся последовательной записью знаков (и промежутков между ними), т.е. являются последовательностями знаков.

Знак - это элемент некоторого конечного множества отличных друг от друга элементов. Такое множество элементов называют набором знаков . Набор знаков, в котором определен линейный порядок, называют алфавитом (например, алфавит латинских букв, алфавит греческих букв, алфавит десятичных цифр).

Таким образом, любой текст представляет собой некоторое дискретное сообщение, имеющее форму последовательности знаков одного или нескольких алфавитов, отделенных друг от друга промежутками и дополнительными вспомогательными знаками, и содержащее определенную информацию.

Текст (кроме устного) фиксируется тем или иным образом в знаковой форме на некотором материальном носителе и является в этом виде источником информации.

Документальный источник (документ) - средство закрепления на материальном носителе информации о фактах, событиях, явлениях реального мира и мыслительной деятельности человека.

Документы, знаками которых являются алфавиты естественных языков, называют текстовыми. Это произведения письменности, печати, книги, журналы и т.п.

Среди технологий воспроизведения текстовых документов наиболее распространенными на сегодняшний день являются:

Издательско-полиграфическая (конечный продукт является результатом печатания (печати) вообще и полиграфии в частности);

Мультимедиа (объединенное использование в рамках компьютерной технологии видео-, аудиоинформации, текста, графики и анимации);

Web- публикация.

С технической точки зрения в процессе воспроизведения текстового документа осуществляется размножение информации в виде записанных (в том числе в кодированном виде) и хранящихся на материальном носителе оптических сигналов, воспринимаемых органами зрения. Рассматривая этот процесс как часть информационного, т.е. как процесс передачи информации от источника к потребителю посредством знаков и знаковых систем, можно считать воспроизведение текстового документа в целом каналом переработки информации (информационным каналом), а оборудование и процессы - информационным сервисом, функционирующим в соответствии с алгоритмами и методами переработки информации.

Исходным объектом для воспроизведения текстового документа является информация в виде рукописей и изобразительных оригиналов (текстовые документы в значительном числе случаев содержат изображения, уточняющие, дополняющие, иллюстрирующие содержание передаваемой информации).

Конечным продуктом воспроизведения является информация в виде отпечатанной продукции (средства информации - книги, брошюры, газеты, журналы, буклеты и т.п., средства организации - календари, ежедневники, справочники и т.п., средства упаковки), продукты мультимедиа, в том числе электронные издания, Web-публикации. В этом случае материальные объекты на разных этапах обработки информации в технологии воспроизведения играют роль лишь материальных носителей информации.

Текстовая информация имеет знаковую (символьную) форму, и ее содержательная, т.е. смысловая (семантическая), часть не зависит от конкретной графической формы (рисунок, начертание, размер) шрифта.

При изготовлении текстового (текстовой части) документа входным сигналом служит текстовой авторский оригинал для набора.
В нем заложено только смысловое содержание информации. Внешняя
же форма (т.е. собственно рисунок шрифта и в целом текста, его ком
позиционное расположение на странице) еще только должна быть создана, но она, как уже отмечалось, не повлияет на смысловое содержание информации.

Таким образом, под обработкой текстовой информации в процессе воспроизведения текстового документа подразумевают смысловую композиционную и графическую организацию текста в документе в целом, в его отдельной части (разделе), на отдельной странице и в пределах ее структурно-композиционных элементов.

Смысловая организация текстового документа достигается посредством соответствующей содержанию компоновке подразделов основного текста, дополнительных и вспомогательных текстов документа (редакционно-издательская, в том числе дизайнерская, подготовка публикации). Композиционная организация реализуется посредством надлежащего взаимного расположения текстовых и нетекстовых элементов на отдельных страницах и в документе в целом (верстка), графическая - за счет использования соответствующих шрифтов и графических оформительских элементов (набор и верстка).

Под набором понимают процесс получения (формирования) строк текстового документа. Этот термин используют также для обозначения набранного тем или иным способом текста (т.е. результата наборного процесса).

Верстка - это процесс получения (формирование) полосы (страницы) текстового документа.

Страницу документа, являющуюся одной из его структурно-композиционных единиц, можно представить как некоторую графическую композицию. Такая графическая композиция содержит в соответствии с установленными правилами определенным образом расположенные (организованные) знаки и изображения. В то же время страница - это некоторая часть содержания документа (издания). Иными словами, графическая композиция знаков и изображений является носителем информации, передаваемой потребителю (читателю) посредством понятий (языковыми средствами - текстом и условными обозначениями - идеограммами) и зрительных образов, возникающих при восприятии.

Процесс обработки текстовой и иллюстрационной информации, несмотря на большое разнообразие способов, воспроизведения сводится к трем основным технологическим операциям:

1) к набору и верстке текста,

2) репродуцированию (воспроизведению) иллюстраций,

3) верстке полос (страниц).

Все перечисленные операции представляют собой подготовку текстового документа к публикации - PreMedia. В случае подготовки печатной публикации к перечисленным операциям добавляется опция изготовления печатной формы (если таковая предусмотрена технологией печати). Допечатную подготовку называют также PrePress.

В дальнейшем файл текстового документа размещают на сервере Web-публикация), записывают на компакт- или DVD-диск (электронное издание, мультимедиа-продукт), тиражируют (печатная публикация).

Перед тем как рассматривать какие-либо основы цифровой графики, стоит изначально понять, что представляет собой графическая информация. В наше время это понятие активно используется в различных сферах деятельности человека, но при этом многие даже не понимают, что представляет собой этот термин и что он подразумевает.

Что это такое?

Графическая информация сегодня используется в большинстве областей визуальной коммуникации, начиная от различных произведений изобразительного искусства, которые должны у человека пробуждать эмоции и вызывать чувство восхищения прекрасным, и заканчивая всевозможными символами, предназначенными исключительно для того, чтобы донести до человека определенную информацию. В частности, к таким символам можно отнести дорожные знаки, которые у опытных водителей иногда даже не достигают области осознаваемого восприятия.

На сегодняшний день графическая информация и образы представляют собой основу мышления большинства специалистов, и отдельное место здесь выделяется которые представляют собой людей, имеющих наглядно-образный склад. Владение компьютерной техникой при визуализации каких-либо идей весьма полезно, но предусматривает основательную подготовку, а также понимание своеобразной графической информации с точки зрения перевода ее в компьютерный формат.

Определение

Графическая информация - это полная совокупность данных, нанесенных на самые разнообразные носители, включая кальку, бумагу, холсты, стекло, стены и многое другое. В определенной степени можно сказать о том, что даже наша с вами на которую направлен объектив камеры или же фотоаппарата, также представляет собой графическую информацию.

Широчайшее разнообразие графических носителей, а также доступных современному человеку видов изображения в принципе тяжело поддается учету, и происходит так далеко не по той причине, что они представлены в бесконечном количестве, а потому, что есть масса различных промежуточных вариантов. Ведь мы не можем просто сложить их между собой и сконструировать своеобразный алфавит, и именно это отличает такие понятия, как графическая информация и текстовая информация. Однако и здесь есть определенные исключения.

Рассматривая, что представляет собой графическая информация и текстовая информация, стоит отметить, что совокупность текстовых знаков уже давным-давно была приведена в определенную систему, которая называется алфавит. При этом в европейских странах алфавит является фонетическим, в то время как у дальневосточных народов алфавит фиксирует не фонемы или звуки, а представляет собой целое понятие и состоит из иероглифов, что переводит его уже в разряд не текстовой, а именно графической информации.

Полезные примеры

Далеко не все понимают, что в современных европейских языках также используется своеобразный принцип иероглифа, которые представлены у нас цифрами. Несмотря на то что в разных языках цифры могут писаться абсолютно одинаково, в действительности они называются и произносятся абсолютно иначе в каждом отдельном языке, что и является типичным принципом иероглифа.

В связи с этим все элементы, которые требуются для реализации процедуры кодирования, давным-давно выделены в течение длительного исторического периода. Элементы, которые являются отдельными и независимыми друг от друга, могут быть представлены в виде определенного списка, в котором присутствует конечное и четко зафиксированное количество строк.

Время, когда человеком наиболее подробно изучается графическая информация - 9 класс, но многие даже могут не помнить этого. При этом еще тогда нас учили, что если мы обращаемся к графическим данным, включая картины, фотографии, рисунки или же какие-либо другие изобразительные объекты, то в таком случае в них уже не получится найти таких естественных и универсальных элементов, которыми можно было бы оперировать точно так же, как и буквами.

История

Стоит отметить, что были попытки того, чтобы сформировать единую систему изображений. В частности, это пытался сделать Уильям Хогарт - английский живописец и теоретик искусства. В данном случае его пример интересен не по той причине, что он является мастером сатирического бытового жанра, главной целью которого было разоблачение пороков аристократии, а тем, что именно он пытался изобрести универсальный графический алфавит, что ему не удалось. Однако кривая, которую художник смог выделить в качестве эталонной еще в XVIII веке, по своему виду несколько напоминает кривую Безье.

Почему не получается создать алфавит?

На самом деле изобрести графический алфавит просто невозможно, и именно в этом заключается то различие, которое разделяет стандартную письменность и современную изобразительную деятельность. Также об этом упоминает предмет, которым изучается графическая информация - информатика. Эти области являются достаточно близкими по существу, но алфавит представляет собой универсальное средство, которое, имея ограниченное число элементов, позволяет формировать неограниченное количество текстов, в то время как в сфере изобразительной деятельности такого строгого перечня элементов просто не может существовать.

Именно по этой причине возможность кодирования основывается на другом подходе по сравнению со стандартными элементами наподобие цифр и букв, и в первую очередь это изучается в процессе того, как выполняются различные задачи. Графическая информация - это более сложное понятие, чем текстовая, поэтому и к ее освоению следует подходить более основательно.

Что нужно понять?

Так как в области изобразительной деятельности не может быть строгого перечня элементов, составление их списка является невозможным, и здесь проявляется серьезная задача - определить, каким образом всевозможные цифровые коды или же изображения можно будет превратить, если с ними могут работать исключительно компьютерные устройства. В частности, данная задача конкретизируется тем, что нужно изобрести способ, который позволил бы в современных компьютерных технологиях оперировать не только текстом.

В чем отличия между восприятием компьютера и человека?

Очевидно, что есть масса различий между тем как компьютером и человеком воспринимается графическая и звуковая информация. Для человека каждое изображение, которое может быть далеким от реалистической фотографии, представляет собой содержательную структуру, ведь каждый человек может отличить, к примеру, пейзаж от портрета.

Это становится возможным по той причине, что зрительное восприятие представляет собой не результат работы одних только органов зрения, но еще и является результатом при помощи мощного интеллекта, имеющего поразительные способности распознавания. К примеру, благодаря этому человек запросто может узнать другого человека, даже если не видел его в течение нескольких десятков лет, а ведь последний успел уже немного состариться и внешность его стала другой.

Технические системы, в процессе работы которых применяются даже самые современные вычислительные мощности, пока не могут реализовать такие задачи.

Тест по графической информации в информатике

Заключающий этап, которым в школах заканчивают изучение того, что представляет собой графическая информация - тест, который изменяется в зависимости от учебного учреждения и его направленности. Однако в большинстве случаев все вопросы являются стандартными и достаточно простыми. Среди наиболее распространенных стоит отметить следующие:

Что происходит с размером файла в процессе увеличения размера
Для чего нужны инструменты графического редактора Paint?
Что представляет собой самый маленький элемент изображения на графическом экране?
Что такое
Для чего нужен графический редактор?

И многие другие.

Другими словами, в процессе составления данного теста главная цель - это определить, насколько ученик освоил основные понятия курса графической информации и насколько он овладел работой с традиционными графическими редакторами.

Урок: «Текстовая информация»

Текст как форма представления информации

Текст – это любое словесное высказывание напечатанное, написанное или существующее в устной форме.

Информация, представленная в форме письменного текста, называется текстовой информацией.

Удивительный факт! Пропуск, замена или перестановка хотя бы одного символа в тексте подчас изменяет его смысл:

Кто к нам пришёл! (смысл состоит в том, что вошедшего увидели и узнали)

Кто к нам пришёл? (является вопросом, подчеркивающим неизвестность и неопределенность ситуации).

На протяжении тысячелетий люди записывали информацию.

Носители информации: камень, глина, дерево, папирус, пергамент, бумага.

Но чтобы внести изменения в текст, его надо было заново переписать. А это очень длительный и трудоемкий процесс. Появление компьютеров изменило технологию письма. С помощью специальных компьютерных программ можно набрать любой текст, при необходимости внести в него изменения, записать текст в память компьютера для длительного хранения, напечатать на принтере какое угодно количество копий, отправить текст с помощью электронной почты на другие компьютеры.

Текстовые документы

Документ – любой текст, созданный с помощью текстового редактора, вместе с включёнными в него нетекстовыми материалами.

Текстовый документ может быть:

Гипертекст – это способ организации документа, позволяющий быстро находить нужную информацию . Переход с одного места в гипертексте на другое осуществляется с помощью ссылок.

Пример: вы читаете энциклопедию о животных, и вас особенно интересует информация о собаках. Пусть слово «овчарка» подчеркнуто – это обозначает ссылку внутри гипертекста. Если вы щёлкните на этом слове мышью, то попадете в другую статью энциклопедии, которая рассказывает про эту породу собак.

Основными объектами текстового документа являются: символ, слово, строка, абзац, страница, фрагмент.

Символ – цифра, буква, знак препинания и т.д.

Слово – произвольная последовательность символов, ограниченная с двух сторон служебными символами(пробел, скобки, запятая и др.).

Строка – произвольная последовательность символов между левой и правой границами документа.

Абзац – произвольная последовательность символов, ограниченная специальными символами конца абзаца.

Фрагмент – произвольная последовательность символов. Фрагментом может быть отдельное слово, строка, абзац, страница и даже весь вводимый текст.

Компьютер – основной инструмент подготовки текстов

На любом компьютере установлены специальные программы, предназначенные для создания текстов, - текстовые редакторы .

Для создания и оформления рассказов, докладов, статей для школьной газеты, содержащих надписи, таблицы, схемы, рисунки, фотографии, используют более мощные текстовые редакторы. Их еще называют текстовыми процессорами.

Окно одного из простых текстовых процессоров показано на рис. 24 стр.58.

Подготовка документа на компьютере состоит из нескольких этапов: ввод (набор) текста , редактирование , форматирование и печать.

Ввод текста

При вводе текста придерживайтесь следующих правил :

Там, где это нужно, используйте прописные буквы.

Все знаки препинания, кроме тире, ставьте сразу же за последней буквой слова; после любого знака препинания нажимайте клавишу Пробел. Тире выделяйте пробелами с двух сторон.

Избегайте ввода подряд двух и более пробелов; не используйте пробел для выравнивания границ абзаца.

Не следите за концом строки: как только он будет достигнут, курсор автоматически перейдёт на начало следующей строки.

Для перехода к вводу нового абзаца, нажмите клавишу Enter .

Контролировать соблюдение правил набора текста будет значительно проще, если установить режим отображения непечатаемых символов.

Редактирование текста

Редактирование – это очередной этап подготовки документа, начинающийся вслед за вводом информации, в результате которого происходит проверка документа на его правильность и исправляются обнаруженные ошибки, а так же вносятся необходимые изменения.

С помощью курсорных стрелок курсор можно перемещать по всему экрану, подводить его к любому символу. Для перемещения по всему документу предназначены специальные клавиши или комбинации клавиш(см. учебник стр. 59).

При редактировании можно работать не только с отдельными символами, но и с целыми фрагментами текста. Предварительно фрагмент должен быть выделен. Для этого необходимо установить указатель мыши в начало нужного фрагмента и, держа кнопку мыши нажатой, протянуть указатель до его конца. Текст выделяется контрастным цветом. Выбор фрагмента можно отменить щелчком в произвольном месте рабочей области окна.

Форматирование текста

Форматирование – это один из этапов подготовки документа, в ходе которого совершаются различные операции по оформлению документа.

Выравнивание абзацев:

Шрифт – это полный набор букв алфавита с общим стилем их изображения.

Начертание шрифта:

Для вывода документа на бумагу к компьютеру подключается печатающее устройство – принтер.

Юнико́д - стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков.
Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода». Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.
Стандарт состоит из двух основных разделов: универсальный набор символов и семейство кодировок. Универсальный набор символов задаёт однозначное соответствие символов кодам - элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.
Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F (см. Кириллица в Юникоде).

Система кодирования

Универсальная система кодирования (Юникод) представляет собой набор графических символов и способ их кодирования для компьютерной обработки текстовых данных.
Графические символы - это символы, имеющие видимое изображение. Графическим символам противопоставляются управляющие символы и символы форматирования. Графические символы включают в себя следующие группы: буквы, содержащиеся хотя бы в одном из обслуживаемых алфавитов; цифры; знаки пунктуации; специальные знаки (математические, технические, идеограммы и пр.); разделители.
Юникод - это система для линейного представления текста. Символы, имеющие дополнительные над- или подстрочные элементы, могут быть представлены в виде построенной по определённым правилам последовательности кодов (составной вариант, composite character) или в виде единого символа (монолитный вариант, precomposed character).

Модифицирующие символы
Графические символы в Юникоде подразделяются на протяжённые и непротяжённые (бесширинные). Непротяжённые символы при отображении не занимают места в строке. К ним относятся, в частности, знаки ударения и прочие диакритические знаки. Как протяжённые, так и непротяжённые символы имеют собственные коды. Протяжённые символы иначе называются базовыми, а непротяжённые - модифицирующими; причём последние не могут встречаться самостоятельно. Например, символ «á» может быть представлен как последовательность базового символа «a» (U+0061) и модифицирующего символа « ́» (U+0301) или как монолитный символ «á» (U+00C1).
Особый тип модифицирующих символов - селекторы варианта начертания. Они действуют только на те символы, для которых такие варианты определены. В версии 5.0 варианты начертания определены для ряда математических символов, для символов традиционного монгольского алфавита и для символов монгольского квадратного письма.

Формы нормализации
Поскольку одни и те же символы можно представить различными кодами, что иногда затрудняет обработку, существуют процессы нормализации, предназначенные для приведения текста к определённому стандартному виду.
В стандарте Юникода определены 4 формы нормализации текста:
Форма нормализации D (NFD) - каноническая декомпозиция. В процессе приведения текста в эту форму все составные символы рекурсивно заменяются на несколько составных, в соответствии с таблицами декомпозиции.
Форма нормализации C (NFC) - каноническая декомпозиция с последующей канонической композицией. Сначала текст приводится к форме D, после чего выполняется каноническая композиция - текст обрабатывается от начала к концу и выполняются следующие правила:
Символ S является начальным, если он имеет нулевой класс модификации в базе символов Юникода.
В любой последовательности символов, стартующей с начального символа S, символ C блокируется от S, если и только если между S и C есть какой-либо символ B, который или является начальным, или имеет одинаковый или больший класс модификации, чем C. Это правило распространяется только на строки, прошедшие каноническую декомпозицию.
Первичным композитом считается символ, у которого есть каноническая декомпозиция в базе символов Юникода (или каноническая декомпозиция для хангыля и он не входит всписок исключений).
Символ X может быть первично совмещён с символом Y, если и только если существует первичный композит Z, канонически эквивалентный последовательности .
Если очередной символ C не блокируется последним встреченным начальным базовым символом L и он может быть успешно первично совмещён с ним, то L заменяется на композит L-C, а C удаляется.
Форма нормализации KD (NFKD) - совместимая декомпозиция. При приведении в эту форму все составные символы заменяются, используя как канонические карты декомпозиции Юникода, так и совместимые карты декомпозиции, после чего результат ставится в каноническом порядке.
Форма нормализации KC (NFKC) - совместимая декомпозиция с последующей канонической композицией.

Термины «композиция» и «декомпозиция» понимают под собой соответственно соединение или разложение символов на составные части.

Примеры

Исходный текст	NFD	NFC	NFKD	NFKC
Français	Franc\u0327ais	Fran\xe7ais	Franc\u0327ais	Fran\xe7ais
А, Ё, Й		\u0410, \u0401, \u0419	\u0410, \u0415\u0308, \u0418\u0306	\u0410, \u0401, \u0419
が	\u304b\u3099	\u304c	\u304b\u3099	\u304c
Henry IV	Henry IV	Henry IV	Henry IV	Henry IV
Henry Ⅳ	Henry \u2163	Henry \u2163	Henry IV	Henry IV

Юникод включает практически все современные письменности, в том числе:
арабскую, армянскую, бенгальскую, бирманскую, глаголицу, греческую, грузинскую, деванагари, еврейскую, кириллицу, китайскую (китайские иероглифы активно используются в японском языке, а также достаточно редко в корейском), коптскую, кхмерскую, латинскую, тамильскую, корейскую (хангыль), чероки, эфиопскую, японскую (которая включает в себя кроме китайских иероглифов ещё и слоговую азбуку),
и другие.

С академическими целями добавлены многие исторические письменности, в том числе: руны, древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.

Способы представления
Юникод имеет несколько форм представления: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). Была разработана также форма представления UTF-7 для передачи по семибитным каналам, но из-за несовместимости с ASCII она не получила распространения и не включена в стандарт. 1 апреля 2005 годабыли предложены две шуточные формы представления: UTF-9 и UTF-18 (RFC 4042).
В Microsoft Windows NT и основанных на ней системах Windows 2000 и Windows XP в основном используется форма UTF-16LE. В UNIX-подобных операционных системах GNU/Linux,BSD и Mac OS X принята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.

UTF-8
UTF-8 - представление Юникода, обеспечивающее наилучшую совместимость со старыми системами, использовавшими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байт (на деле, только до 4 байт, поскольку в Юникоде нет символов с кодом больше 10FFFF, и вводить их в будущем не планируется), в которых
первый байт всегда имеет вид 11xxxxxx, а остальные - 10xxxxxx.
Формат UTF-8 был изобретён 2 сентября 1992 года Кеном Томпсоном и Робом Пайком и реализован в Plan 9. Сейчас стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D.
Символы UTF-8 получаются из Unicode следующим образом:

Unicode UTF-8: 0x00000000 - 0x0000007F: 0xxxxxxx 0x00000080 - 0x000007FF: 110xxxxx 10xxxxxx 0x00000800 - 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 0x00010000 - 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx Порядок байтов
В потоке данных UTF-16 старший байт может записываться либо перед младшим, либо после младшего. Аналогично существует два варианта четырёхбайтной кодировки - UTF-32BE и UTF-32LE.
Для определения формата представления Юникода в начало текстового файла записывается сигнатура - символ U+FEFF (неразрывный пробел с нулевой шириной), также именуемыйметкой порядка байтов (англ. byte order mark, BOM). Это позволяет различать UTF-16LE и UTF-16BE, поскольку символа U+FFFE не существует. Также этот способ иногда применяется для обозначения формата UTF-8, хотя к этому формату и неприменимо понятие порядка байтов. Файлы, следующие этому соглашению, начинаются с таких последовательностей байтов:UTF-8 EF BB BFUTF-16BE FE FFUTF-16LE FF FEUTF-32BE 00 00 FE FFUTF-32LE FF FE 00 00
К сожалению, этот способ не позволяет надёжно различать UTF-16LE и UTF-32LE, поскольку символ U+0000 допускается Юникодом (хотя реальные тексты редко начинаются с него).
Файлы в кодировках UTF-16 и UTF-32, не содержащие BOM, должны иметь порядок байтов big-endian (unicode.org).

Юникод и традиционные кодировки
Внедрение Юникода привело к изменению подхода к традиционным 8-битным кодировкам. Если раньше кодировка задавалась шрифтом, то теперь она задаётся таблицей соответствия между данной кодировкой и Юникодом. Фактически 8-битные кодировки превратились в форму представления некоторого подмножества Юникода. Это намного упростило создание программ, которые должны работать с множеством разных кодировок: теперь, чтобы добавить поддержку ещё одной кодировки, надо всего лишь добавить ещё одну таблицу перекодировки в Юникод.
Кроме того, многие форматы данных позволяют вставлять любые символы Юникода, даже если документ записан в старой 8-битной кодировке. Например, в HTML можно использоватькоды с амперсандом.

Реализации
Большинство современных операционных систем в той или иной степени обеспечивают поддержку Юникода.
В операционных системах семейства Windows NT для внутреннего представления имён файлов и других системных строк используется двухбайтовая кодировка UTF-16LE. Системные вызовы, принимающие строковые параметры, существуют в однобайтном и двухбайтном вариантах. Подробнее см. в статье Юникод в операционных системах Microsoft.
UNIX-подобные операционные системы, в том числе GNU/Linux, BSD, Mac OS X, используют для представления Юникода кодировку UTF-8. Большинство программ могут работать с UTF-8 как с традиционными однобайтными кодировками, не обращая внимания на то, что символ представляется как несколько последовательных байт. Для работы с отдельными символами строки обычно перекодируются в UCS-4, так что каждому символу соответствует машинное слово.
Одной из первых успешных коммерческих реализаций Юникода стала среда программирования Java. В ней принципиально отказались от 8-битного представления символов в пользу 16-битного. Сейчас большинство языков программирования поддерживают строки Юникода, хотя их представление может различаться в зависимости от реализации.

Методы ввода
Поскольку ни одна раскладка клавиатуры не может позволить вводить все символы Юникода одновременно, от операционных систем и прикладных программ требуется поддержка альтернативных методов ввода произвольных символов Юникода.

Microsoft Windows
Начиная с Windows 2000, служебная программа «Таблица символов» (charmap.exe) показывает все символы в ОС и позволяет копировать их в буфер обмена. Похожая таблица есть, например, в Microsoft Word.
Иногда можно набрать шестнадцатеричный код, нажать Alt+X, и код будет заменён на соответствующий символ, например, в WordPad, Microsoft Word. В редакторах Alt+X выполняет и обратное преобразование.
Во многих программах MS Windows, чтобы получить символ Unicode, нужно при нажатой клавише Alt набрать десятичное значение кода символа на цифровой клавиатуре. Например, полезными при наборе кириллических текстов будут комбинации Alt+0171 («) и Alt+0187 (»). Интересны также комбинации Alt+0133 (…) и Alt+0151 (-).

Macintosh
В Mac OS 8.5 и более поздних версиях поддерживается метод ввода, называемый «Unicode Hex Input». При зажатой клавише Option требуется набрать четырёхзначный шестнадцатеричный код требуемого символа. Этот метод позволяет вводить символы с кодами, большими U+FFFF, используя пары суррогатов; такие пары операционной системой будут автоматически заменены на одиночные символы. Этот метод ввода перед использованием нужно активизировать в соответствующем разделе системных настроек и затем выбрать как текущий метод ввода в меню клавиатуры.
Начиная с Mac OS X 10.2, существует также приложение «Character Palette», позволяющее выбирать символы из таблицы, в которой можно выделять символы определённого блока или символы, поддерживаемые конкретным шрифтом.

GNU/Linux
В GNOME также есть утилита «Таблица символов», позволяющая отображать символы определённого блока или системы письма и предоставляющая возможность поиска по названию или описанию символа. Когда код нужного символа известен, его можно ввести в соответствии со стандартом ISO 14755: при зажатых клавишах Ctrl и Shift ввести шестнадцатеричный код (начиная с некоторой версии GTK+ ввод кода нужно предварить нажатием клавиши «U»). Вводимый шестнадцатеричный код может иметь до 32 бит в длину, позволяя вводить любые символы Юникода без использования суррогатных пар.
Все приложения X Window, включая GNOME и KDE, поддерживают ввод при помощи клавиши Compose. Для клавиатур, на которых нет отдельной клавиши Compose, для этой цели можно назначить любую клавишу - например, Caps Lock.
Консоль GNU/Linux также допускает ввод символа Юникода по его коду - для этого десятичный код символа нужно ввести цифрами расширенного блока клавиатуры при зажатой клавише Alt. Можно вводить символы и по их шестнадцатеричному коду: для этого нужно зажать клавишу AltGr, и для ввода цифр A-F использовать клавиши расширенного блока клавиатуры от NumLock до Enter (по часовой стрелке). Поддерживается также и ввод в соответствии с ISO 14755. Для того чтобы перечисленные способы могли работать, нужно включить в консоли режим Юникода вызовом unicode_start(1) и выбрать подходящий шрифт вызовом setfont(8).
Mozilla Firefox для Linux поддерживает ввод символов по ISO 14755.

Любой текст, созданный с помощью текстового редактора, вместк с включенными в него нетекстовыми материалами называют документом.

Текстовый редактор (ТР) - это программа для создания, редактирования (изменения) и печати текстовых документов. Назначение текстовых редакторов - сделать работу с текстовой информацией более удобной и качественной, менее трудоемкой, чем при использовании обычных пишущих машинок.

Существует множество текстовых редакторов. Самые простые ТР позволяют выполнять основной стандарт редактирования текстов. Более мощные ТР, называемые текстовыми процессорами (ТП), позволяют намного упростить набор и редактирование текстов, повысить качество оформления документов, позволяют осуществлять вставку в документ графиком, диаграмм, таблиц, рисунков и фотографий, а также повысить качество распечатываемых на бумаге документов.

В основной стандарт редактирования текстов входят следующие операции:

Ввод алфавитно-цифровой информации;

Перемещение по набранному тексту;

Удаление и вставка символов;

Удаление и вставка строк.

Основные объекты текстовых редакторов

Символ - цифра, буква, знак препинания и т.д.

Слово - последовательность символов, ограниченная с обеих сторон служебными символами (пробелом, точкой, запятой, дефисом и т. д.).

Строка - произвольная последовательность символов между левой и правой границами документа.

Предложение - последовательность слов, ограниченная с обеих сторон знаками конца предложения (точкой, восклицательным или вопросительным знаками с последующим пробелом).

Абзац - в текстовом редакторе это последовательность слов. Первая строка абзаца начинается с новой строки. В конце абзаца нажимается клавиша ввода.

Фрагмент - произвольная последовательность символов. Фрагментом может быть отдельное слово, строка, абзац, страница и даже весь вводимый текст.

Понятие текстового редактора «Блокнот». «Блокнот» - это несложный текстовый редактор, используемый для создания простых документов. Запуск программы. Элементы окна. Вызов справки. Чтобы начать работу в программе необходимо открыть редактор. Запуск программы осуществляется через кнопку Пуск на панели задач. (Пуск \ Программы \ Стандартные \ Блокнот)

В группе программ Стандартные находится текстовый процессор Word Pad.

Окно текстового процессора имеет следующий вид:

Строка Заголовка – с левой стороны на ней находятся имя файла и имя редактора, а с правой стороны три кнопки управления окном: свернуть, восстановить, закрыть. (Найдите три кнопки управления окном. Сверните окно. Куда свернулся ваш документ? Чтобы его развернуть, необходимо подвести курсор на документ на Панели задач и щелкнуть левой клавишей мыши. Разверните документ.)

Следующая строка – это строка Меню – на ней находятся команды – Файл, Правка, Формат, Справка. У каждой из этих команд есть своя функция. Например: команда Файл позволяет создать, открыть, сохранить, распечатать документ, установить параметры страницы, выйти из документа. Команда Правка позволяет редактировать документ, Формат – форматировать, а Справка – вызвать справку. Например: Если, сидя рядом с ПК, вы нечаянно забудете, как работать с ним, то это можно узнать у самого «Блокнот». Для этого необходимо вызвать подсказку с помощью команды Справка. (Найдите в строке Меню Справка. Щелкните по ней ЛКМ (Левая клавиша мыши), в открывшемся меню выберете команду Вызов справки.) На экране появится окно подсказки. Оно занимает середину экрана, не стирая текст, который был записан к этому времени, а лишь накладываясь на него. В окне подсказки записаны разделы, в которых собраны сведения о некоторых операциях. Для того, чтобы их просмотреть, необходимо подвести курсор к нужному разделу и щелкнуть левой клавишей мыши. (Щелкните ЛКМ по вкладке Содержание, затем по слову Блокнот. В открывшемся окне вы увидите слева - содержание разделов, справа - описание того раздела, который в данный момент активен (т.е. выделен курсорной рамкой). Щелкните ЛКМ по разделу Включение переноса по словам. Что появилось справой стороны? (технология работы по включению переноса по словам)) В любой момент подсказку можно убирать, щелкнув левой клавишей мыши по кнопке закрыть. (Щелкните ЛКМ по кнопке Закрыть.)

В центре окна находится рабочее поле . С правой стороны окна находится вертикальная полоса прокрутки.