Содержание
Структура и правила создания XML-документа.
Структура и
правила создания XML-документа.
Простейший XML- документ может выглядеть так, как это показано в
Примере 1
Пример 1
<?xml version="1.0"?> <list_of_items> <item><first/>Первый</item> <item>Второй <sub_item>подпункт 1</sub_item></item> <item>Третий</item> <item><last/>Последний</item> </list_of_items>
Обратите внимание на то, что этот документ очень похож на обычную
HTML-страницу. Также, как и в HTML, инструкции, заключенные в угловые
скобки называются тэгами и служат для разметки основного текста документа.
В XML существуют открывающие, закрывающие и пустые тэги (в HTML понятие
пустого тэга тоже существует, но специального его обозначения не
требуется).
Тело документа XML состоит из элементов разметки (markup) и
непосредственно содержимого документа — данных (content). XML — тэги
предназначены для определения элементов документа, их атрибутов и других
конструкций языка. Более подробно о типах применяемой в документах
разметки мы поговорим чуть позже.
Любой XML-документ должен всегда начинаться с инструкции ,
внутри которой также можно задавать номер версии языка, номер кодовой
страницы и другие параметры, необходимые программе-анализатору в процессе
разбора документа.
Правила создания XML- документа
В общем случае XML- документы должны удовлетворять следующим
требованиям:
- В заголовке документа помещается объявление XML, в котором
указывается язык разметки документа, номер его версии и дополнительная
информация - Каждый открывающий тэг, определяющий некоторую область данных в
документе обязательно должен иметь своего закрывающего «напарника»,
т. е., в отличие от HTML, нельзя опускать закрывающие тэги - В XML учитывается регистр символов
- Все значения атрибутов, используемых в определении тэгов, должны
быть заключены в кавычки - Вложенность тэгов в XML строго контролируется, поэтому необходимо
следить за порядком следования открывающих и закрывающих тэгов - Вся информация, располагающаяся между начальным и конечными тэгами,
рассматривается в XML как данные и поэтому учитываются все символы
форматирования ( т.е. пробелы, переводы строк, табуляции не
игнорируются, как в HTML)
Если XML- документ не нарушает приведенные правила, то он называется
формально-правильным и все анализаторы, предназначенные для разбора XML-
документов, смогут работать с ним корректно.
Однако кроме проверки на формальное соответствие грамматике языка, в
документе могут присутствовать средства контроля над содержанием
документа, за соблюдением правил, определяющих необходимые соотношений
между элементами и формирующих структуру документа. Например, следующий
текст, являясь вполне правильным XML- документом, будет абсолютно
бессмысленным:
<country><title>Russia</title><city><title>Novosibirsk</country> </title></city>
Для того, чтобы обеспечить проверку корректности XML- документов,
необходимо использовать анализаторы, производящие такую проверку и
называемые верифицирующими.
На сегодняшний день существует два способа контроля правильности XML-
документа: DTD — определения (Document Type Definition) и схемы данных
(Semantic Schema). Более подробно об использовании DTD и схемах будет
описано в следующих разделах. В отличии от SGML, определение DTD- правил в
XML не является необходимостью, и это обстоятельство позволяет нам
создавать любые XML- документы, не ломая пока голову над весьма непростым
синтаксисом DTD.
Конструкции языка
Содержимое XML- документа представляет собой набор элементов, секций
CDATA, директив анализатора, комментариев, спецсимволов, текстовых данных.
Рассмотрим каждый из них подробней.
Элементы данных
Элемент — это структурная единица XML- документа. Заключая слово rose в
в тэги , мы определяем непустой элемент, называемый
, содержимым которого является rose. В общем случае в качестве
содержимого элементов могут выступать как просто какой-то текст, так и
другие, вложенные, элементы документа, секции CDATA, инструкции по
обработке, комментарии, — т.е. практически любые части XML- документа.
Любой непустой элемент должен состоять из начального, конечного тэгов и
данных, между ними заключенных. Например, следующие фрагменты будут
являться элементами:
<flower>rose</flower> <city>Novosibirsk</city>
а эти — нет:
<rose> <flower> rose
Набором всех элементов, содержащихся в документе, задается его
структура и определяются все иерархическое соотношения. Плоская модель
данных превращается с использованием элементов в сложную иерархическую
систему со множеством возможных связей между элементами. Например, в
следующем примере мы описываем месторасположение Новосибирских
университетов (указываем, что Новосибирский Университет расположен в
городе Новосибирске, который, в свою очередь, находится в России),
используя для этого вложенность элементов XML :
<country> <cities-list> <city> <title>Новосибирск</title> <universities-list> <university> <title>Сибирский Государственный Университет Телекоммуникаций и Информатики</title> <address URL="www.neic.nsk.su"/> </university> <university> <title>Новосибирский Государственный Университет</title> <address URL="www.nsu.ru"/> </university> </universities-list> </city> <city> <title>Москва</title> <universities-list> <university> <title>Московский Государственный Университет</title> <address URL="www. msu.ru"/> </university> </universities-list> </city> </cities-list> </country>
Производя в последствии поиск в этом документе, программа клиента будет
опираться на информацию, заложенную в его структуру — используя элементы
документа. Т.е. если, например, требуется найти нужный университет в
нужном городе, используя приведенный фрагмент документа, то необходимо
будет просмотреть содержимое конкретного элемента <university>,
находящегося внутри конкретного элемента <city>. Поиск при этом,
естественно, будет гораздо более эффективен, чем нахождение нужной
последовательности по всему документу.
В XML документе, как правило, определяется хотя бы один элемент,
называемый корневым и с него программы-анализаторы начинают просмотр
документа. В приведенном примере этим элементом является <country>
В некоторых случаях тэги могут изменять и уточнять семантику тех или
иных фрагментов документа, по разному определяя одну и ту же информацию и
тем самым предоставляя приложению-анализатору этого документа сведения о
контексте использования описываемых данных. Например, прочитав фрагмент
<river>Lena</river> мы можем догадаться, что речь в этой части
документа идет о реке, а вот во фрагменте <name>Lena</name> —
о имени.
В случае, если элемент не имеет содержимого, т.е. нет данных, которые
он должен определять, он называется пустым. Примером пустых элементов в
HTML могут служить такие тэги HTML, как <br>, <hr>,
<img>;. Необходимо только помнить, что начальный и конечные тэги
пустого элемента как бы объединяется в один, и надо обязательно ставить
косую черту перед закрывающей угловой скобкой (например, <empty/>;)
Комментарии
Комментариями является любая область данных, заключенная между
последовательностями символов Комментарии пропускаются
анализатором и поэтому при разборе структуры документа в качестве значащей
информации не рассматриваются.
Атрибуты
Если при определении элементов необходимо задать какие-либо параметры,
уточняющие его характеристики, то имеется возможность использовать
атрибуты эдлемента. Атрибут — это пара «название» = «значение», которую
надо задавать при определении элемента в начальном тэге. Пример:
<color RGB="true">#ff08ff</color> <color RGB="false">white</color>
или
<author id=0>Ivan Petrov</autho>
Примером использования атрибутов в HTML является описание элемента
<font>:
<font color="white" name="Arial">Black</font>
Cпециальные символы
Для того, чтобы включить в документ символ, используемый для
определения каких-либо конструкций языка (например, символ угловой скобки)
и не вызвать при этом ошибок в процессе разбора такого документа, нужно
использовать его специальный символьный либо числовой идентификатор.
Например, < , > » или $(десятичная форма записи), 
(шестнадцатеричная) и т.д. Строковые обозначения спецсиволов могут
определяться в XML документе при помощи компонентов (entity).
Директивы анализатора
Инструкции, предназначенные для анализаторов языка, описываются в XML
документе при помощи специальных тэгов — и ?>;. Программа клиента
использует эти инструкции для управления процессом разбора документа.
Наиболее часто инструкции используются при определении типа документа
(например, Xml version=»1.0″?>) или создании пространства имен.
CDATA
Чтобы задать область документа, которую при разборе анализатор будет
рассматривать как простой текст, игнорируя любые инструкции и специальные
символы, но, в отличии от комментариев, иметь возможность использовать их
в приложении, необходимо использовать тэги . Внутри этого
блока можно помещать любую информацию, которая может понадобится
программе- клиенту для выполнения каких-либо действий (в область CDATA,
можно помещать, например, инструкции JavaScript). Естественно, надо
следить за тем, чтобы в области, ограниченной этими тэгами не было
последовательности символов ]].
Навигация : | ||
К Предыдущей Странице | В Оглавление. | На Следующую Страницу |
Что такое формат XML | REG.RU
С появлением World Wide Web (всемирной паутины интернет) возникла необходимость
в создании языков разметки. Для описания разных типов интернет-документов были созданы разные языки. Один из них — XML. В статье мы рассмотрим, что это за язык, в каких случаях используется формат XML и в чём его преимущество, а также разберём, как устроен его синтаксис.
Что такое протокол XML
Если с английского расшифровать аббревиатуру XML, то получится «eXtensible Markup Language» — расширяемый язык разметки. Давайте рассмотрим это понятие. Язык разметки — это набор символов, который используют, чтобы обозначить, какую структуру должен иметь текст и как именно отображаться на странице сайта.
Лучше понять, что такое разметка, поможет один из популярных языков — HTML. Благодаря нему отображаются страницы многих сайтов. Чтобы увидеть разметку, правой кнопкой мыши кликните по странице в браузере и выберите Просмотреть код. Справа в окошке можно найти текст этой статьи, но с одним отличием — он будет иметь разметку. В начале, конце и середине текста вы сможете увидеть разнообразные элементы разметки (значения в угловых скобках — <‘значение’>), которые называются тегами. О них мы подробнее расскажем позже, а пока ответим на вопрос «Зачем нужен XML?»
Язык XML — это метаязык, с помощью которого можно сделать не только саму разметку данных, но и описание всех её языков. С помощью XML разработчик может спроектировать собственную разметку, которая лучше всего будет подходить под текущий проект или задачу. Благодаря такому свойству этот язык называют расширяемым. Единственное условие — разработчик должен учитывать синтаксические правила языка, ведь XML имеет конкретную грамматику: словарь тегов и их атрибутов, а также набор правил.
XML — формат, ориентированный на текст. Он базируется на Unicode — стандарте кодирования символов, который включает в себя знаки почти всех письменных языков мира. Изначально этот формат придумали для более удобного хранения и передачи данных. Он имеет несколько основных преимуществ:
- доступность: этот формат могут прочитать как электронные устройства (компьютеры, телефоны и другие), так и человек — разработчик, программист и даже не специалист. Если нужно, XML-документы можно читать и менять с помощью стандартных инструментов редактирования текстов;
- совместимость: благодаря тому, что XML хранит все данные в текстовом формате, их удобно передавать — дополнительная конвертация не нужна. Также можно использовать одну систему для генерации данных и разметки, а затем обрабатывать эти данные в любых других системах вне зависимости от клиентской платформы или операционной системы;
- универсальность: с его помощью можно структурировать, трансформировать и запрашивать данные. Также XML можно читать не только в API (правилах взаимодействия одной компьютерной программы с другой), но и непосредственно в коде.
Важное преимущество приложений, в которые интегрирован XML, в том, что они устойчивы к редактированию: вносить изменения в готовую структуру гораздо проще и быстрее. Если в один элемент приложения (например, ), в котором уже есть одно условие (например, атрибут customer-id) добавить ещё одно условие (например, атрибут last-purchase-date), приложение продолжит работать в обычном режиме. Другие форматы данных не могут обеспечить такую гибкость.
Где используется XML
Важно понимать, что XML — это не исполняемый код, а язык описания данных. После описания данных с помощью XML, необходимо создать сам код (например, на Java), который сможет эти данные отправить/принять/обработать.
XML получил большую популярность потому, что сильно выигрывает у других форматов. Например, CSV (в одной строке таблицы одна строка текста, с одним или несколькими полями, разделенными запятыми) и RTF (межплатформенный формат хранения текстовых документов) подходят только для табличных данных и имеют очень узкую специализацию. XML-формат универсален и подходит для описания:
- структурированных (или табличных) данных — реляционных данных (набора данных с предопределенными связями, состоящего из столбцов и строк) из базы данных или крупноформатных таблиц. Также сюда относятся сетевые протоколы и файлы конфигурации;
- псевдоструктурированных данных — web-страниц и деловых документов.
Microsoft — наиболее яркий пример компании, которая активно использует возможности XML. Этот формат интегрирован в большую часть продуктов Microsoft (Office®, SQL Server™ и другие).
Как устроен XML файл
Чтобы объяснить, что из себя представляет XML, в пример мы приводили язык разметки HTML. Несмотря на то, что оба этих языка помогают корректно отображать данные, по сути, между ними мало общего. В обоих случаях для разметки структуры документов используются специальные метки — теги. Однако в формате HTML они определяют оформление данных — расположение заголовков и рисунков, начало абзацев и так далее, а в формате XML — задают структуру и описывают, чем являются данные. XML не включает указаний на то, как именно необходимо отображать данные: за это отвечает непосредственно код, на котором написана страница. По такому принципу XML-данные можно заключать даже в HTML-теги, чтобы указать, как они должны отображаться на сайте.
Из чего состоит XML
Структура любого XML-документа подчиняется набору определений и документации — Infoset. Каждый документ содержит обязательные элементы и атрибуты, инструкцию обработки, комментарии, ссылки, пространства имен и многое другое. Рассмотрим некоторые структурные элементы подробнее.
Как выглядит документ в формате XML? В первую очередь XML состоит из тегов. Теги в документах распознаются легко, поскольку заключены в угловые скобки. Они всегда расставляются парами:
<первый> — открывающий, ставится перед элементом, который необходимо разметить;
</второй> — закрывающий, ставится после элемента.
Они показывают, где начинается и где заканчивается описание каждого элемента в файле. Текст внутри угловых скобок — название тега, которое отвечает за то, к чему относится данный фрагмент. Например:
<message> Hello World </message>
Кроме этого, одни теги можно вкладывать в другие теги, например:
<message> <warning> Обратите внимание! </warning> </message>
Такое свойство называется вложенностью. При этом вложенные теги могут иметь свои вложенности. Все вместе они представляют дерево тегов.
Также для любого тега можно прописать атрибуты — дополнительную важную информацию. В примере ниже у тега <PLAYER> (игрок) есть атрибуты или характеристики — «TEAM» (команда), «TRAINER» (тренер) и «RESULT» (результат):
<xsd:element name="PLAYER"> <xsd:complexType> <xsd:sequence> <xsd:element name="TEAM" type="xsd:string"/> <xsd:element name="TRAINER" type="xsd:string"/> <xsd:element name="RESULT" type="xsd:positiveInteger"/> </xsd:sequence> </xsd:complexType> </xsd:element>
По такому шаблону можно добавить нужную информацию, которая расширит или, наоборот, конкретизирует описание данных.
Иногда самой первой строкой в файл добавляют информацию о кодировке и версии XML. Она называется «prolog» и выглядит вот так:
<?xml version="3.0" encoding="UTF-8"?>
Одна из важных фишек XML — создание новой версии сайта на базе старой. Например, в первой версии в интернет-магазине была представлена только посуда, а теперь нужно, чтобы продавалась посуда и текстиль. Создавать вторую версию не придется — достаточно внести изменения, чтобы расширить текущую. При этом для версии с текстилем не нужно будет прописывать те же дочерние теги, что и для версии с текстилем. Достаточно добавить элемент (владелец). Если максимально упростить описанную схему, это будет выглядеть примерно так:
<data> <owner first="TEKSTIL" last="OPTOM"> </owner> <name="POSUDA" last="OPTOM"/> </data>
Ещё одна из полезных возможностей формата — пространства имён и префиксы, которые позволяют использовать один и тот же элемент для разных задач. Например: xmlns:<name>=<«uri»>
где name — имя элемента, а uri — URL, который определяет пространство имен.
<reference: knowledge base xmlns:reference="https://help.reg.ru/support/domains/registratsiya-domena/kak-zaregistrirovat-domen"/> <support: knowledge base xmlns:support="https://help. reg.ru/support/lichnyy-kabinet/registratsiya-i-kontaktnyye-dannyye/kak-svyazatsya-so-sluzhboy-podderzhki"> </knowledge base>
В нашем примере knowledge base (база знаний) — это общий элемент, а reference (справка) и support (поддержка, помощь) — варианты его использования.
Как открыть файл XML
Несмотря на то, что XML доступен для прочтения даже для обычного пользователя, иногда такие файлы бывает неудобно использовать. Документы в этом формате можно встретить на сайтах налоговых или на портале Госуслуг. Нередко в этом формате создают электронные таблицы.
Как просмотреть файл XML в таком случае? Можно использовать несколько способов — выбор будет зависеть от того, откуда вы скачали файл и к какому типу он относится:
- Если нужно просмотреть содержимое, используйте браузер. Чтобы просто посмотреть документ, достаточно открыть его в браузере — это самый быстрый способ, который не требует установки дополнительных программ. Кликните по файлу правой кнопкой мыши, нажмите Открыть с помощью и выберите нужный браузер.
- Если нужно открыть таблицу, лучше всего подойдет Excel: откройте программу, кликните CTRL+O, а затем укажите путь, по которому расположен файл на вашем компьютере. Или просто перетащите файл, зажав его левой кнопкой мыши.
- Если нужно открыть текстовый документ, используйте Microsoft Word, Microsoft Office или стандартный блокнот Windows — выше в статье мы рассказывали, что продукты Microsoft поддерживают XML-формат.
- Если нужно просмотреть содержимое документа онлайн, используйте специальные сервисы. Например, codebeautify.org или XMLGrid. С их помощью также можно перевести документ в другой формат, например, CSV или JSON.
Итак, теперь вы знаете про XML файл — что это такое, какие у него преимущества, что содержится в XML, а также для каких целей можно использовать этот формат.
Помогла ли вам статья?
Да
раз уже
помогла
Что такое XML? — Объяснение расширяемого языка разметки (XML)
Что такое XML?
Расширяемый язык разметки (XML) позволяет определять и хранить данные в общедоступной форме. XML поддерживает обмен информацией между компьютерными системами, такими как веб-сайты, базы данных и сторонние приложения. Предопределенные правила упрощают передачу данных в виде XML-файлов по любой сети, поскольку получатель может использовать эти правила для точного и эффективного считывания данных.
Почему XML важен?
Расширяемый язык разметки (XML) — это язык разметки, предоставляющий правила для определения любых данных. В отличие от других языков программирования, XML не может самостоятельно выполнять вычислительные операции. Вместо этого для управления структурированными данными можно использовать любой язык программирования или программное обеспечение.
Например, рассмотрим текстовый документ с комментариями к нему. В комментариях могут быть такие предложения:
- Сделать заголовок жирным
- Это предложение является заголовком
- Это слово является автором
Такие комментарии улучшают удобство использования документа, не затрагивая его содержания. Точно так же XML использует символы разметки для предоставления дополнительной информации о любых данных. Другое программное обеспечение, такое как браузеры и приложения для обработки данных, использует эту информацию для более эффективной обработки структурированных данных.
Теги XML
Для определения данных используются символы разметки, которые в XML называются тегами. Например, чтобы представить данные для книжного магазина, вы можете создать такие теги, как
Теги обеспечивают сложное кодирование данных для интеграции информационных потоков в различных системах.
Каковы преимущества использования XML?
Поддержка межфирменных транзакций
Когда компания продает товар или услугу другой компании, обе компании должны обмениваться информацией, такой как стоимость, спецификации и графики поставок. Благодаря расширяемому языку разметки (XML) они могут обмениваться всей необходимой информацией в электронном виде и автоматически заключать сложные сделки без вмешательства человека.
Поддержание целостности данных
XML позволяет передавать данные вместе с описанием данных, предотвращая потерю целостности данных. Вы можете использовать эту описательную информацию для выполнения следующих действий:
- Проверка точности данных
- Автоматически настраивать представление данных для разных пользователей
- Храните данные последовательно на нескольких платформах
Повышение эффективности поиска
Компьютерные программы, такие как поисковые системы, могут сортировать и классифицировать файлы XML более эффективно и точно, чем другие типы документов. Например, слово знак может быть как существительным, так и глаголом. Основываясь на XML-тегах, поисковые системы могут точно классифицировать пометку для релевантных результатов поиска. Таким образом, XML помогает компьютерам более эффективно интерпретировать естественный язык.
Разработка гибких приложений
С помощью XML вы можете удобно обновить или изменить дизайн вашего приложения. Многие технологии, особенно новые, имеют встроенную поддержку XML. Они могут автоматически читать и обрабатывать файлы данных XML, так что вы можете вносить изменения без переформатирования всей базы данных.
Каково применение XML?
Расширяемый язык разметки (XML) — это базовая технология для тысяч приложений, начиная от обычных средств повышения производительности, таких как обработка текста, и заканчивая программным обеспечением для публикации книг и даже системами конфигурации сложных приложений.
Передача данных
XML можно использовать для передачи данных между двумя системами, которые хранят одни и те же данные в разных форматах. Например, ваш веб-сайт хранит даты в формате ММ/ДД/ГГГГ, а ваша система учета хранит даты в формате ДД/ММ/ГГГГ. Вы можете передавать данные с сайта в учетную систему с помощью XML. Ваши разработчики могут написать код, который автоматически преобразует следующее:
- Данные веб-сайта в формате XML
- Данные XML в данные системы учета
- Возврат данных системы учета в формат XML
- Данные XML обратно в данные веб-сайта
Веб-приложения
XML структурирует данные, которые вы видите на веб-страницах. Другие технологии веб-сайтов, такие как HTML, работают с XML для предоставления согласованных и актуальных данных посетителям веб-сайта. Например, рассмотрим веб-сайт электронной коммерции, который продает одежду. Вместо того, чтобы показывать всю одежду всем посетителям, веб-сайт использует XML для создания настраиваемых веб-страниц на основе предпочтений пользователя. Он показывает продукты определенных брендов, фильтруя тег
Документация
XML можно использовать для указания структурной информации любого технического документа. Затем другие программы обрабатывают структуру документа для гибкого представления. Например, есть теги XML для абзаца, элемента нумерованного списка и заголовка. Используя эти теги, другие типы программного обеспечения автоматически подготавливают документ для таких целей, как печать и публикация на веб-странице.
Тип данных
Многие языки программирования поддерживают XML как тип данных. Благодаря этой поддержке вы можете легко писать программы на других языках, которые работают непосредственно с XML-файлами.
Каковы компоненты файла XML?
Файл Extensible Markup Language (XML) — это текстовый документ, который можно сохранить с расширением .xml. Вы можете писать XML аналогично другим текстовым файлам. Чтобы создать или отредактировать XML-файл, вы можете использовать любое из следующего:
- Текстовые редакторы, такие как Notepad или Notepad++
- Онлайн-редакторы XML
- Веб-браузеры
Любой файл XML включает следующие компоненты.
XML-документ
Теги
Декларация XML
Документ XML начинается с некоторой информации о самом XML. Например, в нем может быть указана версия XML, которой он следует. Это открытие называется декларацией XML. Вот пример.
Элементы XML
Все остальные теги, которые вы создаете в документе XML, называются элементами XML. Элементы XML могут содержать следующие функции:
- Текст
- Атрибуты
- Прочие элементы
Все XML-документы начинаются с первичного тега, который называется корневым элементом.
Например, рассмотрим XML-файл ниже.
<Тетя>
<Имя> Кристина имя>
<Имя> Стефани Имя>
/InvitationList>
Атрибуты XML
Элементы XML могут иметь другие дескрипторы, называемые атрибутами. Вы можете определить свои собственные имена атрибутов и написать значения атрибутов в кавычках, как показано ниже.
Содержимое XML
Данные в файлах XML также называются содержимым XML. Например, в файле XML вы можете увидеть такие данные.
Значения данных Charlie и Steve 90.
Что такое схема XML?
Схема Extensible Markup Language (XML) — это документ, описывающий некоторые правила или ограничения структуры XML-файла. Вы можете описать эти ограничения несколькими различными способами, например: 9.0005
- Грамматические правила для определения порядка элементов
- Да или Нет условия, которым должен удовлетворять контент
- Типы данных для содержимого в файлах XML
- Ограничения целостности данных
Например, XML-схема для книжных магазинов может накладывать следующие ограничения:
- Элемент книги будет иметь атрибуты название и автор .
- Элемент book будет вложен в элемент категории с именем атрибута.
- Цена книги будет отдельным элементом, вложенным в book .
Чтобы выполнить эти ограничения, мы напишем XML-файл, как показано ниже.
Схемы XML обеспечивают согласованность в том, как различные программные приложения создают и используют XML-файлы. В некоторых отраслях используются XML-схемы, специфичные для их операций, чтобы упростить написание XML-кода для передачи данных между предприятиями. Например, масштабируемая векторная графика (SVG) — это спецификация XML для описания данных, связанных с компьютерной графикой. Разработчики программного обеспечения пишут XML-файлы таким образом, чтобы они соответствовали отраслевым спецификациям.
Что такое синтаксический анализатор XML?
Анализатор Extensible Markup Language (XML) — это программное обеспечение, которое может обрабатывать или читать XML-документы для извлечения содержащихся в них данных. Синтаксические анализаторы XML также проверяют синтаксис или правила XML-файла и могут сверять его с определенной схемой XML. Поскольку XML является строгим языком разметки, синтаксические анализаторы не будут обрабатывать файл при наличии ошибок проверки или синтаксиса. Например, синтаксический анализатор XML выдаст ошибки, если выполняется одно из следующих условий:
- Отсутствует закрывающий или закрывающий тег
- Значения атрибутов не заключаются в кавычки
- Условие схемы не выполнено
Программные приложения используют синтаксические анализаторы XML для преобразования файлов XML в собственные типы данных. Таким образом, они могут сосредоточиться на логике приложения, не вникая в детали самого XML.
Чем XML отличается от HTML?
Язык гипертекстовой разметки (HTML) — это язык, используемый на большинстве веб-страниц. Веб-браузер обрабатывает HTML-документы и отображает их как мультимедийную страницу. Консорциум World Wide Web (W3C) — это международное сообщество, разрабатывающее протоколы и рекомендации для обеспечения долгосрочного роста Интернета. W3C установил стандарты HTML и Extensible Markup Language (XML), которые разработчики веб-сайтов внедряют для обеспечения согласованности и качества.
XML и HTML
Хотя файлы HTML и XML очень похожи, между ними есть некоторые ключевые отличия.
Назначение
Целью HTML является представление и отображение данных. Однако XML хранит и передает данные.
Теги
HTML имеет предопределенные теги, но пользователи могут создавать и определять свои собственные теги в XML.
Правила синтаксиса
Существуют небольшие, но важные различия между синтаксисом HTML и XML. Например, XML чувствителен к регистру, а HTML — нет. Синтаксические анализаторы XML будут выдавать ошибки, если вы напишете тег как
Как сервисы AWS поддерживают XML?
Все сервисы интеграции данных AWS могут обрабатывать файлы Extensible Markup Language (XML). Мы перечисляем некоторые примеры ниже.
AWS Glue — это бессерверная служба интеграции данных, которую можно использовать для обнаружения, подготовки и объединения данных для аналитики, машинного обучения и разработки приложений. AWS Glue DataBrew — это визуальный инструмент подготовки данных, который можно использовать для подготовки данных с помощью интерактивного визуального интерфейса «укажи и щелкни» без написания кода. DataBrew может вводить все типы форматов файлов, включая XML.
Amazon Simple Queue Service (SQS) — это полностью управляемая служба очередей сообщений, которую можно использовать для отправки, хранения и получения сообщений между программными компонентами любого объема. Сообщения Amazon SQS могут содержать до 256 КБ текстовых данных, включая XML, JSON и неформатированный текст.
Amazon Kinesis позволяет легко собирать, обрабатывать и анализировать потоковые данные в режиме реального времени, чтобы вы могли получать своевременную аналитическую информацию и быстро реагировать на новую информацию. Благодаря ключевым возможностям Kinesis вы можете экономически эффективно обрабатывать потоковые данные в любом масштабе. Вы также получаете гибкость в выборе инструментов, соответствующих требованиям вашего приложения. Передавайте, преобразовывайте и анализируйте XML-данные в режиме реального времени с помощью Kinesis.
Начните интеграцию данных, создав учетную запись AWS уже сегодня.
Краткое введение в XML — CellML
Этот документ содержит краткое введение в некоторые термины и
понятия, используемые при анализе XML-документов в учебнике
раздел веб-сайта CellML. Термины взяты из исходной спецификации XML, опубликованной в феврале 1998 года консорциумом World Wide Web.
Следующие онлайн-ресурсы содержат более подробную документацию по XML:
http://www.w3.org/XML/
—
XML-страница W3C.http://www.ucc.ie/xml/
—
официальный XML FAQ.http://www.xml.com/axml/testaxml.htm
—
аннотированная спецификация XML.http://www.oasis-open.org/cover/xml.html
—
титульные страницы XML.
Следующий список терминов ни в коем случае не является исчерпывающим, а определения в некоторых случаях неполными:
- XML
XML расшифровывается как e X tensible M arkup L anguage и является стандартом для структурированных текстовых документов, разработанным Консорциумом World Wide Web.
(W3C). W3C представляет около 500 платных компаний-членов и
отвечает за многие стандарты, касающиеся Интернета,
включая HTML. XML можно использовать для структурирования текста таким образом, чтобы он
читается как людьми, так и машинами, и представляет собой простой
формат для обмена информацией через Интернет между
компьютеры. Таким образом, электронная коммерция является основным приложением
область для XML.XML является упрощением (или подмножеством) стандарта
Обобщенный язык разметки (SGML), разработанный в 1970-х годах для
крупномасштабное хранение структурированных текстовых документов.- XML-документ
Ан
XML-документ содержит пролог и тело. Пролог состоит из
Объявление XML, за которым может следовать объявление типа документа.
body состоит из одного корневого элемента, возможно, с некоторыми комментариями
и/или инструкции по обработке. XML-документ обычно представляет собой компьютер.
файл, содержимое которого соответствует требованиям, изложенным в XML
Спецификация. Однако XML-документы также могут создаваться «на
fly» компьютером, отвечающим на запрос другого компьютера. Для
Например, XML-документ может быть динамически скомпилирован из информации
содержится в базе данных.)- Декларация XML
первые несколько символов документа XML должны составлять XML
декларация. Декларация используется программным обеспечением обработки для работы
как работать с последующим содержимым XML. Типичный XML
декларация приведена ниже. Кодирование документа особенно
важно, так как процессоры XML будут по умолчанию использовать UTF-8 при чтении
Документ с 8-битным символом. Это приведет к отображению символов
некорректно, если в документе используется латинская кодировка (iso-8859-1). XML
приложения обработки должны обрабатывать 16 бит на символ
документы в кодировке Unicode, что делает XML по-настоящему
международный формат, способный обрабатывать большинство современных языков."1.0"
кодировка=
"iso-8859-1"
?>
- Объявление типа документа
Автор документа может использовать
необязательное объявление типа документа после объявления XML для
указать, каким будет корневой элемент XML-документа и, возможно,
чтобы указать на определение типа документа. Типичный тип документа
объявление для документа CellML показано ниже. Обратите внимание, что
средство объявления типа документа, определенное в спецификации XML
предоставляет гораздо больше функциональных возможностей, чем то, что обсуждается или показано здесь.<
!DOCTYPE
модель
СИСТЕМА
"http://www.cellml.org/cellml/cellml_1_1.dtd"
>
- Начальный/конечный тег
Самый простой способ кодирования
смысл фрагмента текста в XML заключается в том, чтобы заключить его в начало и конец
теги. Начальный тег состоит из имени тега, находящегося между меньше чем и
знаки «больше чем», а соответствующий конечный тег имеет косую черту перед
имя тега, как показано ниже. А правильно сформированный XML-документ имеет конечный тег, который соответствует каждому начальному тегу.>
текстовые данные
- Элемент
Комбинация начального тега, данных и
конечный тег известен как элемент. Данные могут быть обычным текстом (как в
пример выше), другие элементы (подэлементы) или комбинация
текст и подэлементы. Документ обычно состоит из дерева
элементы с одним корневым элементом, как показано ниже.>
>
data for sub-element 1
>
data for sub-element 2
- Атрибут
Другой способ помещения данных в XML
document — добавлением атрибутов к начальным тегам. Значение
атрибут обычно предназначен для данных, относящихся к содержимому
текущий элемент. Пробелы используются для отделения атрибутов от
имя тега и друг друга. Каждый атрибут имеет имя, за которым следует
знак равенства и значение атрибута. Значение атрибута
заключается в одинарные или двойные кавычки. В приведенном ниже примереatt_1
иatt_2
.att_1="
1
"
att_2="
2
"
>
the text data
- Пустой элемент
Если элемент не имеет содержимого,
конечный тег можно не указывать. В этом случае в конце добавляется косая черта.
начальный тег, чтобы указать, что это пустой элемент. Элемент
контент — это все, что спецификация XML позволяет отображать между
начальный тег и конечный тег, такие как текст, подэлементы, комментарии и
инструкции по обработке. Пустой элемент может по-прежнему иметь атрибуты, т.к.
показано ниже.ATT_1 = "
1
"
ATT_2 = "
2
"
.
- Определение типа документа
Единый ресурс
Идентификатор (URI) в объявлении типа документа может указывать на документ
известный как определение типа документа (DTD). Формат DTD:
определено в спецификации XML и отличается от XML.
документ. DTD может содержать набор правил, определяющих, как
различные теги в XML-документе могут использоваться вместе, и
атрибуты, которые могут принадлежать каждому тегу. Большинство процессоров XML обеспечивают
проверка XML-документов по DTD, что позволяет приложениям
быстро и безболезненно проверить правильность структуры XML-документа.
примерно правильно.DTD не позволяют указывать ограничения на содержимое элементов и атрибутов, например « значение атрибута
att_1
должно быть числом ». Этот тип проверки может быть выполнен с помощью схемы XML, преемника DTD, который определяет формат файла на основе XML.- Комментарий
А
автор документа может размещать комментарии в документах XML для добавления аннотаций
предназначен для других людей, читающих документ. Содержание
комментарий не рассматривается как часть данных документа. Комментарий
начинается со знака "меньше", восклицательного знака и двух дефисов, а
заканчивается двумя дефисами и знаком «больше», как показано ниже.
Комментарии нельзя размещать внутри начальных или конечных тегов.>
content
- Пространство имен XML
Пространства имен в XML
является дополнением к основной спецификации XML. Это обеспечивает
средство для связывания элементов и/или атрибутов во всех или
часть документа с определенной схемой, обозначенной URI.
ключевым аспектом URI является то, что он уникален. Необходимое значение URI
не имеют ничего общего с XML-документом, который его использует, хотя
как правило, это хорошее место для XML-схемы или DTD, которые
определяет правила для типа документа. URI может быть сопоставлен с
префикс, который затем может использоваться перед именами тегов и атрибутов,
разделены двоеточием. Если он не сопоставлен с префиксом, URI устанавливает
схема по умолчанию для текущего элемента и всех его дочерних элементов.Объявление пространства имен выглядит как атрибут начального тега, но может быть идентифицировано ключевым словом
xmlns
.
В следующем примере пространством имен по умолчанию является CellML.
пространство имен, а пространство имен MathML объявляется и сопоставляется с префиксомmathml
, который затем используется в элементе<Модель
xmlns = "
http://www.cellml.org/cellml/1.1#
"
"
". org/1998/Math/MathML
"
>
>
.