URL ist die Abkürzung für den Begriff Uniform Resource Locator. Sie dient dazu eine Ressource, z. B. eine Webseite zu erkennen und zu lokalisieren. Neben der Zugriffsmethode (Netzwerkprotokoll: FTP, HTTP, HTTPS) enthält die URL den Ort (Server) innerhalb des eines Computernetzwerks. Der aktuelle industrielle Standard für die URL wurde von der Internet Foundation IETF (The Internet Engineering Task Force) zuletzt in der RCF 1738 veröffentlicht.
URL und URI
Technisch gesehen ist die URL eine Art der generellen Bezeichnung, um Ressourcen mit dem Uniform Identifiern (URI) zu erkennen und aufzurufen. Daher werden die Abkürzungen URL und URI im allgemeinen Sprachgebrauch oft gleichbedeutend verwendet. Oft werden auch Internetadressen generell als URLs bezeichnet, da mit den meiste URLs Webseites gemeint sind. Diese Bedeutungsverengung erfasst nicht alle Aspekte der Abkürzung URL.
Aufbau einer URL
Eine URL ist unabhängig von der Zugriffsmethode, also dem verwendeten Protokoll nach dem gleichen Prinzip aufgebaut. Sie besteht Sie besteht aus einem „scheme“, das die verwendete Zugriffsmethode angibt und einem „scheme-spezific-part“. Diese Zeichenkette enthält die nötigen Informationen, um die Ressource Lokalisieren zu können.
Beispiel einer HTTP URL:
http://peter:geheim@beispiel.org:80/demo/beispiel.cgi?land=de&stadt=aa#geschichte
Die scheme HTTP gibt die Zugriffsmethode Hypertext-Transfer-Protocol an. Nach einem Doppelpunkt und dem doppelten Slash folgt der scheme-specific-part. Dieser kann die folgenden Elemente enthalten:
- Name des Benutzers: peter
- Password: geheim
- Domainname: beispiel
- Top-Level-Domain: org für Organisation
- Serverport: 80
- Der Pfad innerhalb der aufgerufenen Domain, der zu der Ressource führt: demo/beispiel.cgi?land=de&stadt=aa#geschichte
Nicht alle Elemente des scheme-specific-part können in der Adresszeile eines Browsers in der Form des oben ausgeführten Beispiels verwendet werden. Benutzername und Passwort können falls nötig auf diesem Weg übermittelt werden, sind aber nicht Teil der URL oder gehören zur Spezifikation des HTTP. Neue Browser fragen in der Regel nach, ob sich der Nutzer mit diesen Daten anmelden möchte. Der Internet Explorer lehnt ab der Version 6.0 ein „scheme-specific-part“, das Benutzername und Passwort enthält ab. Bei anderen Protokollen wie FTP (FileTransferProtocoll) werden alle oben gezeigten Elemente des scheme-spezific-parts akzeptiert.
Die gängigen Internetadressen haben meist die Form:
http://www.beispiel.org/
Sie geben die Zugriffsart an, wobei diese meist nicht eingegeben werden muss, da in der Regel HTTP als Standard gilt. www steht für das Netzwerkprotokoll. Dem Host bzw. der Domain ist eine IP zugeordnet, die bei der Angabe identifiziert wird, sodass die Anfrage den entsprechenden Server erreicht. Die Abkürzung org (Organisation) ist die Top-Level-Domain, die mit dem entsprechenden Host verknüpft ist. Wird kein Port angegeben, richtet sich die Anfrage an den Standardport des Servers. Die Angabe einer Ressource oder eines Pfads ist nicht nötig, da nach der Eingabe des Domainnamens automatisch die Index-Datei im Root-Ordner aufgerufen wird. Bei Pfadangaben ist neben dem Namen der Ressource und den Angaben weiterer Übertragungsparameter auch die Angabe eines Ankers (#) möglich, der zu einem bestimmten Teil des Dokuments führt.
Host, Port, Path
Von besonderer Bedeutung für die Effektivität der URL ist die Host-Komponente. Der Domainname unter einer bestimmten Top-Level-Domain wird in einer IPv4-Adresse oder einer IPv6-Adresse aufgelöst. Dank dieser IPs lässt sich der Standort des Servers eindeutig identifizieren.
Beim angesteuerten Port handelt es sich um einen TCP/IP-Port. Den einzelnen Protokollen sind Standardports zugewiesen. Bei HTTP der Port 80, bei HTTPS Port 443 und bei FTP 21.
Durch den Pfad wird eine bestimmte Ressource innerhalb der Verzeichnisstruktur auf dem Server angegeben. Die Interpretation, wie eine Information ausgeliefert wird, bleibt dem Server überlassen. Je nach seiner Einstellung liefert er eine index.html Datei aus. Aber auch die Weiterleitung zu einer bestimmten Ressource oder die Auflistung eines Verzeichnisses kommt infrage. Bei den meisten Webservern wird ohne Pfadangabe die Index-Datei im Rootverzeichnis aufgerufen.
Relative URL
Neben der absoluten URL gibt es auch relative URLs innerhalb eines bestimmten Kontextes. Sie erlauben Pfadangaben innerhalb einer Verzeichnisstruktur, z. B. in Form interner Links. Sie enthalten aber keine Ortsangabe und dienen als Pfadangabe innerhalb einer Domaine. Folgende Symbole werden besonders für die Protokolle HTTP, HTTPS und FTP verwendet:
- // steht für das gleiche Protokoll
- / steht für gleiche Domaine
- # steht für gleiche Ressource
- ../ steht für ein Pfadsegment aufwärts
Geschichte
Zu Beginn des WorldWideWeb gab es in der Dokumentation der CERN keine spezifische Bezeichnung für die Adressierung von Webseites. Begriffe wie W3 document adress, name oder adresse sind aus dieser Zeit überliefert. Die Gestalt dieser Art der Adressierung entsprach aber bereits der heute standardisierten Form. Änderungen wurden zwar diskutiert, aber angesichts des schnellen Wachstums des Internets verworfen. Der Internetpionier Tim Berner Lee rief 1992 in Boston eine Arbeitsgruppe ins Leben, die sich dem Thema eines Uniform Document Identifiers widmen sollte. Der Name wurde aber als zu universell und zu arrogant kritisiert. Schließlich einigten sich die Mitglieder der Gruppe auf das Kürzel URL. Ein Standardisierungsentwurf konnte unter der der Nummer RFC 1738 unter der Verwendung der Abkürzung URI 2 Jahre später vorgelegt werden. In diesem Standard wurden auch die Begriffe URL und URN definiert. Tim Berner Lee ging es darum, die Adressierung möglichst logisch aufzubauen und Teile der bereits verwendeten Dateisysteme (z. B. Unix) in die URI zu integrieren.
Zusammenfassung
Eine URL (Uniform Resource Locator) ist ein standardisierter Weg, um eine Ressource im Internet zu identifizieren und zu lokalisieren. Sie enthält verschiedene Bestandteile wie das Netzwerkprotokoll (z.B. HTTP, HTTPS, FTP) und den spezifischen Ort innerhalb eines Computernetzwerks. Die aktuelle Norm für URLs wurde von der Internet Engineering Task Force (IETF) in der RFC 1738 festgelegt.
Obwohl sie oft synonym verwendet werden, unterscheidet sich eine URL von einer URI (Uniform Resource Identifier). Während eine URI eine allgemeinere Bezeichnung für Ressourcen ist, bezieht sich eine URL spezifisch auf den Ort und die Methode des Zugriffs. Sie besteht aus verschiedenen Segmenten wie dem Benutzernamen, Passwort, Domainname, Top-Level-Domain und optional weiteren Elementen.
Die Host-Komponente einer URL ist für die Eindeutigkeit des Standortes des Servers entscheidend und wird in eine IP-Adresse übersetzt. Der verwendete TCP/IP-Port ist protokollspezifisch und ermöglicht die Verbindung zum Server. Der Pfad zeigt an, welche spezifische Ressource innerhalb der Serverstruktur angesprochen wird.
Neben absoluten URLs gibt es auch relative URLs, die in einem bestimmten Kontext genutzt werden und oft in internen Links vorkommen. Diese enthalten keine vollständige Ortsangabe, sondern dienen zur Pfadangabe innerhalb einer Domain.
Die Bezeichnung „URL“ wurde in den frühen Tagen des Internets von einer Arbeitsgruppe um Tim Berners-Lee eingeführt. Diese Normierung war entscheidend für das schnelle Wachstum des Internets und die Organisation von Webressourcen.
Häufige Fragen und Antworten
Was ist eine URL?
Eine URL (Uniform Resource Locator) ist eine standardisierte Methode, um eine Ressource im Internet zu identifizieren und zu lokalisieren. Sie enthält Informationen wie das Netzwerkprotokoll (z.B. HTTP, HTTPS, FTP) und den spezifischen Ort innerhalb eines Computernetzwerks.
Was ist der Unterschied zwischen URL und URI?
Obwohl die Begriffe oft synonym verwendet werden, gibt es einen Unterschied zwischen URL (Uniform Resource Locator) und URI (Uniform Resource Identifier). Während eine URI eine allgemeinere Bezeichnung für Ressourcen ist, bezieht sich eine URL spezifisch auf den Ort und die Methode des Zugriffs.
Wie ist eine URL aufgebaut?
Eine URL besteht aus mehreren Segmenten, unabhängig von der Zugriffsmethode. Es gibt einen „scheme“-Teil, der das verwendete Netzwerkprotokoll angibt, und einen „scheme-spezifischen Teil“, der die nötigen Informationen zur Lokalisierung der Ressource enthält. Dies können Elemente wie Benutzername, Passwort, Domainname, Top-Level-Domain, Serverport und Pfad sein.
Was ist der Unterschied zwischen einer absoluten und einer relativen URL?
Eine absolute URL gibt den vollständigen Pfad zur Ressource an, einschließlich des Protokolls und der Domain. Eine relative URL gibt den Pfad relativ zum aktuellen Kontext an, beispielsweise in Form interner Links. Sie enthält keine vollständige Ortsangabe.
Wie wurde die URL entwickelt und standardisiert?
Die Entwicklung und Standardisierung der URL wurde von der Internet Engineering Task Force (IETF) vorangetrieben. Der Internetpionier Tim Berners-Lee spielte eine wichtige Rolle bei der Entwicklung und legte den Grundstein für die heutigen URL-Standards. Die erste Standardisierung erfolgte in der RFC 1738, in der auch die Begriffe URL und URI definiert wurden.