url - QLGQ/learning-python GitHub Wiki

URL格式

定义:在www上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL(Uniform Resource Locator,统一资源定位符),它是www的统一资源定位标志,就是指网络地址。

语法

URL由三部分组成:资源类型、存放资源的主机域名、资源文件名。
URL的一般语法格式为(带方括号[]的为可选项):protocol :// hostname[:port] / path / [;parameters][?query]#fragment

格式说明

protocol(协议)

指定使用的传输协议,下表列出protocol属性的有效方案名称。最常用的是HTTP协议,它是目前www中应用最广的协议。

协议名称 描述
file 资源是本地计算机上的文件。格式 file:///,注意后边应是三个斜杠。
ftp 通过FTP访问资源。格式 FTP://
gopher 通过Gopher协议访问该资源
http 通过HTTP访问该资源。 格式 HTTP://
https 通过安全的HTTPS访问该资源。格式 HTTPS://
mailto 资源为电子邮件地址,通过SMTP访问。格式 mailto:
MMS 通过支持MMS(流媒体)协议的播放该资源。 (代表软件:Windows Media Player)格式 MMS://
ed2k 通过支持ed2k(专用下载链接)协议的P2P软件访问该资源。(代表软件:电驴)格式 ed2k://
Flashget 通过支持Flashget(专用下载链接)协议P2P软件访问该资源。(代表软件:快车)格式 Flashget://
thunder 通过支持thunder(专用下载链接)协议的P2P软件访问该资源。(代表软件:迅雷)格式 thunder://
news 通过NNTP访问该资源

hostname(主机名)

是指存放资源的服务器的域名系统(DNS)主机名或IP地址。有时,在主机名前也可以包含连接到服务器所需的用户名和密码(格式:username:password@hostname)。

port(端口号)

整数,可选,省略时使用方案的默认端口,各种传输协议都有默认的端口号,如http的默认端口号为80。如果输入时省略,则使用默认默认端口号。有时出于安全或其他考虑,可以在服务器上对端口进行重定义,即采用非标准端口号,此时,URL中就不能省略端口号这一项。

path(路径)

由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。

parameters(参数)

这是用于指定特殊参数的可选项。

query(查询)

可选,用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/NET等技术制作的网页)传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。

fragment(信息片段)

字符串,用于指定网络资源中的片段。例如一个网页有多个名词解释,可使用fragment直接定位到某一名词解释。