rss and atom - QLGQ/learning-python GitHub Wiki
rss(简易信息聚合)是一种RSS基于XML标准,在互联网上被广泛采用的内容包装和投递协议。RSS(Really Simple Syndication)是一种描述和同步网站内容的格式,是使用最广泛的XML应用。RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。发布一个RSS文件后,这个RSS Feed中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用,是一种描述和同步网站内容的格式。
RSS目前广泛应用于网上新闻频道,blog和wiki,主要的版本有0.91,1.0,2.0。使用RSS订阅能更快地获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新。网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开页面的情况下阅读支持RSS输出的网站内容。
- 来源多样的个性化“聚合”特性。
- 信息发布的时效、低成本特性。
- 无“垃圾”信息、便利的本地内容管理特性。
- 订阅BLOG
- 订阅新闻
其实订阅RSS新闻内容要先安装一个RSS阅读器,然后将提供RSS服务的网站加入到RSS阅读器的频道即可。
- 选择有价值的RSS信息源(称作RSS源)
- 启动RSS阅读器,将RSS源添加到自己的RSS阅读器或者在线RSS中。
- 接受并获取定制的RSS消息。
- 取消定制的RSS消息。
RSS用于在网站间分享信息,使用RSS,您在名为聚合器的公司注册您的内容。步骤之一是,创建一个RSS文档,然后使用.xml后缀来保存它。然后把此文件上传到您的网站。接下来,通过一个RSS聚合器来注册。每天,聚合器都会被注册到网站搜索RSS文档,校验其链接,并显示有关feed的信息,这样客户就能够链接到使他们产生兴趣的文档。
实例如下:
<rssversion="2.0">
<channel>
<title>网站标题</title>
<link>网站首页地址</link>
<description>描述</description>
<copyright>授权信息</copyright>
<language>使用的语言(zh-cn表示简体中文)</language>
<pubDate>发布的时间</pubDate>
<lastBuildDate>最后更新的时间</lastBuildDate>
<generator>生成器</generator>
<item>
<title>标题</title>
<link>链接地址</link>
<description>内容简要描述</description>
<pubDate>发布时间</pubDate>
<category>所属目录</category>
<author>作者</author>
</item>
</channel>
</rss>
atom(xml聚合格式)是一种订阅网志的格式。一种Web feed,和RSS类似。能够从信息提供方(例如营销人员)向feed读者传送订阅信息。
ATOM与RSS相比来讲,有更大的弹性。atom是一种基于XML(标准通用标记语言的子集)的文档格式以及基于HTTP的协议,它被站点和客户工具等用来聚合网络内容,包括weblog和新闻标题,它借鉴了各种版本RSS的使用经验。ATOM正走在通往IETF标准的路上,在这之前,Atom的最后一个版本是“Atom 0.3”,并且已经被相当广泛的聚合工具使用在发布和使用(consuming)上。
Atom是开发一个新的网志摘要格式以解决目前RSS存在的问题,即混乱的版本号,不是一个真正的开放标准,表示方法的不一致,定义贫乏等等。Atom希望提供一个清晰的版本以解决每个人的需要,其设计完全不依赖于供货商,任何人都可以对之进行自由扩展,完整详细说明。
当今许多Blog引擎已经支持当前的摘要格式。Figure3是一个Atom0.3提要例子,它与前述Figure1及Figure2RSS提要等同。
RSS和ATOM是相似的基于XML的文档格式,描述被称为摘要(feed)的相关信息列表。这些摘要由许多项组成,每项都带有一套可扩展的附加元数据;例如,每项都由一个标题。这些摘要的主要用途是用于Web内容联合,比如用于Web站点和直接用于用户代理的Weblog或者新闻标题。
RSS2.0摘要示例
<?xml version="1.0"?>
<rss version="2.0">
<channel>
<title>Feed Title</title>
<link>http://yourwebsite.com/</link>
<description>Feed Description</description>
<language>en-us</language>
<pubDate>Mon, 03 Jan 2005 12:00:00 GMT</pubDate>
<item>
<title>Article Title</title>
<link>http://yourwebsite.com/articlelink.html</link>
<description>Your content included here.</description>
</item>
<item>
<title>Sports</title>
<link>http://yourwebsite.com/sportslink.html</link>
<description>Your content included here.</description>
</item>
</channel>
</rss>
ATOM1.0feed示例
<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
<title> Feed Title </title>
<link href=" http://yourwebsite.com/"/>
<updated>2003-12-13T18:30:02Z</updated>
<author>
<name>Your Name</name>
</author>
<id>urn:uuid:60a76c80-d399-11d9-b93C-0003939e0af6</id>
<entry>
<title>Article Title</title>
<link href=" http://yourwebsite.com/articlelink.html "/>
<id>urn:uuid:1225c695-cfb8-4ebb-aaaa-80da344efa6a</id>
<updated>2003-12-13T18:30:02Z</updated>
<summary>Some text.</summary>
</entry>
<entry>
<title>Sports</title>
<link href=" http://yourwebsite.com/sportslink.html "/>
<id>urn:uuid:1225c695-cfb8-4ebb-aaaa-80da344e45ab90</id>
<updated>2003-12-14T13:30:55Z</updated>
<summary>Some text.</summary>
</entry>
</feed>
从前面的两个例子可以看出,RSS和ATOM具有相似的基于XML的格式。它们的基本结构是相同的,只在节点的表达式上有一点区别。
每个摘要文件实际上代表一个通道。它包含通道标题、链接、描述、作者等等。通道信息提供关于摘要的基本信息。通道信息之后是一些项。每项代表一篇可以从摘要阅读器阅读的真实的新闻或者文章。通常情况下啊,每项包含有标题、链接、更新时间和摘要信息。