item编写规则 - ShichaoMa/structure_spider GitHub Wiki
BaseItem
。用来提供最基本的信息,每个spider对应的第一个item必须继承自BaseItem
, 子item可以不继承。
1 所有item的公共父类为prop = Field(...)
。
2 item中定义所有item属性3 Field定义如下:
- input_processor: processor函数,参见input-and-output-processors
- output_processor:默认为
TakeFirst()
,可以重写该processor。 - default:当prop值为空时为该字段提供默认值。
- order:对prop进行排序,有些prop依赖于之前的prop,这种情况下,对这两个属性进行排序是有必要的,默认order=0。
- skip: 是否在item中略过此prop,有些字段可能是暂时获取使用,在最终生成的item中可以略过。默认skip=False。