item编写规则 - ShichaoMa/structure_spider GitHub Wiki

1 所有item的公共父类为BaseItem。用来提供最基本的信息,每个spider对应的第一个item必须继承自BaseItem, 子item可以不继承。

2 item中定义所有item属性prop = Field(...)

3 Field定义如下:

  • input_processor: processor函数,参见input-and-output-processors
  • output_processor:默认为TakeFirst(),可以重写该processor。
  • default:当prop值为空时为该字段提供默认值。
  • order:对prop进行排序,有些prop依赖于之前的prop,这种情况下,对这两个属性进行排序是有必要的,默认order=0。
  • skip: 是否在item中略过此prop,有些字段可能是暂时获取使用,在最终生成的item中可以略过。默认skip=False。