okfn-brasil · talesmota · Jun 10, 2024 · Jun 10, 2024 · Aug 29, 2024 · Sep 10, 2024
diff --git a/data_collection/gazette/spiders/ba/ba_candeias.py b/data_collection/gazette/spiders/ba/ba_candeias.py
@@ -0,0 +1,14 @@
+from datetime import date
+
+from gazette.spiders.base.brtransparencia import BaseBrTransparenciaSpider
+
+
+class BaCandeiasSpider(BaseBrTransparenciaSpider):
+    name = "ba_candeias"
+    TERRITORY_ID = "2906501"
+    allowed_domains = ["www.camaraibicoara.ba.gov.br"]
+    start_urls = ["https://www.camaraibicoara.ba.gov.br/diario.html"]
+    start_date = date(2022, 12, 29)
+    br_tranparencia_entity = "63147391-dcb2-4d6c-9c5a-c4483a9d8306"
+    br_tranparencia_code = "CODE_ENT_CM207"
+    power = "legislative"
diff --git a/data_collection/gazette/spiders/ba/ba_conceicao_do_almeida_2024.py b/data_collection/gazette/spiders/ba/ba_conceicao_do_almeida_2024.py
@@ -0,0 +1,13 @@
+from datetime import date
+
+from gazette.spiders.base.brtransparencia import BaseBrTransparenciaSpider
+
+
+class BaConceicaoDoAlmeidaSpider(BaseBrTransparenciaSpider):
+    name = "ba_conceicao_do_almeida_2024"
+    TERRITORY_ID = "2908309"
+    allowed_domains = ["www.conceicaodoalmeida.ba.gov.br"]
+    start_urls = ["https://www.conceicaodoalmeida.ba.gov.br/diario.html"]
+    start_date = date(2019, 5, 3)
+    br_tranparencia_entity = "EF1662F7-9A2A-4FDB-ABAD-346211F97734"
+    br_tranparencia_code = "CODE_ENT_001"
diff --git a/data_collection/gazette/spiders/ba/ba_ibicoara.py b/data_collection/gazette/spiders/ba/ba_ibicoara.py
@@ -0,0 +1,13 @@
+from datetime import date
+
+from gazette.spiders.base.brtransparencia import BaseBrTransparenciaSpider
+
+
+class BaIbicoaraSpider(BaseBrTransparenciaSpider):
+    name = "ba_ibicoara"
+    TERRITORY_ID = "2912202"
+    allowed_domains = ["www.camaraibicoara.ba.gov.br"]
+    start_urls = ["https://www.camaraibicoara.ba.gov.br/diario.html"]
+    start_date = date(2020, 2, 1)
+    br_tranparencia_entity = "691bea32-9b9f-40f8-ab18-31e079080a1a"
+    br_tranparencia_code = "CODE_ENT_CM204"
diff --git a/data_collection/gazette/spiders/ba/ba_itaquara_2024.py b/data_collection/gazette/spiders/ba/ba_itaquara_2024.py
@@ -0,0 +1,13 @@
+from datetime import date
+
+from gazette.spiders.base.brtransparencia import BaseBrTransparenciaSpider
+
+
+class BaItaquaraSpider(BaseBrTransparenciaSpider):
+    name = "ba_itaquara_2024"
+    TERRITORY_ID = "2916708"
+    allowed_domains = ["www.itaquara.ba.gov.br"]
+    start_urls = ["https://www.itaquara.ba.gov.br/diario.html"]
+    start_date = date(2019, 1, 1)
-    start_date = date(2019, 1, 1)
+    start_date = date(2019, 7, 26)
-    start_date = date(2019, 1, 1)
+    start_date = date(2019, 7, 26)
+    br_tranparencia_entity = "1557447a-9381-44ad-9c0f-016868769479"
+    br_tranparencia_code = "CODE_ENT_PM003"
diff --git a/data_collection/gazette/spiders/ba/ba_porto_seguro.py b/data_collection/gazette/spiders/ba/ba_porto_seguro.py
@@ -0,0 +1,14 @@
+from datetime import date
+
+from gazette.spiders.base.brtransparencia import BaseBrTransparenciaSpider
+
+
+class BaPortoSeguroSpider(BaseBrTransparenciaSpider):
+    name = "ba_porto_seguro"
+    TERRITORY_ID = "2925303"
+    allowed_domains = ["cmportoseguroba.brtransparencia.com.br"]
+    start_urls = ["https://cmportoseguroba.brtransparencia.com.br/diario.html"]
+    start_date = date(2022, 12, 19)
+    br_tranparencia_entity = "4557886f-5713-4999-b2c5-c54d9ee11b44"
+    br_tranparencia_code = "COD_ENT_CM210"
+    power = "legislative"
diff --git a/data_collection/gazette/spiders/ba/ba_rio_real.py b/data_collection/gazette/spiders/ba/ba_rio_real.py
@@ -0,0 +1,14 @@
+from datetime import date
+
+from gazette.spiders.base.brtransparencia import BaseBrTransparenciaSpider
+
+
+class BaRioRealSpider(BaseBrTransparenciaSpider):
+    name = "ba_rio_real"
+    TERRITORY_ID = "2927002"
+    allowed_domains = ["cmriorealba.brtransparencia.com.br"]
+    start_urls = ["https://http://cmriorealba.brtransparencia.com.br/diario.html"]
-    start_urls = ["https://http://cmriorealba.brtransparencia.com.br/diario.html"]
+    start_urls = ["http://cmriorealba.brtransparencia.com.br/diario.html"]
-    start_urls = ["https://http://cmriorealba.brtransparencia.com.br/diario.html"]
+    start_urls = ["http://cmriorealba.brtransparencia.com.br/diario.html"]
+    start_date = date(2022, 12, 29)
+    br_tranparencia_entity = "45ae0af7-71a7-436e-9a8e-d41a68215062"
+    br_tranparencia_code = "COD_ENT_CM208"
+    power = "legislative"
diff --git a/data_collection/gazette/spiders/ba/ba_saude_2024.py b/data_collection/gazette/spiders/ba/ba_saude_2024.py
@@ -0,0 +1,14 @@
+from datetime import date
+
+from gazette.spiders.base.brtransparencia import BaseBrTransparenciaSpider
+
+
+class BaSaudeSpider(BaseBrTransparenciaSpider):
+    name = "ba_saude_2024"
+    TERRITORY_ID = "2929800"
+    allowed_domains = ["pmsaudeba.brtransparencia.com.br"]
+    start_urls = ["https://pmsaudeba.brtransparencia.com.br/diario.html"]
+    start_date = date(2024, 1, 31)
+    br_tranparencia_entity = "46366dbc-7780-433d-a689-f287561a8a7a"
+    br_tranparencia_code = "COD_ENT_PM005"
+    power = "executive"
diff --git a/data_collection/gazette/spiders/base/brtransparencia.py b/data_collection/gazette/spiders/base/brtransparencia.py
@@ -0,0 +1,43 @@
+from datetime import datetime
+
+from scrapy import Request
+from scrapy.selector import Selector
+
+from gazette.items import Gazette
+from gazette.spiders.base import BaseGazetteSpider
+
+
+class BaseBrTransparenciaSpider(BaseGazetteSpider):
+    name = ""
+    TERRITORY_ID = ""
+    allowed_domains = [""]
+    start_urls = [""]
+    br_tranparencia_entity = ""
+    br_tranparencia_code = ""
+    power = "executive"
-    power = "executive"
-    power = "executive"
+
+    def start_requests(self):
+        api_url = f"https://api.brtransparencia.com.br/api/diariooficial/filtro/{self.br_tranparencia_entity}/{self.br_tranparencia_code}/{self.start_date}/{self.end_date}/-1/-1"
+
+        yield Request(api_url)
+
+    def parse(self, response):
+        for entry in response.json():
+            edition_date = datetime.strptime(
+                entry["dat_publicacao_dio"], "%Y-%m-%dT%H:%M:%S"
+            ).date()
+            extra_edition = True if entry["des_extra_dio"] is not None else False
+            edition_number = int(entry["num_diario_oficial_dio"])
+            gezzetes = Selector(text=entry["des_resumo_dio"]).css("a")
+            urls = []
+            for item in gezzetes:
+                link = item.css("a::attr(href)").get()
+                urls.append(link)
+
+            yield Gazette(
+                edition_number=edition_number,
+                date=edition_date,
+                file_urls=urls,
+                is_extra_edition=extra_edition,
+                power=self.power,
+            )