5 luni în urmă · 28e42242d5
--- a/SourceCode/TenderCrawler/README.md
+++ b/SourceCode/TenderCrawler/README.md
@@ -0,0 +1,200 @@
 
				+# 招投标数据采集系统
			
 
				+
			
 
				+## 项目说明
			
 
				+
			
 
				+本系统用于自动采集和处理招投标信息，主要功能包括：
			
 
				+
			
 
				+- 数据采集：从多个招投标网站自动采集数据
			
 
				+- 数据处理：使用 AI 处理和分析采集的数据
			
 
				+- 数据分发：通过邮件发送处理后的数据
			
 
				+- 数据清理：定期清理历史数据
			
 
				+
			
 
				+## 系统架构
			
 
				+
			
 
				+### 核心模块
			
 
				+
			
 
				+- 数据采集模块 (DataCollector)
			
 
				+- 数据处理模块 (DataProcess)
			
 
				+- 数据发送模块 (DataSend)
			
 
				+- 数据清理模块 (DataClean)
			
 
				+
			
 
				+### 关键组件
			
 
				+
			
 
				+- 适配器 (Adapters): 负责对接不同的数据源
			
 
				+- 存储层 (Stores): 负责数据持久化
			
 
				+- 工具类 (Utils): 提供通用功能支持
			
 
				+
			
 
				+## 配置说明
			
 
				+
			
 
				+### 基础配置
			
 
				+
			
 
				+```yaml
			
 
				+# 数据采集配置
			
 
				+save:
			
 
				+  collect_data_key: '红外光谱仪,拉曼光谱仪' # 采集数据关键词过滤
			
 
				+  collect_batch_size: 100 # 采集数据批量保存大小
			
 
				+  process_batch_size: 1 # AI处理数据批量大小
			
 
				+  attach_file_path: './temp_files/attaches/' # 附件保存路径
			
 
				+  report_file_path: './temp_files/report/' # 报表保存路径
			
 
				+
			
 
				+# 任务调度配置
			
 
				+job:
			
 
				+  event_id: 1 # 任务ID,改变此值会触发任务重新加载
			
 
				+  sleep_interval: 10 # 任务检查间隔(秒)
			
 
				+  collect: '06:00,22:00' # 每天数据采集时间点
			
 
				+  process: '07:00,10:00' # 每天数据处理时间点
			
 
				+  send_email: '08:20,14:00' # 每天邮件发送时间点
			
 
				+  clean_data: '00:05' # 每天数据清理时间点
			
 
				+
			
 
				+  # 月度报告配置
			
 
				+  send_current_month_report_day: 30 # 每月发送当月报告的日期
			
 
				+  send_current_month_report_time: '08:20' # 发送当月报告的时间点
			
 
				+  send_prev_month_report_day: 1 # 每月发送上月报告的日期
			
 
				+  send_prev_month_report_time: '08:20' # 发送上月报告的时间点
			
 
				+
			
 
				+  run_now: false # 是否立即执行一次任务
			
 
				+
			
 
				+# 数据清理配置
			
 
				+clean:
			
 
				+  day: 30 # 默认清理天数(所有类型默认使用此值)
			
 
				+  attach: 30 # 附件清理天数
			
 
				+  log: 30 # 日志清理天数
			
 
				+  collect_data: 30 # 采集数据清理天数
			
 
				+  process_data: 30 # 招标数据清理天数
			
 
				+  process_result_data: 60 # 中标数据清理天数(最小45天)
			
 
				+  report: 90 # 报表清理天数(最小60天)
			
 
				+
			
 
				+# AI配置
			
 
				+ai:
			
 
				+  key: 'your-api-key' # AI API密钥
			
 
				+  url: 'https://api-url' # AI API地址
			
 
				+  model: 'model-name' # 使用的模型名称
			
 
				+  # 系统提示词
			
 
				+  system_prompt: '从给定信息中提取出关键信息，并以给定的类型返回json字符串，如果部分信息为空，则该字段返回为空' 
			
 
				+  # 模板1 处理招标信息
			
 
				+  prompt_template_1: '在以上内容中提取招标信息：
			
 
				+    ```typescript
			
 
				+    export interface Tender { //招标信息
			
 
				+    no: string; // 招标项目编号
			
 
				+    title: string; // 招标公告标题
			
 
				+    province: string; // 招标单位省份
			
 
				+    city: string; // 招标单位城市
			
 
				+    date: string; // 项目开标的时间
			
 
				+    address: string; // 项目开标的地点
			
 
				+    release_date: string; // 招标信息的发布时间
			
 
				+    summary: string; // 100字左右的招标条件，联系方式等内容摘要
			
 
				+    devices: string; // 只涉及到光谱仪相关的设备，其他无关设备不需要，多个设备以逗号分割 ，例如 红外光谱仪,拉曼光谱仪等
			
 
				+    }
			
 
				+    ```' 
			
 
				+  # 模板2 处理中标信息
			
 
				+  prompt_template_2: '在以上内容中提取中标信息：
			
 
				+    ```typescript
			
 
				+    export interface Instrument { // 中标仪器信息
			
 
				+    company: string; // 中标单位名称，参与竞标并中标的公司名称
			
 
				+    name: string; // 仪器名称，例如：红外光谱仪
			
 
				+    manufacturer: string; // 仪器厂商，例如：赛默飞、Bruker
			
 
				+    model: string; // 仪器的型号/规格，例如：NIR25S
			
 
				+    quantity: number; // 中标仪器的数量，台数，例如：2
			
 
				+    unit_price: number; // 仪器的单价，单位转换为元，例如：178000.00
			
 
				+    }
			
 
				+    export interface BiddingAcceptance { //中标信息
			
 
				+    no: string; // 项目编号
			
 
				+    title: string; // 中标公告标题
			
 
				+    date: string; // 中标公告时间
			
 
				+    province: string; // 招标单位省份
			
 
				+    city: string; // 招标单位城市
			
 
				+    summary: string; // 公告摘要信息，100字左右
			
 
				+    instruments: Instrument[]; // 中标设备的信息
			
 
				+    }
			
 
				+    ```'
			
 
				+# 邮件配置
			
 
				+email:
			
 
				+  smtp_server: 'smtp.example.com' # SMTP服务器地址
			
 
				+  smtp_port: 465 # SMTP端口
			
 
				+  smtp_user: 'user@example.com' # SMTP用户名
			
 
				+  smtp_password: 'password' # SMTP密码
			
 
				+  from_email: 'from@example.com' # 发件人地址
			
 
				+  error_email: 'error@example.com' # 错误通知邮箱
			
 
				+
			
 
				+# 数据库配置
			
 
				+mysql:
			
 
				+  host: 'localhost' # 数据库主机
			
 
				+  port: 3306 # 数据库端口
			
 
				+  db: 'database_name' # 数据库名
			
 
				+  user: 'root' # 数据库用户名
			
 
				+  password: 'password' # 数据库密码
			
 
				+  charset: 'utf8mb4' # 字符集
			
 
				+```
			
 
				+
			
 
				+### 数据源配置
			
 
				+
			
 
				+```yaml
			
 
				+adapter:
			
 
				+  max_retries: 3 # 最大重试次数
			
 
				+  # 中国政府采购网配置
			
 
				+  ccgp:
			
 
				+    search_day: '近3日' # 搜索时间范围
			
 
				+    model_name: 'ccgp_data_collection_adapter' # 适配器模块名
			
 
				+    class_name: 'CCGPDataCollectionAdapter' # 适配器类名
			
 
				+    batch_save: false # 是否批量保存数据
			
 
				+
			
 
				+  # 中国采购与招标网配置
			
 
				+  chinabidding:
			
 
				+    search_day: '近一周' # 搜索时间范围
			
 
				+    model_name: 'chinabidding_data_collection_adapter' # 适配器模块名
			
 
				+    class_name: 'ChinabiddingDataCollectionAdapter' # 适配器类名
			
 
				+    batch_save: true # 是否批量保存数据
			
 
				+
			
 
				+# Selenium配置
			
 
				+selenium:
			
 
				+  remote_driver_url: 'http://127.0.0.1:3534/wd/hub' # WebDriver地址
			
 
				+```
			
 
				+
			
 
				+### 日志配置
			
 
				+
			
 
				+```yaml
			
 
				+logger:
			
 
				+  file-path: './logs/' # 日志文件路径
			
 
				+  level: 'debug' # 日志级别
			
 
				+```
			
 
				+
			
 
				+## 部署说明
			
 
				+
			
 
				+### 环境要求
			
 
				+
			
 
				+- Python 3.8+
			
 
				+- MySQL 5.7+
			
 
				+- Selenium WebDriver
			
 
				+
			
 
				+### 安装步骤
			
 
				+
			
 
				+1. 安装依赖: `pip install -r requirements.txt`
			
 
				+2. 配置数据库: 执行 `init.sql`
			
 
				+3. 修改配置: 编辑 `config.yml`
			
 
				+4. 启动应用: `python app/main.py`
			
 
				+
			
 
				+### 目录结构
			
 
				+
			
 
				+```
			
 
				+app/
			
 
				+├── adapters/           # 数据源适配器
			
 
				+├── drivers/            # 浏览器驱动
			
 
				+├── jobs/              # 任务处理模块
			
 
				+├── models/            # 数据模型
			
 
				+├── stores/            # 数据存储
			
 
				+├── utils/             # 工具类
			
 
				+├── config.yml         # 配置文件
			
 
				+└── main.py           # 主程序
			
 
				+```
			
 
				+
			
 
				+## 数据采集说明
			
 
				+
			
 
				+### 采集流程
			
 
				+
			
 
				+1. 系统按配置的时间点(`job.collect`)自动启动采集任务
			
 
				+2. 根据配置的数据源(`adapter`)和关键词(`save.collect_data_key`)进行数据采集
			
 
				+3. 采集到的数据经过关键词过滤后保存到数据库
			
 
				+4. 相关附件下载到指定目录(`save.attach_file_path`)
			
 
				+
			
 
				+
			
 
				+
			
--- a/SourceCode/TenderCrawler/app/adapters/__init__.py
+++ b/SourceCode/TenderCrawler/app/adapters/__init__.py
@@ -4,7 +4,3 @@ from stores.data_store_interface import IDataStore
 
				 
			
 
				 def collect(adapter: IDataCollectionAdapter, keywords: str, store: IDataStore = None):
			
 
				     adapter.collect(keywords, store)
			
 
				-
			
 
				-
			
 
				-def teardown(adapter: IDataCollectionAdapter):
			
 
				-    adapter.teardown()
			
--- a/SourceCode/TenderCrawler/app/adapters/ccgp_data_collection_adapter.py
+++ b/SourceCode/TenderCrawler/app/adapters/ccgp_data_collection_adapter.py
@@ -1,172 +1,213 @@
 
				 from time import sleep
			
 
				+from typing import List, Optional
			
 
				 
			
 
				 from selenium.common.exceptions import TimeoutException, NoSuchElementException
			
 
				 from selenium.webdriver.common.by import By
			
 
				 from selenium.webdriver.support import expected_conditions as ec
			
 
				 
			
 
				-
			
 
				 import utils
			
 
				 from adapters.data_collection_adapter_interface import IDataCollectionAdapter
			
 
				-from stores.data_store_interface import IDataStore
			
 
				 
			
 
				 
			
 
				-class CcgpDataCollectionAdapter(IDataCollectionAdapter):
			
 
				-    """
			
 
				-    中国政府采购网数据采集适配器
			
 
				-    """
			
 
				+class CCGPDataCollectionAdapter(IDataCollectionAdapter):
			
 
				+    """中国政府采购网数据采集适配器"""
			
 
				 
			
 
				-    def __init__(self, url: str, store: IDataStore = None):
			
 
				-        self._url = url
			
 
				-        self._store = store
			
 
				-        self._driver = None
			
 
				-        self._keyword = None
			
 
				-        self._adapter_type = "ccgp"
			
 
				-        self._next_count = 0
			
 
				+    def __init__(self, url: str):
			
 
				+        """初始化适配器
			
 
				+
			
 
				+        Args:
			
 
				+            url: 目标网站URL
			
 
				+        """
			
 
				+        super().__init__(url, "ccgp", "近1周")
			
 
				 
			
 
				     def login(self, username: str, password: str) -> None:
			
 
				+        """登录网站(CCGP无需登录)"""
			
 
				         pass
			
 
				 
			
 
				-    def _collect(self, keyword: str):
			
 
				-        items = self._search(keyword)
			
 
				-        if len(items) <= 0:
			
 
				-            return
			
 
				-        self._process_list(items)
			
 
				-        if utils.get_config_bool(self.batch_save_key):
			
 
				-            self.store.save_collect_data(True)
			
 
				+    def _collect(self, keyword: str) -> None:
			
 
				+        """执行数据采集
			
 
				 
			
 
				-    def _search(self, keyword: str) -> list:
			
 
				+        Args:
			
 
				+            keyword: 单个搜索关键词
			
 
				+        """
			
 
				         try:
			
 
				-            if not keyword:
			
 
				-                raise Exception("搜索关键字不能为空")
			
 
				-            self.driver.get(self._url)
			
 
				-            if not self._wait_until(
			
 
				-                ec.presence_of_element_located((By.ID, "searchForm"))
			
 
				-            ):
			
 
				-                return []
			
 
				-            search_el = self.driver.find_element(By.ID, "kw")
			
 
				-            sleep(2)
			
 
				-            search_el.clear()
			
 
				-            search_el.send_keys(keyword)
			
 
				-            search_btn = self.driver.find_element(
			
 
				-                By.XPATH, "//form[@id='searchForm']/input[@id='doSearch2']"
			
 
				-            )
			
 
				-            sleep(1)
			
 
				-            search_btn.click()
			
 
				-            self._next_count = 0
			
 
				-            if not self._wait_until(
			
 
				-                ec.presence_of_element_located((By.CLASS_NAME, "vT-srch-result"))
			
 
				-            ):
			
 
				-                return []
			
 
				-            default_search_txt = "近1周"
			
 
				-            search_txt = utils.get_config_value(self.search_day_key, default_search_txt)
			
 
				-            utils.get_logger().debug(f"搜索日期条件: {search_txt}")
			
 
				-            if search_txt != default_search_txt:
			
 
				+            # 获取搜索时间范围
			
 
				+
			
 
				+            self.logger.info(f"开始采集关键词: {keyword}, 时间范围: {self._search_txt}")
			
 
				+
			
 
				+            # 搜索数据
			
 
				+            items = self._search(keyword)
			
 
				+            if not items:
			
 
				+                return
			
 
				+
			
 
				+            # 处理数据列表
			
 
				+            self._process_list(items)
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"采集失败: {e}")
			
 
				+            raise
			
 
				+
			
 
				+    def _search(self, keyword: str) -> List:
			
 
				+        """搜索数据
			
 
				+
			
 
				+        Args:
			
 
				+            keyword: 搜索关键词
			
 
				+
			
 
				+        Returns:
			
 
				+            List: 搜索结果列表
			
 
				+        """
			
 
				+        # 打开搜索页面
			
 
				+        self.driver.get(self.url)
			
 
				+
			
 
				+        # 等待搜索框
			
 
				+        self._wait_for(
			
 
				+            ec.presence_of_element_located((By.ID, "searchForm")),
			
 
				+            message="搜索框加载超时",
			
 
				+        )
			
 
				+
			
 
				+        # 输入关键词
			
 
				+        search_el = self.driver.find_element(By.ID, "kw")
			
 
				+        sleep(2)
			
 
				+        search_el.clear()
			
 
				+        search_el.send_keys(keyword)
			
 
				+
			
 
				+        # 点击搜索
			
 
				+        search_btn = self.driver.find_element(
			
 
				+            By.XPATH, "//form[@id='searchForm']/input[@id='doSearch2']"
			
 
				+        )
			
 
				+        sleep(1)
			
 
				+        search_btn.click()
			
 
				+
			
 
				+        # 等待结果加载
			
 
				+        self._next_count = 0
			
 
				+        self._wait_for(
			
 
				+            ec.presence_of_element_located((By.CLASS_NAME, "vT-srch-result")),
			
 
				+            message="搜索结果加载超时",
			
 
				+        )
			
 
				+
			
 
				+        # 设置时间范围
			
 
				+        self._set_search_date()
			
 
				+
			
 
				+        # 获取结果列表
			
 
				+        items = self.driver.find_elements(
			
 
				+            By.XPATH, "//ul[@class='vT-srch-result-list-bid']/li/a"
			
 
				+        )
			
 
				+        return items
			
 
				+
			
 
				+    def _set_search_date(self) -> None:
			
 
				+        """设置搜索时间范围"""
			
 
				+        try:
			
 
				+            if self._search_txt != self._default_search_txt:
			
 
				                 last_els = self.driver.find_elements(By.XPATH, "//ul[@id='datesel']/li")
			
 
				                 for last_el in last_els:
			
 
				-                    if search_txt == last_el.text:
			
 
				+                    if self._search_txt == last_el.text:
			
 
				                         sleep(1)
			
 
				                         last_el.click()
			
 
				                         break
			
 
				-                if not self._wait_until(
			
 
				-                    ec.presence_of_element_located((By.CLASS_NAME, "vT-srch-result"))
			
 
				-                ):
			
 
				-                    return []
			
 
				+
			
 
				+                self._wait_for(
			
 
				+                    ec.presence_of_element_located((By.CLASS_NAME, "vT-srch-result")),
			
 
				+                    message="设置时间范围后页面加载超时",
			
 
				+                )
			
 
				             else:
			
 
				                 sleep(1)
			
 
				-            try:
			
 
				-                p_els = self.driver.find_elements(
			
 
				-                    By.XPATH, "//body/div[@class='vT_z']/div/div/p"
			
 
				-                )
			
 
				-                if len(p_els) > 0:
			
 
				-                    utils.get_logger().debug(f" {p_els[0].text}")
			
 
				-                else:
			
 
				-                    a_links = self.driver.find_elements(
			
 
				-                        By.XPATH, "//div[@class='vT-srch-result-list']/p/a"
			
 
				-                    )
			
 
				-                    count = len(a_links)
			
 
				-                    if count > 1:
			
 
				-                        count = count - 1
			
 
				-                    utils.get_logger().debug(f"共查询到 {count} 页,每页 20 条")
			
 
				-            except Exception as e:
			
 
				-                utils.get_logger().error(f"搜索失败[尝试查询页数]: {e}")
			
 
				-            items = self.driver.find_elements(
			
 
				-                By.XPATH, "//ul[@class='vT-srch-result-list-bid']/li/a"
			
 
				-            )
			
 
				-            return items
			
 
				-        except TimeoutException as e:
			
 
				-            raise Exception(f"搜索失败 [{self._adapter_type}] [超时]: {e}")
			
 
				-        except NoSuchElementException as e:
			
 
				-            raise Exception(f"搜索失败 [{self._adapter_type}] [找不到元素]: {e}")
			
 
				 
			
 
				-    def _process_list(self, items: list) -> list:
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"设置时间范围失败: {e}")
			
 
				+
			
 
				+    def _process_list(self, items: List) -> None:
			
 
				+        """处理数据列表
			
 
				+
			
 
				+        Args:
			
 
				+            items: 数据列表
			
 
				+        """
			
 
				         if not items:
			
 
				-            return []
			
 
				+            return
			
 
				+
			
 
				+        # 处理当前页
			
 
				         for item in items:
			
 
				             self._process_item(item)
			
 
				         sleep(2)
			
 
				+
			
 
				+        # 处理下一页
			
 
				         next_items = self._next_page()
			
 
				-        if len(items) <= 0:
			
 
				-            return []
			
 
				-        return self._process_list(next_items)
			
 
				+        if next_items:
			
 
				+            self._process_list(next_items)
			
 
				 
			
 
				-    def _next_page(self) -> list:
			
 
				+    def _next_page(self) -> Optional[List]:
			
 
				+        """获取下一页数据"""
			
 
				         try:
			
 
				+            # 查找下一页按钮
			
 
				             next_path = "//div[@class='vT-srch-result-list']/p/a[@class='next']"
			
 
				             try:
			
 
				                 btn = self.driver.find_element(By.XPATH, next_path)
			
 
				             except NoSuchElementException:
			
 
				-                utils.get_logger().debug(f"翻页结束 [{self._adapter_type}]")
			
 
				-                return []
			
 
				+                self.logger.debug("已到最后一页")
			
 
				+                return None
			
 
				+
			
 
				+            # 点击下一页
			
 
				             btn.click()
			
 
				             self._next_count += 1
			
 
				-            utils.get_logger().debug(
			
 
				-                f"下一页[{self._next_count+1}]: {self.driver.current_url}"
			
 
				-            )
			
 
				+            self.logger.debug(f"下一页[{self._next_count+1}]")
			
 
				             sleep(1)
			
 
				-            if not self._wait_until(
			
 
				-                ec.presence_of_element_located((By.CLASS_NAME, "vT-srch-result"))
			
 
				-            ):
			
 
				-                return []
			
 
				+
			
 
				+            # 等待页面加载
			
 
				+            self._wait_for(
			
 
				+                ec.presence_of_element_located((By.CLASS_NAME, "vT-srch-result")),
			
 
				+                message="下一页加载超时",
			
 
				+            )
			
 
				+
			
 
				+            # 获取数据列表
			
 
				             items = self.driver.find_elements(
			
 
				                 By.XPATH, "//ul[@class='vT-srch-result-list-bid']/li/a"
			
 
				             )
			
 
				             return items
			
 
				+
			
 
				         except NoSuchElementException as e:
			
 
				-            raise Exception(f"翻页失败 [{self._adapter_type}] [找不到元素]: {e}")
			
 
				-        except TimeoutException as e:
			
 
				-            raise Exception(f"翻页失败 [{self._adapter_type}] [超时]: {e}")
			
 
				+            raise Exception(f"页面元素未找到: {e}")
			
 
				 
			
 
				-    def _process_item(self, item):
			
 
				+    def _process_item(self, item) -> None:
			
 
				+        """处理单条数据"""
			
 
				         main_handle = self.driver.current_window_handle
			
 
				         close = True
			
 
				+
			
 
				         try:
			
 
				+            # 检查URL是否已采集
			
 
				             url = item.get_attribute("href")
			
 
				             if self._check_is_collect_by_url(url):
			
 
				                 close = False
			
 
				                 return
			
 
				-            utils.get_logger().debug(f"跳转详情")
			
 
				+
			
 
				+            # 打开详情页
			
 
				+            self.logger.debug("打开详情页")
			
 
				             sleep(1)
			
 
				             item.click()
			
 
				-            if not self._wait_until(ec.number_of_windows_to_be(2)):
			
 
				-                return
			
 
				+
			
 
				+            # 切换窗口
			
 
				+            self._wait_for(ec.number_of_windows_to_be(2), message="新窗口打开超时")
			
 
				+
			
 
				             handles = self.driver.window_handles
			
 
				             for handle in handles:
			
 
				                 if handle != main_handle:
			
 
				                     self.driver.switch_to.window(handle)
			
 
				                     break
			
 
				-            if not self._wait_until(
			
 
				-                ec.presence_of_element_located((By.TAG_NAME, "body"))
			
 
				-            ):
			
 
				-                return
			
 
				 
			
 
				+            # 等待页面加载
			
 
				+            self._wait_for(
			
 
				+                ec.presence_of_element_located((By.TAG_NAME, "body")),
			
 
				+                message="详情页加载超时",
			
 
				+            )
			
 
				+
			
 
				+            # 获取内容
			
 
				             content = self.driver.find_element(
			
 
				                 By.XPATH, "//div[@class='vF_deail_maincontent']"
			
 
				             ).text
			
 
				-            # 排除其他公告
			
 
				+
			
 
				+            # 判断公告类型
			
 
				             if self._check_type("其他公告"):
			
 
				                 self._save_db(url, content, 3, is_invalid=True)
			
 
				                 return
			
 
				-            # 判断是否为投标公告
			
 
				+
			
 
				             data_type = (
			
 
				                 1
			
 
				                 if self._check_type("中标公告")
			
@@ -174,20 +215,19 @@ class CcgpDataCollectionAdapter(IDataCollectionAdapter):
 
				                 or self._check_type("终止公告")
			
 
				                 else 0
			
 
				             )
			
 
				+
			
 
				+            # 检查关键词并保存
			
 
				             if self._check_content(content):
			
 
				                 attach_str = self._attach_download()
			
 
				                 self._save_db(url, content, data_type, attach_str)
			
 
				             else:
			
 
				                 self._save_db(url, content, data_type, is_invalid=True)
			
 
				+
			
 
				         except TimeoutException as e:
			
 
				-            utils.get_logger().error(
			
 
				-                f"采集发生异常 [{self._adapter_type}] Timeout: {self.driver.current_url}。Exception: {e}"
			
 
				-            )
			
 
				+            self.logger.error(f"处理数据超时: {e}")
			
 
				         except NoSuchElementException as e:
			
 
				-            utils.get_logger().error(
			
 
				-                f"采集发生异常 [{self._adapter_type}] NoSuchElement: {self.driver.current_url}。Exception: {e}"
			
 
				-            )
			
 
				-            raise Exception(f"采集失败 [{self._adapter_type}] [找不到元素]: {e}")
			
 
				+            self.logger.error(f"页面元素未找到: {e}")
			
 
				+            raise
			
 
				         finally:
			
 
				             if close:
			
 
				                 sleep(1)
			
@@ -195,56 +235,75 @@ class CcgpDataCollectionAdapter(IDataCollectionAdapter):
 
				                 self.driver.switch_to.window(main_handle)
			
 
				 
			
 
				     def _check_type(self, type_str: str) -> bool:
			
 
				+        """检查公告类型
			
 
				+
			
 
				+        Args:
			
 
				+            type_str: 类型文本
			
 
				+
			
 
				+        Returns:
			
 
				+            bool: 是否匹配
			
 
				+        """
			
 
				         links = self.driver.find_elements(By.LINK_TEXT, type_str)
			
 
				-        if len(links) > 0:
			
 
				-            utils.get_logger().info(f"{type_str}")
			
 
				+        if links:
			
 
				+            self.logger.info(f"公告类型: {type_str}")
			
 
				             return True
			
 
				         return False
			
 
				 
			
 
				-    def _attach_download(self):
			
 
				+    def _attach_download(self) -> Optional[str]:
			
 
				+        """下载附件
			
 
				+
			
 
				+        Returns:
			
 
				+            str: 附件路径
			
 
				+        """
			
 
				         paths = []
			
 
				 
			
 
				+        # 查找附件链接
			
 
				         attach_els = self.driver.find_elements(
			
 
				             By.XPATH, "//td[@class='bid_attachtab_content']/a"
			
 
				         )
			
 
				         attach_2_els = self.driver.find_elements(By.XPATH, "//a[@ignore='1']")
			
 
				-        # 合并两个列表
			
 
				         all_attachments = attach_els + attach_2_els
			
 
				-        utils.get_logger().debug(
			
 
				-            f"附件检索数量: {len(attach_els)}/{len(attach_2_els)}/{len(all_attachments)}"
			
 
				+
			
 
				+        self.logger.debug(
			
 
				+            f"附件数量: {len(attach_els)}/{len(attach_2_els)}/{len(all_attachments)}"
			
 
				         )
			
 
				+
			
 
				+        # 下载附件
			
 
				         attach_urls = []
			
 
				-        if len(all_attachments) > 0:
			
 
				-            for attach_el in all_attachments:
			
 
				+        for attach_el in all_attachments:
			
 
				+            try:
			
 
				+                # 获取附件信息
			
 
				                 attach_url = attach_el.get_attribute("href")
			
 
				-                if attach_url not in attach_urls:
			
 
				-                    attach_urls.append(attach_url)
			
 
				-                else:
			
 
				-                    utils.get_logger().info(f"重复附件: {attach_url}")
			
 
				+                if attach_url in attach_urls:
			
 
				+                    self.logger.info(f"重复附件: {attach_url}")
			
 
				                     continue
			
 
				+                attach_urls.append(attach_url)
			
 
				+
			
 
				+                # 获取文件名
			
 
				                 file_name = (
			
 
				                     attach_el.text
			
 
				                     or attach_el.get_attribute("download")
			
 
				                     or attach_url.split("/")[-1]
			
 
				                 )
			
 
				-                if not file_name:
			
 
				-                    continue
			
 
				-                # 检查 file_name 是否包含文件扩展名
			
 
				-                if "." not in file_name:
			
 
				-                    utils.get_logger().warning(
			
 
				-                        f"文件名 {file_name} 不包含扩展名，跳过下载。"
			
 
				-                    )
			
 
				+                if not file_name or "." not in file_name:
			
 
				+                    self.logger.warning(f"无效文件名: {file_name}")
			
 
				                     continue
			
 
				-                utils.get_logger().debug(
			
 
				-                    f"开始下载附件: {file_name} 链接: {attach_url}"
			
 
				-                )
			
 
				+
			
 
				+                # 下载文件
			
 
				+                self.logger.debug(f"下载附件: {file_name}")
			
 
				                 path = utils.download_remote_file(attach_url, file_name)
			
 
				                 if path:
			
 
				-                    utils.get_logger().debug(f"下载附件路径: {path}")
			
 
				+                    self.logger.debug(f"下载成功: {path}")
			
 
				                     paths.append(path)
			
 
				                 else:
			
 
				-                    utils.get_logger().warning(f"下载附件失败: {file_name}")
			
 
				+                    self.logger.warning(f"下载失败: {file_name}")
			
 
				+
			
 
				+            except Exception as e:
			
 
				+                self.logger.error(f"处理附件失败: {e}")
			
 
				+                continue
			
 
				+
			
 
				+        # 返回附件路径
			
 
				         attach_str = ",".join(paths)
			
 
				         if attach_str:
			
 
				-            utils.get_logger().info(f"附件下载完成: {attach_str}")
			
 
				+            self.logger.info(f"附件下载完成: {attach_str}")
			
 
				         return attach_str
			
--- a/SourceCode/TenderCrawler/app/adapters/chinabidding_data_collection_adapter.py
+++ b/SourceCode/TenderCrawler/app/adapters/chinabidding_data_collection_adapter.py
@@ -1,206 +1,287 @@
 
				 from time import sleep
			
 
				+from typing import List, Optional
			
 
				 
			
 
				 from selenium.common.exceptions import TimeoutException, NoSuchElementException
			
 
				 from selenium.webdriver.common.by import By
			
 
				 from selenium.webdriver.support import expected_conditions as ec
			
 
				-from selenium.webdriver.support.wait import WebDriverWait
			
 
				 
			
 
				 import utils
			
 
				 from adapters.data_collection_adapter_interface import IDataCollectionAdapter
			
 
				-from stores.data_store_interface import IDataStore
			
 
				 
			
 
				 
			
 
				 class ChinabiddingDataCollectionAdapter(IDataCollectionAdapter):
			
 
				-    """
			
 
				-    中国招标网数据采集适配器
			
 
				-    """
			
 
				-
			
 
				-    def __init__(self, url: str, store: IDataStore = None):
			
 
				-        self._url = url
			
 
				-        self._store = store
			
 
				-        self._driver = None
			
 
				-        self._keyword = None
			
 
				-        self._adapter_type = "chinabidding"
			
 
				-        self._next_count = 0
			
 
				+    """中国采购与招标网数据采集适配器"""
			
 
				+
			
 
				+    def __init__(self, url: str):
			
 
				+        """初始化适配器
			
 
				+
			
 
				+        Args:
			
 
				+            url: 目标网站URL
			
 
				+        """
			
 
				+        super().__init__(url, "chinabidding", "全部")
			
 
				 
			
 
				     def login(self, username: str, password: str) -> None:
			
 
				+        """登录网站
			
 
				+
			
 
				+        Args:
			
 
				+            username: 用户名
			
 
				+            password: 密码
			
 
				+        """
			
 
				         try:
			
 
				+            # 点击登录按钮
			
 
				             login_el = self.driver.find_element(
			
 
				                 By.XPATH, "//div[@id='loginRight']/a[@class='login']"
			
 
				             )
			
 
				             login_el.click()
			
 
				-            wait = WebDriverWait(self.driver, 10, 1)
			
 
				-            wait.until(ec.presence_of_element_located((By.ID, "userpass")))
			
 
				-            # if not self._wait_until(
			
 
				-            #     ec.presence_of_element_located((By.ID, "userpass"))
			
 
				-            # ):
			
 
				-            #     raise TimeoutException(f"id='userpass' 元素没有找到")
			
 
				+
			
 
				+            # 等待登录框加载
			
 
				+            self._wait_for(
			
 
				+                ec.presence_of_element_located((By.ID, "userpass")),
			
 
				+                timeout=10,
			
 
				+                message="登录框加载超时",
			
 
				+            )
			
 
				+
			
 
				+            # 输入用户名密码
			
 
				             un_el = self.driver.find_element(By.ID, "username")
			
 
				             un_el.send_keys(username)
			
 
				             pass_el = self.driver.find_element(By.ID, "userpass")
			
 
				             pass_el.send_keys(password)
			
 
				+
			
 
				+            # 点击登录
			
 
				             login_btn = self.driver.find_element(By.ID, "login-button")
			
 
				             login_btn.click()
			
 
				-            wait.until(ec.presence_of_element_located((By.ID, "site-content")))
			
 
				-            # if not self._wait_until(ec.presence_of_element_located((By.ID, "site-content"))):
			
 
				-            #     raise TimeoutException(f"id='site-content' 元素没有找到")
			
 
				+
			
 
				+            # 等待登录成功
			
 
				+            self._wait_for(
			
 
				+                ec.presence_of_element_located((By.ID, "site-content")),
			
 
				+                message="登录成功页面加载超时",
			
 
				+            )
			
 
				+            self.logger.info("登录成功")
			
 
				+
			
 
				         except TimeoutException as e:
			
 
				-            raise Exception(f"登录失败 [{self._adapter_type}] [超时]: {e}")
			
 
				+            raise Exception(f"登录超时: {e}")
			
 
				         except NoSuchElementException as e:
			
 
				-            raise Exception(f"登录失败 [{self._adapter_type}] [找不到元素]: {e}")
			
 
				+            raise Exception(f"页面元素未找到: {e}")
			
 
				 
			
 
				-    def _collect(self, keyword: str):
			
 
				-        items = self._search_by_type(keyword, 0)
			
 
				-        self._process_list(items, 0)
			
 
				-        sleep(2)
			
 
				-        items = self._search_by_type(keyword, 1)
			
 
				-        self._process_list(items, 1)
			
 
				-        if utils.get_config_bool(self.batch_save_key):
			
 
				-            self.store.save_collect_data(True)
			
 
				+    def _collect(self, keyword: str) -> None:
			
 
				+        """执行数据采集
			
 
				 
			
 
				-    def _search_by_type(self, keyword: str, data_type):
			
 
				+        Args:
			
 
				+            keyword: 单个搜索关键词
			
 
				+        """
			
 
				         try:
			
 
				-            self.driver.get(self._url)
			
 
				-            if data_type == 0:
			
 
				-                utils.get_logger().info(f"开始采集 招标公告")
			
 
				-                el = self.driver.find_element(
			
 
				-                    By.XPATH, "//div[@id='z-b-g-g']/h2/a[@class='more']"
			
 
				-                )
			
 
				-            else:
			
 
				-                utils.get_logger().info(f"开始采集 中标结果公告")
			
 
				-                el = self.driver.find_element(
			
 
				-                    By.XPATH, "//div[@id='z-b-jg-gg']/h2/a[@class='more']"
			
 
				-                )
			
 
				-            el.click()
			
 
				-            if not self._wait_until(ec.number_of_windows_to_be(2)):
			
 
				-                return []
			
 
				-            self.driver.close()
			
 
				-            self.driver.switch_to.window(self.driver.window_handles[0])
			
 
				-            return self._search(keyword)
			
 
				-        except TimeoutException as e:
			
 
				-            raise Exception(f"搜索失败 [{self._adapter_type}] [超时]: {e}")
			
 
				-        except NoSuchElementException as e:
			
 
				-            raise Exception(f"搜索失败 [{self._adapter_type}] [找不到元素]: {e}")
			
 
				 
			
 
				-    def _search(self, keyword: str) -> list:
			
 
				-        if not self._wait_until(
			
 
				-            ec.presence_of_element_located((By.ID, "searchBidProjForm"))
			
 
				-        ):
			
 
				-            return []
			
 
				+            self.logger.info(f"开始采集关键词: {keyword}, 时间范围: {self._search_txt}")
			
 
				+
			
 
				+            # 采集招标公告
			
 
				+            self.logger.info("开始采集招标公告")
			
 
				+            items = self._search_by_type(keyword, 0)
			
 
				+            self._process_list(items, 0)
			
 
				+            sleep(2)
			
 
				+
			
 
				+            # 采集中标公告
			
 
				+            self.logger.info("开始采集中标公告")
			
 
				+            items = self._search_by_type(keyword, 1)
			
 
				+            self._process_list(items, 1)
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"采集失败: {e}")
			
 
				+            raise
			
 
				+
			
 
				+    def _search_by_type(self, keyword: str, data_type: int) -> List:
			
 
				+        """根据类型搜索数据
			
 
				+
			
 
				+        Args:
			
 
				+            keyword: 搜索关键词
			
 
				+            data_type: 数据类型(0:招标,1:中标)
			
 
				+
			
 
				+        Returns:
			
 
				+            List: 搜索结果列表
			
 
				+        """
			
 
				+        # 打开首页
			
 
				+        self.driver.get(self.url)
			
 
				+
			
 
				+        # 选择公告类型
			
 
				+        if data_type == 0:
			
 
				+            el = self.driver.find_element(
			
 
				+                By.XPATH, "//div[@id='z-b-g-g']/h2/a[@class='more']"
			
 
				+            )
			
 
				+        else:
			
 
				+            el = self.driver.find_element(
			
 
				+                By.XPATH, "//div[@id='z-b-jg-gg']/h2/a[@class='more']"
			
 
				+            )
			
 
				+        el.click()
			
 
				+
			
 
				+        # 切换窗口
			
 
				+        self._wait_for(ec.number_of_windows_to_be(2), message="新窗口打开超时")
			
 
				+
			
 
				+        self.driver.close()
			
 
				+        self.driver.switch_to.window(self.driver.window_handles[0])
			
 
				+
			
 
				+        # 执行搜索
			
 
				+        return self._search(keyword)
			
 
				+
			
 
				+    def _search(self, keyword: str) -> List:
			
 
				+        """执行搜索"""
			
 
				+        # 等待搜索框加载
			
 
				+        self._wait_for(
			
 
				+            ec.presence_of_element_located((By.ID, "searchBidProjForm")),
			
 
				+            message="搜索框加载超时",
			
 
				+        )
			
 
				+
			
 
				+        # 输入关键词
			
 
				         search_el = self.driver.find_element(
			
 
				             By.XPATH, "//form[@id='searchBidProjForm']/ul/li/input[@id='fullText']"
			
 
				         )
			
 
				         search_el.clear()
			
 
				         search_el.send_keys(keyword)
			
 
				+
			
 
				+        # 点击搜索
			
 
				         search_btn = self.driver.find_element(
			
 
				             By.XPATH, "//form[@id='searchBidProjForm']/ul/li/button"
			
 
				         )
			
 
				         search_btn.click()
			
 
				+
			
 
				+        # 等待结果加载
			
 
				         self._next_count = 0
			
 
				-        if not self._wait_until(
			
 
				-            ec.presence_of_element_located((By.ID, "site-content"))
			
 
				-        ):
			
 
				-            return []
			
 
				-        default_search_txt = "全部"
			
 
				-        search_txt = utils.get_config_value(self.search_day_key, default_search_txt)
			
 
				-        utils.get_logger().debug(f"搜索日期条件: {search_txt}")
			
 
				-        if search_txt != default_search_txt:
			
 
				-            last_el = self.driver.find_element(By.LINK_TEXT, search_txt)
			
 
				-            sleep(1)
			
 
				-            last_el.click()
			
 
				-            if not self._wait_until(
			
 
				-                ec.presence_of_element_located((By.ID, "site-content"))
			
 
				-            ):
			
 
				-                return []
			
 
				-        else:
			
 
				-            sleep(1)
			
 
				-        try:
			
 
				-            a_links = self.driver.find_elements(
			
 
				-                By.XPATH, "//form[@id='pagerSubmitForm']/a"
			
 
				-            )
			
 
				-            count = len(a_links)
			
 
				-            if count > 1:
			
 
				-                count = count - 1
			
 
				-            utils.get_logger().debug(f"共查询到 {count} 页,每页 10 条")
			
 
				-        except Exception as e:
			
 
				-            utils.get_logger().error(f"搜索失败[尝试查询页数]: {e}")
			
 
				+        self._wait_for(
			
 
				+            ec.presence_of_element_located((By.ID, "site-content")),
			
 
				+            message="搜索结果加载超时",
			
 
				+        )
			
 
				+
			
 
				+        # 设置时间范围
			
 
				+        self._set_search_date()
			
 
				+
			
 
				+        # 获取结果列表
			
 
				         items = self.driver.find_elements(By.XPATH, "//ul[@class='as-pager-body']/li/a")
			
 
				         return items
			
 
				 
			
 
				-    def _process_list(self, items: list, data_type) -> list:
			
 
				+    def _set_search_date(self) -> None:
			
 
				+        """设置搜索时间范围"""
			
 
				+        try:
			
 
				+            if self._search_txt != self._default_search_txt:
			
 
				+                last_el = self.driver.find_element(By.LINK_TEXT, self._search_txt)
			
 
				+                sleep(1)
			
 
				+                last_el.click()
			
 
				+
			
 
				+                self._wait_for(
			
 
				+                    ec.presence_of_element_located((By.ID, "site-content")),
			
 
				+                    message="设置时间范围后页面加载超时",
			
 
				+                )
			
 
				+            else:
			
 
				+                sleep(1)
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"设置时间范围失败: {e}")
			
 
				+
			
 
				+    def _process_list(self, items: List, data_type: int) -> None:
			
 
				+        """处理数据列表
			
 
				+
			
 
				+        Args:
			
 
				+            items: 数据列表
			
 
				+            data_type: 数据类型(0:招标,1:中标)
			
 
				+        """
			
 
				         if not items:
			
 
				-            return []
			
 
				+            return
			
 
				+
			
 
				+        # 处理当前页
			
 
				         for item in items:
			
 
				             self._process_item(item, data_type)
			
 
				         sleep(2)
			
 
				+
			
 
				+        # 处理下一页
			
 
				         next_items = self._next_page()
			
 
				-        return self._process_list(next_items, data_type)
			
 
				+        if next_items:
			
 
				+            self._process_list(next_items, data_type)
			
 
				+
			
 
				+    def _next_page(self) -> Optional[List]:
			
 
				+        """获取下一页数据
			
 
				 
			
 
				-    def _next_page(self) -> list:
			
 
				+        Returns:
			
 
				+            List: 下一页数据列表
			
 
				+        """
			
 
				         try:
			
 
				+            # 查找下一页按钮
			
 
				             try:
			
 
				                 btn = self.driver.find_element(
			
 
				                     By.XPATH, "//form[@id='pagerSubmitForm']/a[@class='next']"
			
 
				                 )
			
 
				             except NoSuchElementException:
			
 
				-                utils.get_logger().debug(f"翻页结束 [{self._adapter_type}]")
			
 
				-                return []
			
 
				+                self.logger.debug("已到最后一页")
			
 
				+                return None
			
 
				+
			
 
				+            # 点击下一页
			
 
				             btn.click()
			
 
				             self._next_count += 1
			
 
				-            utils.get_logger().debug(
			
 
				-                f"下一页[{self._next_count+1}]: {self.driver.current_url}"
			
 
				+            self.logger.debug(f"下一页[{self._next_count+1}]")
			
 
				+
			
 
				+            # 等待页面加载
			
 
				+            self._wait_for(
			
 
				+                ec.presence_of_element_located((By.ID, "site-content")),
			
 
				+                message="下一页加载超时",
			
 
				             )
			
 
				-            if not self._wait_until(
			
 
				-                ec.presence_of_element_located((By.ID, "site-content"))
			
 
				-            ):
			
 
				-                return []
			
 
				+
			
 
				+            # 获取数据列表
			
 
				             items = self.driver.find_elements(
			
 
				                 By.XPATH, "//ul[@class='as-pager-body']/li/a"
			
 
				             )
			
 
				             return items
			
 
				+
			
 
				         except NoSuchElementException as e:
			
 
				-            raise Exception(f"翻页失败 [{self._adapter_type}] [找不到元素]: {e}")
			
 
				-        except TimeoutException as e:
			
 
				-            raise Exception(f"翻页失败 [{self._adapter_type}] [超时]: {e}")
			
 
				+            raise Exception(f"页面元素未找到: {e}")
			
 
				 
			
 
				-    def _process_item(self, item, data_type):
			
 
				+    def _process_item(self, item, data_type: int) -> None:
			
 
				+        """处理单条数据
			
 
				+
			
 
				+        Args:
			
 
				+            item: 数据项
			
 
				+            data_type: 数据类型(0:招标,1:中标)
			
 
				+        """
			
 
				         main_handle = self.driver.current_window_handle
			
 
				         close = True
			
 
				+
			
 
				         try:
			
 
				+            # 检查URL是否已采集
			
 
				             url = item.get_attribute("href")
			
 
				             if self._check_is_collect_by_url(url):
			
 
				                 close = False
			
 
				                 return
			
 
				+
			
 
				+            # 打开详情页
			
 
				             item.click()
			
 
				-            if not self._wait_until(ec.number_of_windows_to_be(2)):
			
 
				-                return
			
 
				+            self._wait_for(ec.number_of_windows_to_be(2), message="新窗口打开超时")
			
 
				+
			
 
				+            # 切换窗口
			
 
				             handles = self.driver.window_handles
			
 
				             for handle in handles:
			
 
				                 if handle != main_handle:
			
 
				                     self.driver.switch_to.window(handle)
			
 
				                     break
			
 
				+
			
 
				+            # 获取URL
			
 
				             url = self.driver.current_url
			
 
				-            utils.get_logger().debug(f"跳转详情")
			
 
				-            if not self._wait_until(
			
 
				-                ec.presence_of_element_located((By.CLASS_NAME, "content"))
			
 
				-            ):
			
 
				-                return
			
 
				+            self.logger.debug(f"打开详情页: {url}")
			
 
				+
			
 
				+            # 等待内容加载
			
 
				+            self._wait_for(
			
 
				+                ec.presence_of_element_located((By.CLASS_NAME, "content")),
			
 
				+                message="详情页加载超时",
			
 
				+            )
			
 
				+
			
 
				+            # 获取内容
			
 
				             content = self.driver.find_element(By.CLASS_NAME, "content").text
			
 
				+
			
 
				+            # 检查关键词并保存
			
 
				             if self._check_content(content):
			
 
				                 self._save_db(url, content, data_type)
			
 
				             else:
			
 
				                 self._save_db(url, content, data_type, is_invalid=True)
			
 
				 
			
 
				         except TimeoutException as e:
			
 
				-            utils.get_logger().error(
			
 
				-                f"采集发生异常 [{self._adapter_type}] Timeout: {self.driver.current_url}。Exception: {e}"
			
 
				-            )
			
 
				-            # raise Exception(f"采集失败 [超时]: {e}")
			
 
				+            self.logger.error(f"处理数据超时: {e}")
			
 
				         except NoSuchElementException as e:
			
 
				-            utils.get_logger().error(
			
 
				-                f"采集发生异常 [{self._adapter_type}] NoSuchElement: {self.driver.current_url}。Exception: {e}"
			
 
				-            )
			
 
				-            raise Exception(f"采集失败 [{self._adapter_type}] [找不到元素]: {e}")
			
 
				+            self.logger.error(f"页面元素未找到: {e}")
			
 
				+            raise
			
 
				         finally:
			
 
				             if close:
			
 
				                 sleep(2)
			
--- a/SourceCode/TenderCrawler/app/adapters/data_collection_adapter_interface.py
+++ b/SourceCode/TenderCrawler/app/adapters/data_collection_adapter_interface.py
@@ -1,9 +1,10 @@
 
				 from abc import ABC, abstractmethod
			
 
				-from typing import Callable, Union, Literal
			
 
				+from typing import Optional, List, Any
			
 
				+from datetime import datetime
			
 
				 
			
 
				-from selenium import webdriver
			
 
				+from selenium.webdriver.remote.webdriver import WebDriver
			
 
				+from selenium.webdriver.support.wait import WebDriverWait
			
 
				 from selenium.common.exceptions import TimeoutException
			
 
				-from selenium.webdriver.support.wait import WebDriverWait, D, T
			
 
				 
			
 
				 import drivers
			
 
				 import utils
			
@@ -12,221 +13,261 @@ from stores.data_store_interface import IDataStore
 
				 
			
 
				 
			
 
				 class IDataCollectionAdapter(ABC):
			
 
				-    """
			
 
				-    数据收集适配器抽象类
			
 
				-    """
			
 
				-
			
 
				-    _url = ""
			
 
				-    _store = None
			
 
				-    _driver = None
			
 
				-    _adapter_type = ""
			
 
				-    _cur_keyword = None
			
 
				-    _keywords = None
			
 
				-    _keyword_array = None
			
 
				-    _error_count = 0
			
 
				-    _max_error_count = utils.get_config_int("adapter.max_error_count", 3)
			
 
				-
			
 
				-    _err_keywords = {}
			
 
				+    """数据采集适配器基类"""
			
 
				+
			
 
				+    def __init__(self, url: str, adapter_type: str, default_search_txt: str = ""):
			
 
				+        """初始化适配器
			
 
				+
			
 
				+        Args:
			
 
				+            url: 目标网站URL
			
 
				+        """
			
 
				+        self._url = url
			
 
				+        self._adapter_type = adapter_type
			
 
				+        self._default_search_txt = default_search_txt
			
 
				+        self._search_txt = utils.get_config_value(
			
 
				+            self.search_day_key, default_search_txt
			
 
				+        )
			
 
				+        self._next_count = 0
			
 
				+
			
 
				+        self._store: Optional[IDataStore] = None
			
 
				+        self._driver: Optional[WebDriver] = None
			
 
				+        self._adapter_type = ""
			
 
				+        self._keyword = None
			
 
				+        self._keywords: List[str] = []
			
 
				+        self._timeout = utils.get_config_int("selenium.page_load_timeout", 30)
			
 
				+        self._max_retries = utils.get_config_int("adapter.max_retries", 3)
			
 
				+        self._retry_keywords: dict = {}  # 记录重试关键词及次数
			
 
				+
			
 
				+        try:
			
 
				+            # 初始化WebDriver
			
 
				+            self._driver = drivers.gen_driver(url)
			
 
				+            self.logger.info(f"初始化WebDriver成功: {url}")
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"初始化WebDriver失败: {e}")
			
 
				+            raise
			
 
				 
			
 
				     @property
			
 
				-    def search_day_key(self) -> str:
			
 
				-        return f"adapter.{self._adapter_type}.search_day"
			
 
				+    def logger(self):
			
 
				+        return utils.get_logger()
			
 
				 
			
 
				     @property
			
 
				-    def batch_save_key(self) -> str:
			
 
				-        return f"adapter.{self._adapter_type}.batch_save"
			
 
				+    def driver(self) -> WebDriver:
			
 
				+        return self._driver
			
 
				 
			
 
				     @property
			
 
				     def store(self) -> IDataStore:
			
 
				         return self._store
			
 
				 
			
 
				     @property
			
 
				-    def url(self):
			
 
				+    def url(self) -> str:
			
 
				         return self._url
			
 
				 
			
 
				     @property
			
 
				-    def cur_keyword(self):
			
 
				-        return self._cur_keyword
			
 
				+    def keyword(self) -> str:
			
 
				+        return self._keyword
			
 
				 
			
 
				     @property
			
 
				-    def keywords(self):
			
 
				-        return self._keywords
			
 
				+    def adapter_type(self) -> str:
			
 
				+        return self._adapter_type
			
 
				 
			
 
				     @property
			
 
				-    def keyword_array(self):
			
 
				-        return self._keyword_array
			
 
				+    def batch_save_key(self) -> str:
			
 
				+        return f"adapter.{self._adapter_type}.batch_save"
			
 
				 
			
 
				     @property
			
 
				-    def driver(self) -> webdriver:
			
 
				-        if not self._driver:
			
 
				-            try:
			
 
				-                self._driver = drivers.gen_driver(self.url)
			
 
				-            except Exception as e:
			
 
				-                raise Exception(f"创建驱动器失败: {e}")
			
 
				-        return self._driver
			
 
				+    def search_day_key(self) -> str:
			
 
				+        return f"adapter.{self._adapter_type}.search_day"
			
 
				 
			
 
				-    def collect(self, keywords: str, store: IDataStore) -> None:
			
 
				-        """
			
 
				-        处理搜索结果列表，返回处理后的数据列表
			
 
				-
			
 
				-        :param keywords: 搜索结果列表
			
 
				-        :param store: 数据储存库
			
 
				-        :type keywords: str
			
 
				-        :return: 处理后的数据列表
			
 
				-        :rtype: list
			
 
				-        :raises Exception: 如果处理失败，应抛出异常
			
 
				+    def collect(self, keyword: str, store: Optional[IDataStore] = None) -> None:
			
 
				+        """执行数据采集
			
 
				+
			
 
				+        Args:
			
 
				+            keyword: 搜索关键词,多个关键词以逗号分隔
			
 
				+            store: 数据存储器
			
 
				         """
			
 
				-        if store:
			
 
				+        try:
			
 
				             self._store = store
			
 
				-        if not keywords:
			
 
				-            raise Exception("未指定搜索关键字")
			
 
				-        utils.get_logger().info(f"开始采集: {keywords}")
			
 
				-        self._error_count = 0
			
 
				-        self._keyword_array = keywords.split(",")
			
 
				-        count = 0
			
 
				-        for keyword in self._keyword_array:
			
 
				-            if not keyword:
			
 
				-                continue
			
 
				-            try:
			
 
				-                count += 1
			
 
				-                self._cur_keyword = keyword
			
 
				-                utils.get_logger().info(f"采集关键字[{count}]: {keyword}")
			
 
				-                self._error_count = 0
			
 
				-                self._collect(keyword)
			
 
				-                if self.cur_keyword in self._err_keywords:
			
 
				-                    del self._err_keywords[self.cur_keyword]  # 删除键
			
 
				-            except Exception as e:
			
 
				-                utils.get_logger().error(f"==> {e}")
			
 
				-            # except Exception as e:
			
 
				-            #     raise Exception(f"采集数据失败: {e}")
			
 
				-        self._collect_error_keywords()
			
 
				+            self._keyword = keyword
			
 
				+            self._keywords = utils.to_array(keyword)
			
 
				+            self._retry_keywords.clear()
			
 
				 
			
 
				-    @abstractmethod
			
 
				-    def login(self, username: str, password: str) -> None:
			
 
				-        """
			
 
				-        如果需要登录，则登录后跳转到搜索页面（不自动跳转的需要手动执行）
			
 
				+            # 首次采集所有关键词
			
 
				+            for kw in self._keywords:
			
 
				+                try:
			
 
				+                    self.logger.debug(f"开始采集关键词: {kw}")
			
 
				+                    self._collect(kw)
			
 
				+                except TimeoutException as e:
			
 
				+                    self.logger.warning(f"采集关键词 {kw} 超时: {e}")
			
 
				+                    self._retry_keywords[kw] = 1
			
 
				+                    continue
			
 
				+                except Exception as e:
			
 
				+                    self.logger.error(f"采集关键词 {kw} 失败: {e}")
			
 
				+                    continue
			
 
				 
			
 
				-        :param username: 用户名
			
 
				-        :type username: str
			
 
				-        :param password: 密码
			
 
				-        :type password: str
			
 
				-        :raises Exception: 如果登录失败，应抛出异常
			
 
				-        """
			
 
				-        try:
			
 
				-            # 实现登录逻辑
			
 
				-            pass
			
 
				-        except Exception as e:
			
 
				-            raise Exception(f"登录失败: {e}")
			
 
				+            # 重试超时的关键词
			
 
				+            while self._retry_keywords:
			
 
				+                retry_kws = list(self._retry_keywords.keys())
			
 
				+                for kw in retry_kws:
			
 
				+                    retry_count = self._retry_keywords[kw]
			
 
				+                    if retry_count >= self._max_retries:
			
 
				+                        self.logger.error(f"关键词 {kw} 超过最大重试次数")
			
 
				+                        del self._retry_keywords[kw]
			
 
				+                        continue
			
 
				+
			
 
				+                    try:
			
 
				+                        self.logger.info(f"重试采集关键词[{retry_count}]: {kw}")
			
 
				+                        self._collect(kw)
			
 
				+                        del self._retry_keywords[kw]
			
 
				+                    except TimeoutException as e:
			
 
				+                        self.logger.warning(f"重试采集关键词 {kw} 超时: {e}")
			
 
				+                        self._retry_keywords[kw] = retry_count + 1
			
 
				+                        continue
			
 
				+                    except Exception as e:
			
 
				+                        self.logger.error(f"重试采集关键词 {kw} 失败: {e}")
			
 
				+                        del self._retry_keywords[kw]
			
 
				+                        continue
			
 
				 
			
 
				-    def _wait(self, timeout=20, poll_frequency=1):
			
 
				-        return WebDriverWait(self.driver, timeout, poll_frequency)
			
 
				+            # 批量保存
			
 
				+            if utils.get_config_bool(self.batch_save_key):
			
 
				+                self.store.save_collect_data(True)
			
 
				 
			
 
				-    def _wait_until(
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"采集失败: {e}")
			
 
				+            raise
			
 
				+        finally:
			
 
				+            self.cleanup()
			
 
				+
			
 
				+    def _wait_for(
			
 
				         self,
			
 
				-        method: Callable[[D], Union[Literal[False], T]],
			
 
				-        timeout=20,
			
 
				-        poll_frequency=1,
			
 
				-    ) -> bool:
			
 
				-        try:
			
 
				-            self._wait(timeout, poll_frequency).until(method)
			
 
				-            return True
			
 
				-        except TimeoutException:
			
 
				-            err_count = (
			
 
				-                self._err_keywords[self.cur_keyword]
			
 
				-                if self.cur_keyword in self._err_keywords
			
 
				-                else 0
			
 
				-            )
			
 
				-            err_count += 1
			
 
				-            utils.get_logger().error(
			
 
				-                f"采集数据 超时 [{self.cur_keyword}][{err_count}/{self._max_error_count}]"
			
 
				-            )
			
 
				-            self._err_keywords[self.cur_keyword] = err_count
			
 
				-            if err_count > self._max_error_count:
			
 
				-                del self._err_keywords[self.cur_keyword]  # 删除键
			
 
				-            return False
			
 
				-            # raise TimeoutException(
			
 
				-            #     f"采集数据 超时 {self.cur_keyword} [{err_count}/{self._max_error_count}]"
			
 
				-            # )
			
 
				-
			
 
				-    def _collect_error_keywords(self):
			
 
				-        if not self._err_keywords:
			
 
				-            return
			
 
				-        for keyword, err_count in self._err_keywords.items():
			
 
				-            try:
			
 
				-                utils.get_logger().info(
			
 
				-                    f"重新采集错误关键字[{err_count}/{self._max_error_count}]: {keyword}"
			
 
				-                )
			
 
				-                self._cur_keyword = keyword
			
 
				-                self._collect(keyword)
			
 
				-                if self.cur_keyword in self._err_keywords:
			
 
				-                    del self._err_keywords[self.cur_keyword]  # 删除键
			
 
				-            except Exception as e:
			
 
				-                utils.get_logger().error(f"失败: {e}")
			
 
				-        self._collect_error_keywords()
			
 
				+        condition: Any,
			
 
				+        timeout: Optional[int] = None,
			
 
				+        message: Optional[str] = None,
			
 
				+    ) -> Any:
			
 
				+        """等待条件满足
			
 
				 
			
 
				-    @abstractmethod
			
 
				-    def _collect(self, keyword: str) -> None:
			
 
				-        """
			
 
				-        根据关键字采集
			
 
				-        :param keyword: 搜索关键字
			
 
				-        :type keyword: str
			
 
				-        """
			
 
				-        pass
			
 
				+        Args:
			
 
				+            condition: 等待条件
			
 
				+            timeout: 超时时间(秒),默认使用全局超时时间
			
 
				+            message: 超时错误消息
			
 
				+
			
 
				+        Returns:
			
 
				+            Any: 条件满足时的返回值
			
 
				 
			
 
				-    def teardown(self) -> None:
			
 
				+        Raises:
			
 
				+            TimeoutException: 等待超时
			
 
				         """
			
 
				-        关闭浏览器驱动器
			
 
				+        if not timeout:
			
 
				+            timeout = self._timeout
			
 
				+
			
 
				+        wait = WebDriverWait(self.driver, timeout)
			
 
				+        return wait.until(condition, message)
			
 
				+
			
 
				+    def _check_is_collect_by_url(self, url: str) -> bool:
			
 
				+        """检查URL是否已采集
			
 
				 
			
 
				-        :raises Exception: 如果关闭驱动器失败，应抛出异常
			
 
				+        Args:
			
 
				+            url: 目标URL
			
 
				+
			
 
				+        Returns:
			
 
				+            bool: 是否已采集
			
 
				         """
			
 
				+        if not self.store:
			
 
				+            return False
			
 
				         try:
			
 
				-            if self.driver:
			
 
				-                self.driver.quit()
			
 
				+            old = self.store.query_one_collect_url(url)
			
 
				+            if old:
			
 
				+                self.logger.debug(f"URL已采集: {url}")
			
 
				+                return True
			
 
				+            return False
			
 
				         except Exception as e:
			
 
				-            raise Exception(f"关闭驱动器失败: {e}")
			
 
				+            self.logger.error(f"检查URL采集状态失败: {e}")
			
 
				+            return False
			
 
				 
			
 
				-    def _check_is_collect_by_url(self, url: str) -> bool:
			
 
				-        old = self.store.query_one_collect_url(url)
			
 
				-        if old:
			
 
				-            utils.get_logger().debug(f"已采集过: {url}")
			
 
				-            return True
			
 
				-        return False
			
 
				+    def _check_content(self, content: str) -> bool:
			
 
				+        """检查内容是否包含关键词
			
 
				 
			
 
				-    def _check_content(self, content) -> bool:
			
 
				-        collect_data_key = utils.get_config_value("save.collect_data_key")
			
 
				-        if not collect_data_key:
			
 
				-            utils.get_logger().info("未配置 save.collect_data_key，跳过内容检查")
			
 
				+        Args:
			
 
				+            content: 内容文本
			
 
				+
			
 
				+        Returns:
			
 
				+            bool: 是否包含关键词
			
 
				+        """
			
 
				+        if not content:
			
 
				+            return False
			
 
				+
			
 
				+        # 使用当前正在处理的关键词进行匹配
			
 
				+        if self._keyword in content:
			
 
				+            self.logger.info(f"内容包含关键词: {self._keyword}")
			
 
				             return True
			
 
				-        # utils.get_logger().info(f"检查数据有效性: {collect_data_key}")
			
 
				-        collect_data_key = collect_data_key.replace("，", ",")
			
 
				-        keys = collect_data_key.split(",")
			
 
				-        keys = [key.strip() for key in keys]
			
 
				-        for key in keys:
			
 
				-            key = key.strip()
			
 
				-            # utils.get_logger().info(f"检查数据有效性: {key}")
			
 
				-            if key in content:
			
 
				-                utils.get_logger().info(f"有效数据: {self.driver.current_url}")
			
 
				-                return True
			
 
				 
			
 
				         return False
			
 
				 
			
 
				-    def _save_db(self, url, content, data_type=0, attach_str=None, is_invalid=False):
			
 
				+    def _save_db(
			
 
				+        self,
			
 
				+        url: str,
			
 
				+        content: str,
			
 
				+        data_type: int = 0,
			
 
				+        attach_str: str = None,
			
 
				+        is_invalid: bool = False,
			
 
				+    ) -> bool:
			
 
				+        """保存数据到数据库
			
 
				+
			
 
				+        Args:
			
 
				+            url: 数据URL
			
 
				+            content: 数据内容
			
 
				+            data_type: 数据类型(0:招标,1:中标)
			
 
				+            attach_str: 附件路径
			
 
				+            is_invalid: 是否无效数据
			
 
				+
			
 
				+        Returns:
			
 
				+            bool: 是否保存成功
			
 
				+        """
			
 
				         if not self.store:
			
 
				-            utils.get_logger().info(
			
 
				-                f"DataStore 未指定: {url}，关键字{self.cur_keyword}"
			
 
				-            )
			
 
				+            self.logger.info(f"未设置存储器: {url}")
			
 
				             return False
			
 
				-        else:
			
 
				+
			
 
				+        try:
			
 
				             status = 2 if is_invalid else 0
			
 
				             data = CollectData(
			
 
				                 url=url,
			
 
				-                keyword=self.cur_keyword,
			
 
				+                keyword=self.keyword,
			
 
				                 content=content,
			
 
				                 data_type=data_type,
			
 
				                 attach_path=attach_str,
			
 
				                 status=status,
			
 
				+                create_time=datetime.now(),
			
 
				             )
			
 
				             self.store.insert_collect_data(
			
 
				                 data, utils.get_config_bool(self.batch_save_key)
			
 
				             )
			
 
				             return True
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"保存数据失败: {e}")
			
 
				+            return False
			
 
				+
			
 
				+    def cleanup(self):
			
 
				+        """清理资源"""
			
 
				+        try:
			
 
				+            if self.driver:
			
 
				+                self.driver.quit()
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"清理资源失败: {e}")
			
 
				+
			
 
				+    @abstractmethod
			
 
				+    def login(self, username: str, password: str) -> None:
			
 
				+        """登录网站
			
 
				+
			
 
				+        Args:
			
 
				+            username: 用户名
			
 
				+            password: 密码
			
 
				+        """
			
 
				+        pass
			
 
				+
			
 
				+    @abstractmethod
			
 
				+    def _collect(self, keyword: str) -> None:
			
 
				+        """采集数据
			
 
				+
			
 
				+        Args:
			
 
				+            keyword: 搜索关键词
			
 
				+        """
			
 
				+        pass
			
--- a/SourceCode/TenderCrawler/app/config.yml
+++ b/SourceCode/TenderCrawler/app/config.yml
@@ -1,18 +1,20 @@
 
				 #file: noinspection SpellCheckingInspection,SpellCheckingInspection,SpellCheckingInspection
			
 
				 adapter:
			
 
				-  max_error_count: 5
			
 
				+  max_retries: 3
			
 
				   chinabidding:
			
 
				     #search_day: '今天'
			
 
				     search_day: '近一周'
			
 
				     model_name: 'chinabidding_data_collection_adapter'
			
 
				     class_name: 'ChinabiddingDataCollectionAdapter'
			
 
				     batch_save: True
			
 
				+    timeout: 30
			
 
				   ccgp:
			
 
				     #search_day: '今日'
			
 
				     search_day: '近3日'
			
 
				     model_name: 'ccgp_data_collection_adapter'
			
 
				-    class_name: 'CcgpDataCollectionAdapter'
			
 
				+    class_name: 'CCGPDataCollectionAdapter'
			
 
				     batch_save: False
			
 
				+    timeout: 30
			
 
				 default_area: '全国'
			
 
				 logger:
			
 
				   file-path: './logs/'
			
@@ -31,53 +33,53 @@ mysql:
 
				   password: Iwb-2024
			
 
				   charset: utf8mb4
			
 
				 ai:
			
 
				-#  url: http://192.168.0.109:7580/api/chat
			
 
				-#  model: qwen2.5:7b
			
 
				+  #  url: http://192.168.0.109:7580/api/chat
			
 
				+  #  model: qwen2.5:7b
			
 
				   key: sk-febca8fea4a247f096cedeea9f185520
			
 
				   url: https://dashscope.aliyuncs.com/compatible-mode/v1
			
 
				   model: qwen-plus
			
 
				   max_tokens: 1024
			
 
				-  system_prompt: "从给定信息中提取出关键信息，并以给定的类型返回json字符串，如果部分信息为空，则该字段返回为空"
			
 
				-  prompt_template_1: "在以上内容中提取招标信息：
			
 
				-            ```typescript
			
 
				-            export interface Tender { //招标信息
			
 
				-                no: string; // 招标项目编号
			
 
				-                title: string; // 招标公告标题
			
 
				-                province: string; // 招标单位省份
			
 
				-                city: string; // 招标单位城市
			
 
				-                date: string; // 项目开标的时间
			
 
				-                address: string; // 项目开标的地点
			
 
				-                release_date: string; // 招标信息的发布时间
			
 
				-                summary: string; // 100字左右的招标条件，联系方式等内容摘要
			
 
				-                devices: string; // 只涉及到光谱仪相关的设备，其他无关设备不需要，多个设备以逗号分割 ，例如 红外光谱仪,拉曼光谱仪等
			
 
				-            }
			
 
				-            ```"
			
 
				-  prompt_template_2: "在以上内容中提取中标信息：
			
 
				-            ```typescript
			
 
				-            export interface Instrument { // 中标仪器信息
			
 
				-              company: string; // 中标单位名称，参与竞标并中标的公司名称
			
 
				-              name: string; // 仪器名称，例如：红外光谱仪
			
 
				-              manufacturer: string; // 仪器厂商，例如：赛默飞、Bruker
			
 
				-              model: string; // 仪器的型号/规格，例如：NIR25S
			
 
				-              quantity: number; // 中标仪器的数量，台数，例如：2
			
 
				-              unit_price: number; // 仪器的单价，单位转换为元，例如：178000.00
			
 
				-            }
			
 
				-            export interface BiddingAcceptance { //中标信息
			
 
				-              no: string; // 项目编号
			
 
				-              title: string; // 中标公告标题
			
 
				-              date: string; // 中标公告时间
			
 
				-              province: string; // 招标单位省份
			
 
				-              city: string; // 招标单位城市
			
 
				-              summary: string; // 公告摘要信息，100字左右
			
 
				-              instruments: Instrument[]; // 中标设备的信息
			
 
				-            }
			
 
				-            ```"
			
 
				+  system_prompt: '从给定信息中提取出关键信息，并以给定的类型返回json字符串，如果部分信息为空，则该字段返回为空'
			
 
				+  prompt_template_1: '在以上内容中提取招标信息：
			
 
				+    ```typescript
			
 
				+    export interface Tender { //招标信息
			
 
				+    no: string; // 招标项目编号
			
 
				+    title: string; // 招标公告标题
			
 
				+    province: string; // 招标单位省份
			
 
				+    city: string; // 招标单位城市
			
 
				+    date: string; // 项目开标的时间
			
 
				+    address: string; // 项目开标的地点
			
 
				+    release_date: string; // 招标信息的发布时间
			
 
				+    summary: string; // 100字左右的招标条件，联系方式等内容摘要
			
 
				+    devices: string; // 只涉及到光谱仪相关的设备，其他无关设备不需要，多个设备以逗号分割 ，例如 红外光谱仪,拉曼光谱仪等
			
 
				+    }
			
 
				+    ```'
			
 
				+  prompt_template_2: '在以上内容中提取中标信息：
			
 
				+    ```typescript
			
 
				+    export interface Instrument { // 中标仪器信息
			
 
				+    company: string; // 中标单位名称，参与竞标并中标的公司名称
			
 
				+    name: string; // 仪器名称，例如：红外光谱仪
			
 
				+    manufacturer: string; // 仪器厂商，例如：赛默飞、Bruker
			
 
				+    model: string; // 仪器的型号/规格，例如：NIR25S
			
 
				+    quantity: number; // 中标仪器的数量，台数，例如：2
			
 
				+    unit_price: number; // 仪器的单价，单位转换为元，例如：178000.00
			
 
				+    }
			
 
				+    export interface BiddingAcceptance { //中标信息
			
 
				+    no: string; // 项目编号
			
 
				+    title: string; // 中标公告标题
			
 
				+    date: string; // 中标公告时间
			
 
				+    province: string; // 招标单位省份
			
 
				+    city: string; // 招标单位城市
			
 
				+    summary: string; // 公告摘要信息，100字左右
			
 
				+    instruments: Instrument[]; // 中标设备的信息
			
 
				+    }
			
 
				+    ```'
			
 
				 email:
			
 
				-#  smtp_server: smtp.exmail.qq.com
			
 
				-#  smtp_port: 465
			
 
				-#  smtp_user: yueyy@iwbnet.com
			
 
				-#  smtp_password: EXN38AtT97FX635c
			
 
				-#  from_email: yueyy@iwbnet.com
			
 
				+  #  smtp_server: smtp.exmail.qq.com
			
 
				+  #  smtp_port: 465
			
 
				+  #  smtp_user: yueyy@iwbnet.com
			
 
				+  #  smtp_password: EXN38AtT97FX635c
			
 
				+  #  from_email: yueyy@iwbnet.com
			
 
				   smtp_server: smtp.163.com
			
 
				   smtp_port: 465
			
 
				   smtp_user: yueyunyun88@163.com
			
@@ -98,7 +100,10 @@ job:
 
				   clean_data: 00:05 # 每日清理数据时间
			
 
				   run_now: false
			
 
				 selenium:
			
 
				-  remote_driver_url: http://127.0.0.1:3534/wd/hub
			
 
				+  remote_driver_url: 'http://127.0.0.1:3534/wd/hub'
			
 
				+  page_load_timeout: 30
			
 
				+  implicit_wait: 10
			
 
				+  headless: true
			
 
				 clean:
			
 
				   day: 30 # 清理多少天前的数据 0不清理
			
 
				   # 下面的没有配置 默认使用 day 的配置
			
--- a/SourceCode/TenderCrawler/app/jobs/data_collector.py
+++ b/SourceCode/TenderCrawler/app/jobs/data_collector.py
@@ -1,36 +1,56 @@
 
				 import importlib
			
 
				+from typing import Optional
			
 
				 
			
 
				-from selenium import webdriver
			
 
				+from selenium.webdriver.remote.webdriver import WebDriver
			
 
				 
			
 
				 import adapters
			
 
				 import utils
			
 
				 from adapters.data_collection_adapter_interface import IDataCollectionAdapter
			
 
				 from stores.data_store_interface import IDataStore
			
 
				-from stores.default_data_store import DefaultDataStore
			
 
				 
			
 
				 
			
 
				 class DataCollector:
			
 
				-
			
 
				-    _adapter = None
			
 
				-    _driver = None
			
 
				-    _store = None
			
 
				+    """数据采集器"""
			
 
				 
			
 
				     def __init__(
			
 
				         self, adapter_type: str, url: str, un: str, up: str, store: IDataStore = None
			
 
				     ):
			
 
				-        self._adapter = self._gen_adapter(adapter_type, url)
			
 
				-        self._driver = self.adapter.driver
			
 
				-        # if type == "chinabidding":
			
 
				-        #     return
			
 
				-        self.adapter.login(un, up)
			
 
				-        if store:
			
 
				-            self._store = store
			
 
				-        else:
			
 
				-            self._store = DefaultDataStore()
			
 
				+        """
			
 
				+        初始化数据采集器
			
 
				+
			
 
				+        Args:
			
 
				+            adapter_type: 适配器类型
			
 
				+            url: 目标URL
			
 
				+            un: 用户名
			
 
				+            up: 密码
			
 
				+            store: 数据存储器(可选)
			
 
				+        """
			
 
				+        self._adapter: Optional[IDataCollectionAdapter] = None
			
 
				+        self._store: Optional[IDataStore] = None
			
 
				+        self._retry_count = 0
			
 
				+        self._max_retries = utils.get_config_int("adapter.max_retries", 3)
			
 
				+
			
 
				+        try:
			
 
				+            self._adapter = self._gen_adapter(adapter_type, url)
			
 
				+
			
 
				+            if store:
			
 
				+                self._store = store
			
 
				+
			
 
				+            # 登录处理
			
 
				+            if un and up:
			
 
				+                self.adapter.login(un, up)
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"初始化采集器失败: {e}")
			
 
				+            raise
			
 
				+
			
 
				+    @property
			
 
				+    def logger(self):
			
 
				+        return utils.get_logger()
			
 
				 
			
 
				     @property
			
 
				-    def driver(self) -> webdriver:
			
 
				-        return self._driver
			
 
				+    def driver(self) -> WebDriver:
			
 
				+        return self.adapter.driver
			
 
				 
			
 
				     @property
			
 
				     def store(self) -> IDataStore:
			
@@ -40,43 +60,89 @@ class DataCollector:
 
				     def adapter(self) -> IDataCollectionAdapter:
			
 
				         return self._adapter
			
 
				 
			
 
				-    def set_store(self, store: IDataStore) -> None:
			
 
				-        self._store = store
			
 
				-
			
 
				     def collect(self, keywords: str):
			
 
				+        """
			
 
				+        执行数据采集
			
 
				+
			
 
				+        Args:
			
 
				+            keywords: 搜索关键词,多个关键词用逗号分隔
			
 
				+        """
			
 
				         if not self.store:
			
 
				             raise Exception("未设置存储器")
			
 
				-        adapters.collect(self.adapter, keywords, self.store)
			
 
				+
			
 
				+        try:
			
 
				+            self.logger.info(f"开始采集数据, 关键词: {keywords}")
			
 
				+            self._retry_count = 0
			
 
				+
			
 
				+            while self._retry_count < self._max_retries:
			
 
				+                try:
			
 
				+                    adapters.collect(self.adapter, keywords, self.store)
			
 
				+                    break
			
 
				+                except Exception as e:
			
 
				+                    self._retry_count += 1
			
 
				+                    if self._retry_count >= self._max_retries:
			
 
				+                        self.logger.error(f"采集失败,已达最大重试次数: {e}")
			
 
				+                        raise
			
 
				+                    self.logger.warning(
			
 
				+                        f"采集失败,准备第{self._retry_count}次重试: {e}"
			
 
				+                    )
			
 
				+                    self._reset_adapter()
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"采集过程发生异常: {e}")
			
 
				+            raise
			
 
				 
			
 
				     def close(self):
			
 
				-        utils.get_logger().info(f"关闭浏览器驱动，URL: {self.adapter.url}")
			
 
				-        adapters.teardown(self.adapter)
			
 
				+        """关闭采集器,释放资源"""
			
 
				+        try:
			
 
				+            pass
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"关闭采集器失败: {e}")
			
 
				+
			
 
				+    def _reset_adapter(self):
			
 
				+        """重置适配器状态"""
			
 
				+        try:
			
 
				+            self._adapter = self._gen_adapter(
			
 
				+                self.adapter.adapter_type, self.adapter.url
			
 
				+            )
			
 
				+        except Exception as e:
			
 
				+            self.logger.error(f"重置适配器失败: {e}")
			
 
				+            raise
			
 
				 
			
 
				     @staticmethod
			
 
				-    def _gen_adapter(adapter_type: str, url: str):
			
 
				+    def _gen_adapter(adapter_type: str, url: str) -> IDataCollectionAdapter:
			
 
				+        """
			
 
				+        生成数据源适配器
			
 
				+
			
 
				+        Args:
			
 
				+            adapter_type: 适配器类型
			
 
				+            url: 目标URL
			
 
				+
			
 
				+        Returns:
			
 
				+            IDataCollectionAdapter: 适配器实例
			
 
				+        """
			
 
				         adapter_model_name = utils.get_config_value(
			
 
				             f"adapter.{adapter_type}.model_name"
			
 
				         )
			
 
				         adapter_class_name = utils.get_config_value(
			
 
				             f"adapter.{adapter_type}.class_name"
			
 
				         )
			
 
				-        if adapter_class_name:
			
 
				-            try:
			
 
				-                utils.get_logger().info(
			
 
				-                    f"生成适配器 TYPE：{adapter_type}，适配器: {adapter_class_name}，URL：{url}"
			
 
				-                )
			
 
				-                # 使用 importlib 动态导入模块
			
 
				-                adapter_module = importlib.import_module(
			
 
				-                    f"adapters.{adapter_model_name}"
			
 
				-                )
			
 
				-                adapter_class = getattr(adapter_module, adapter_class_name)
			
 
				-                adapter = adapter_class(url)
			
 
				-            except ImportError as e:
			
 
				-                raise ImportError(f"无法导入适配器模块 {adapter_model_name}") from e
			
 
				-            except AttributeError as e:
			
 
				-                raise AttributeError(
			
 
				-                    f"适配器模块 {adapter_model_name} 中找不到类 {adapter_class_name}"
			
 
				-                ) from e
			
 
				-        else:
			
 
				+
			
 
				+        if not adapter_class_name:
			
 
				             raise Exception("不支持的适配器类型")
			
 
				-        return adapter
			
 
				+
			
 
				+        try:
			
 
				+            utils.get_logger().info(
			
 
				+                f"生成适配器 TYPE：{adapter_type}，适配器: {adapter_class_name}，URL：{url}"
			
 
				+            )
			
 
				+            adapter_module = importlib.import_module(f"adapters.{adapter_model_name}")
			
 
				+            adapter_class = getattr(adapter_module, adapter_class_name)
			
 
				+            adapter = adapter_class(url)
			
 
				+            return adapter
			
 
				+
			
 
				+        except ImportError as e:
			
 
				+            raise ImportError(f"无法导入适配器模块 {adapter_model_name}") from e
			
 
				+        except AttributeError as e:
			
 
				+            raise AttributeError(
			
 
				+                f"适配器模块 {adapter_model_name} 中找不到类 {adapter_class_name}"
			
 
				+            ) from e