当前位置：首页 > Software > Python > 正文内容

Python基于Searx进行信息搜索

chanra1n9个月前 (01-27)Python1197

Python版本：3.7

代码如下：

import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, as_completed
import logging
import time
from typing import List, Dict

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s [%(levelname)s] %(message)s',
    handlers=[
        logging.FileHandler('searx_search.log'),
        logging.StreamHandler()
    ]
)

# Searx实例列表URL
SEARX_INSTANCES_URL = 'https://data.myfpga.cn/searx.txt'

# 最大并发数
MAX_CONCURRENT = 3

class SearxSearcher:
    def __init__(self):
        self.session = requests.Session()
        self.session.headers.update({'User-Agent': 'Mozilla/5.0'})
        self.search_instances = self._load_instances()
        self.executor = ThreadPoolExecutor(max_workers=MAX_CONCURRENT)

    def _load_instances(self) -> List[str]:
        """从URL加载Searx实例列表"""
        try:
            response = self.session.get(SEARX_INSTANCES_URL, timeout=10)
            return [i.strip() for i in response.text.split('\n') if i.strip()][:10]
        except Exception as e:
            logging.error(f"实例加载失败: {str(e)}")
            return ["https://search.us.projectsegfau.lt"]

    def search(self, query: str, pages: int = 10) -> List[Dict]:
        """搜索并解析结果"""
        futures = {
            self.executor.submit(self._search_instance, instance, query, pages): instance
            for instance in self.search_instances[:MAX_CONCURRENT]
        }
        results = []
        for future in as_completed(futures):
            instance_results = future.result()  # 避免使用海象运算符
            if instance_results:
                results.extend(instance_results)
        return results[:pages * 10]  # 返回前10页的结果

    def _search_instance(self, instance: str, query: str, pages: int) -> List[Dict]:
        """在单个Searx实例上搜索并解析结果"""
        results = []
        for page in range(1, pages + 1):
            try:
                response = self.session.get(
                    f"{instance}/search",
                    params={
                        'q': query,
                        'category_general': 1,
                        'language': 'auto',
                        'time_range': '',
                        'safesearch': 0,
                        'theme': 'simple',
                        'pageno': page
                    },
                    timeout=15
                )
                if not response.ok:
                    logging.warning(f"请求失败: {instance} 第 {page} 页")
                    break

                soup = BeautifulSoup(response.text, 'html.parser')
                main_div = soup.find('div', id='results')
                if not main_div:
                    logging.warning(f"未找到结果: {instance} 第 {page} 页")
                    break

                for article in main_div.find_all('article', class_='result'):
                    title = article.find('h3').get_text(strip=True) if article.find('h3') else '无标题'
                    url = article.find('a', class_='url_header')['href'] if article.find('a', class_='url_header') else '无URL'
                    content = article.find('p', class_='content').get_text(strip=True) if article.find('p', class_='content') else '无内容'
                    results.append({
                        'title': title,
                        'url': url,
                        'content': content
                    })

                time.sleep(0.5)  # 防止请求过快
            except Exception as e:
                logging.error(f"解析失败: {instance} 第 {page} 页 - {str(e)}")
                break
        return results

if __name__ == "__main__":
    searcher = SearxSearcher()
    query = "myfpga.cn"
    results = searcher.search(query, pages=10)
    
    for i, result in enumerate(results, 1):
        print(f"结果 {i}:")
        print(f"标题: {result['title']}")
        print(f"URL: {result['url']}")
        print(f"内容: {result['content']}")
        print("-" * 80)

扫描二维码推送至手机访问。

本文链接：http://www.myfpga.cn/index.php/post/434.html

分享给朋友：

返回列表

上一篇：Smart Image Organizer Assistant 图片数据集重命名、清理，去重错误文件 Python实现

没有最新的文章了...

“Python基于Searx进行信息搜索” 的相关文章

安徽高考成绩批量查询-多种方法实现-python版本

...

2.Python中的基本运算

我们打开Python，请你尝试输入如下算式并尝试理解有什么为什么是这样的？1+1 1+1.0 1-2 2-3.5 1*1 1*1.1 1/2 2/1 2/3 3/2 3//2 3/1.0 5/2.5我们不难得到如下结果2 2.0 -1 -1.5 1 1.1 0.5...

math库的使用

math库包括4个数学常数math.pi 圆周率math.e 自然对数math.inf 正无穷大，负无穷大为-math.infmath.nan 非浮点数标记math库常用函数math.cell(x) 向上取整，返回不小于x的最小整数math.facto...

索引运算符【】

选择字符串的子序列语法【start：finish】 start：子序列开始位置的索引值 finish：子序列结束位置的下一个字符的索引值如果不提供start或者finish，默认start为第一个字符，finish为最后一个字符。例如>>>my_str=...

一文快速搞定基本Python

本文适宜有熟练其他高级语言编程基础的同行参阅，或复习用，转载请保留作者信息 Myfpga.cn Chanra1n输入输出#input输入命令，中间的即提示语，左面的a为输入的值存到哪里 a=input("请输入a的值:") #print()可以直接print("He...

体温打卡python 可通过账户密码获取对应ID号

仅用于学习和测试，请勿自动填报或者干任何违法的事情import datetime import hashlib import random from urllib.parse import quote import req...

Python基于Searx进行信息搜索

“Python基于Searx进行信息搜索” 的相关文章

安徽高考成绩批量查询-多种方法实现-python版本

2.Python中的基本运算

math库的使用

索引运算符【】

一文快速搞定基本Python

体温打卡python 可通过账户密码获取对应ID号

Copyright © MyFpga.cn 技术的执着 | 蜀ICP备19035584号-1 | | 川公网安备 51142202000123号版权所有 © 2019-2024, 陈语ChanRa1n(网站仅用于学习和教育目的). 由MyFPGA智慧中心驱动，主站访问统计(360奇安信)，Email:chenyu@myfpga.cn

Powered By Z-BlogPHP. Theme by TOYEAN.