Commit 5ea2b89c authored by jimmy's avatar jimmy

配置

parent e401b9b8
...@@ -6,15 +6,16 @@ import crawler_baidu ...@@ -6,15 +6,16 @@ import crawler_baidu
import crawler_boss import crawler_boss
import random import random
import requests import requests
import cyaml
#获取需要爬数据的企业 百度1 #获取需要爬数据的企业 百度1
def GetCompany(types): def GetCompany(types):
response = requests.get("http://192.168.25.19/smart-writing/company/spider-company", "type="+str(types), headers={"Content-Type": "application/json"}) response = requests.get(cyaml.data["env"]["url"]+cyaml.data["php-api"]["getcompany"], "type="+str(types), headers={"Content-Type": "application/json"})
if response.status_code == 200: if response.status_code == 200:
response_data = response.json() response_data = response.json()
return response_data["data"]["company_name"],response_data["data"]["url"] if response_data.get('name') is not None:
else: return response_data["data"]["company_name"],response_data["data"]["url"]
return "","" return "", ""
#回传爬虫获取到的数据 #回传爬虫获取到的数据
...@@ -27,7 +28,7 @@ def SaveCompanyData(name,types,intro): ...@@ -27,7 +28,7 @@ def SaveCompanyData(name,types,intro):
"type": types "type": types
} }
json_data = json.dumps(post_data) json_data = json.dumps(post_data)
response = requests.post("http://192.168.25.19/smart-writing/company/spider-company", data=json_data, headers={"Content-Type": "application/json"}) response = requests.post(cyaml.data["env"]["url"]+cyaml.data["php-api"]["getcompany"], data=json_data, headers={"Content-Type": "application/json"})
# 检查响应状态码 # 检查响应状态码
if response.status_code == 200: if response.status_code == 200:
......
from playwright.sync_api import Playwright, sync_playwright, expect
import re
import json
import datetime
import crawler
#爬虫启动
def CrawlerFutuNiuniu():
with sync_playwright() as playwright:
return GetFutuCompany(playwright)
def GetFutuCompany(playwright: Playwright) -> int:
browser = playwright.chromium.launch(headless=False)
context = browser.new_context(viewport={"width": 800, "height": 600})
page = context.new_page()
#获取需要爬取数据的公司
name,url = crawler.GetCompany(1)
if url!="":
page.goto(url)
all = page.locator(".lemma-summary").all_text_contents()
intro = re.sub(r'\[[\d-]+\]', '', str(all))
crawler.Log(name+"-获取到futu数据:"+intro)
if name != "" and intro != '[]':
name2 = crawler.SaveCompanyData(name, 1, intro)
if name2 != "":
crawler.Log(name2+":百度数据,写入成功")
return 100
else:
crawler.Log(name + ":百度数据,写入失败")
return 100
else:
crawler.Log(name +":百度数据,写入失败")
return 100
# ---------------------
context.close()
browser.close()
return 100
CrawlerFutuNiuniu()
\ No newline at end of file
import yaml
# 加载YAML文件
with open('yconf/config.yaml') as file:
data = yaml.load(file, Loader=yaml.FullLoader)
# print(data["env"]['url'])
...@@ -11,6 +11,11 @@ company_detail_el.count():0 ...@@ -11,6 +11,11 @@ company_detail_el.count():0
美皓医疗集团有限公司-获取到百度数据:[] 美皓医疗集团有限公司-获取到百度数据:[]
美皓医疗集团有限公司:百度数据,写入失败 美皓医疗集团有限公司:百度数据,写入失败
company_detail_el.count():3 company_detail_el.count():3
美皓医疗集团有限公司
绿景物业
绿景物业-获取到boss数据:深圳市绿景物业管理有限公司成立于1997年,是深圳市绿景地产(绿景中国HK00095)全资子公司,具有国家物业管理企业一级资质。目前管理项目遍布深圳各区,在珠海、惠阳、化州、苏州、益阳等地设有子分公司,涵盖住宅、写字楼、商场、产业园等业态,管理总面积超过400万平方米。未来,绿景物业将以绿景地产的发展为依托,继续秉承“客户至上、精诚服务”的服务宗旨,遵循“专为本、和致远”的价值主张,逐步打造具有自身特色的核心竞争力,成为一个具有行业影响力的物业管理品牌。 绿景物业-获取到boss数据:深圳市绿景物业管理有限公司成立于1997年,是深圳市绿景地产(绿景中国HK00095)全资子公司,具有国家物业管理企业一级资质。目前管理项目遍布深圳各区,在珠海、惠阳、化州、苏州、益阳等地设有子分公司,涵盖住宅、写字楼、商场、产业园等业态,管理总面积超过400万平方米。未来,绿景物业将以绿景地产的发展为依托,继续秉承“客户至上、精诚服务”的服务宗旨,遵循“专为本、和致远”的价值主张,逐步打造具有自身特色的核心竞争力,成为一个具有行业影响力的物业管理品牌。
人才是绿景物业宝贵的资产。我们提供具有社会竞争力的薪酬福利待遇,以及广阔的发展空间和培训机会,热忱欢迎物业管理精英的加盟,共同开创属于我们的事业。 人才是绿景物业宝贵的资产。我们提供具有社会竞争力的薪酬福利待遇,以及广阔的发展空间和培训机会,热忱欢迎物业管理精英的加盟,共同开创属于我们的事业。
绿景(中国)地产投资有限公司:boss数据,写入成功 绿景(中国)地产投资有限公司:boss数据,写入成功
上海证大房地产有限公司-获取到百度数据:['\n上海证大房地产有限公司于1992年11月9日成立,是一家主要从事物业业务的香港投资控股公司。\n\xa0\xa0\n']
上海证大房地产有限公司:百度数据,写入成功
#dwp-生产 test-测试 dev-开发
env: "dwp"
env-dwp:
randomtime: 120
url: "https://test.dwp.galaxy-immi.com/api"
env-test:
randomtime: 120
url: "https://test.dwp.galaxy-immi.com/api"
env-dev:
randomtime: 120
url: "https://test.dwp.galaxy-immi.com/api"
php-api:
getcompany: "/smart-writing/company/spider-company"
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment