今年职住到12分不多，大部分是10分，看来明年增幅不会小啊

水木社区手机版

主题:今年职住到12分不多，大部分是10分，看来明年增幅不会小啊
楼主|S9412|2023-07-10 16:17:03|只看此ID
随机看了几十个，

- 来自水木社区APP v3.5.7
--
FROM 223.104.38.*
1楼|Qlala|2023-07-10 22:23:32|只看此ID
职住完全不加分的只有416人
10分的有2633 远超去年的265人，郊区住宅明年才加满的人仍有大笔
如此看明年增速可观
【在 S9412 的大作中提到: 】
: 随机看了几十个，
: - 来自水木社区APP v3.5.7
--
FROM 120.244.200.*
2楼|zdx|2023-07-10 22:24:59|只看此ID
另外今年纳税涨幅挺猛啊，增加了一千多人…
--
FROM 111.198.229.*
3楼|lc21999|2023-07-11 06:17:01|只看此ID
能提供一下您抓出来的清单吗？谢谢！
【在 Qlala 的大作中提到: 】
: 职住完全不加分的只有416人
: 10分的有2633 远超去年的265人，郊区住宅明年才加满的人仍有大笔
: 如此看明年增速可观
: ...................
--来自微微水木3.5.14
--
FROM 123.113.80.*
4楼|Qlala|2023-07-11 08:47:07|只看此ID
import requests
from bs4 import BeautifulSoup
import csv

'''
    <thead>
    <tr>
        <th height="40" bgcolor="#0867b7">公示编号</th>
        <th height="40" bgcolor="#0867b7">姓名</th>
        <th height="40" bgcolor="#0867b7">出生年月</th>
        <th height="40" bgcolor="#0867b7">单位名称</th>
        <th height="40" bgcolor="#0867b7">积分分值</th>
        <th height="40" bgcolor="#0867b7">操作</th>
    </tr>
    </thead>
    <tbody>
            <tr>
                <td height="35" align="center">202300001</td>
                <td height="35" align="center">张浩</td>
                <td height="35" align="center">1977-02</td>
                <td height="35" align="center">北京首钢股份有限公司</td>
                <td height="35" align="center">140.05</td>
                <td height="35" align="center">
                    <a style="font-size:16px;" href="javascript:void(0);" onclick="showDetails('375202')">查看</a>
                </td>
            </tr>
'''

# Set the base URL and page number
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
site = 'http://fuwu.rsj.beijing.gov.cn/jfgs2023integralpublic/settlePerson/tablePage?name=&rows={}&page={}'

def getDetail(id):
    url = 'http://fuwu.rsj.beijing.gov.cn/jfgs2023integralpublic/settlePerson/settlePersonDetails?id={}'
    url = url.format(id)
    detail = []
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, 'html.parser')

    table = soup.find('table')
    rows = table.find_all('tr')[1:]

    for row in rows:
        last = row.find_all('td')[-1].text
        detail.append(last)

    return detail

def main():
    people = []
    hdrs = []
    start = 0
    for page in range(61):
        url = site.format(100, page*100)
        # start += 100

        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.content, 'html.parser')

        thead = soup.find('thead')
        tbody = soup.find('tbody')

        hdrs = [th.text for th in thead.find_all('th')]
        hdrs += ['合法稳定就业', '合法稳定住所', '教育背景', '扣除取得学历（学位）期间累计的居住及就业分值', '职住区域', '创新创业', '纳税', '年龄', '荣誉表彰', '守法记录']
        rows = tbody.find_all('tr')

        for row in rows:
            cells = row.find_all('td')
            line = [cell.text.strip() for cell in cells]
            onclick = cells[-1].find('a')

            if onclick:
                onclick = onclick.get('onclick')
            if onclick:
                start = onclick.find('(') + 2
                end = onclick.find(')')-1
                param = onclick[start:end]
                line += (getDetail(param))
                people.append(line)

    with open('jflh.csv', 'w', newline='') as file:
        writer = csv.writer(file)
        writer.writerow(hdrs)
        for row in people:
            writer.writerow(row)

if __name__ == "__main__":
   main()
【在 lc21999 的大作中提到: 】
: 能提供一下您抓出来的清单吗？谢谢！
--
FROM 61.48.133.*
5楼|zutin|2023-07-12 13:15:02|只看此ID
运行要多久？

【在 Qlala 的大作中提到: 】
: import requests
: from bs4 import BeautifulSoup
: import csv
: ...................
--
FROM 120.133.15.*
6楼|Qlala|2023-07-12 15:29:50|只看此ID
很慢二三十分钟吧因为6000个人每个详单都要单独抓取

【在 zutin 的大作中提到: 】
: 运行要多久？
--
FROM 61.48.133.*
7楼|Qlala|2023-07-12 15:55:41|只看此ID
实际上今年加10的最多
后年开始分数增量能有缓解

【在 S9412 的大作中提到: 】
: 随机看了几十个，
: - 来自水木社区APP v3.5.7

--
FROM 61.48.133.*
8楼|zutin|2023-07-12 17:18:53|只看此ID
能在IDLE里逐个显示爬的结果么。
我小白哈，刚跑了一下你的代码，非常顺利就成功了，膜拜
【在 Qlala 的大作中提到: 】
: 很慢二三十分钟吧因为6000个人每个详单都要单独抓取
:
--
FROM 120.133.15.*
9楼|Qlala|2023-07-12 17:21:49|只看此ID
自己在循环里加个print(line)就行了

【在 zutin 的大作中提到: 】
: 能在IDLE里逐个显示爬的结果么。
: 我小白哈，刚跑了一下你的代码，非常顺利就成功了，膜拜
--
FROM 61.48.133.*