| Linguaggio di programmazione Python

Profilo di Stew

Nome	Stew
Indirizzo email	n/a
Messaggi	3

2017-02-04 06:52:37

Re: Qualcuno Pratico di Scrapy

Forum >> Principianti

Si l'ho letta, ma probabilmente c'è qualcosa che mi sfugge

2017-02-03 22:34:20

Re: Qualcuno Pratico di Scrapy

Forum >> Principianti

Ciao Daniele il mio spider è il seguente:

import scrapy



class ItemSpider(scrapy.Spider):
    name = "idealista"
    start_urls = [
        
        'https://www.idealista.it/affitto-case/roma/appio-latino/con-prezzo_800,pubblicato_ultimo-mese/',
       
    ]

    def parse(self, response):
        for item in response.css('div.items-container'):
            yield {
                'title': item.css("a.item-link::text").extract(),
                'price': item.css("span.item-price::text").extract_first()
                'img' : item.css
            }

        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

da come vedi esegue lo scrape sul sito idealista, riesco ad avere indietro il titolo e il prezzo, il link immagini e il permalink del titolo degli annunci assolutamente no, le ho provate tutte. Inoltre quando ci sono più di 2 risultati nella pagina, i "title" li mette tutti nella seconda riga del file csv che genero, di seguito il marckup html che teoricamente dovrebbe essere quello dove lo spider pesca i dati:
http://pastebin.com/YppMMYvj

--- Ultima modifica di Stew in data 2017-02-03 22:37:08 ---

2017-02-03 12:27:40

Qualcuno Pratico di Scrapy

Forum >> Principianti

Ciao a tutti sono nuovo mi chiamo Stefano

In questi giorni sto provando ad utilizzare lo script Python Scrapy, tutto funziona per bene ma ho seri problemi ad indentificare i selettori CSS, mi chiedevo se qualcuno potesse darmi una mano.

Grazie