Profilo di Stew

Nome Stew
Indirizzo email n/a
Messaggi3
  • Re: Qualcuno Pratico di Scrapy
    Forum >> Principianti
    Si l'ho letta, ma probabilmente c'è qualcosa che mi sfugge
  • Re: Qualcuno Pratico di Scrapy
    Forum >> Principianti
    Ciao Daniele il mio spider è il seguente:



    import scrapy
    
    
    
    class ItemSpider(scrapy.Spider):
        name = "idealista"
        start_urls = [
            
            'https://www.idealista.it/affitto-case/roma/appio-latino/con-prezzo_800,pubblicato_ultimo-mese/',
           
        ]
    
        def parse(self, response):
            for item in response.css('div.items-container'):
                yield {
                    'title': item.css("a.item-link::text").extract(),
                    'price': item.css("span.item-price::text").extract_first()
                    'img' : item.css
                }
    
            next_page = response.css('li.next a::attr(href)').extract_first()
            if next_page is not None:
                next_page = response.urljoin(next_page)
                yield scrapy.Request(next_page, callback=self.parse)
    

    da come vedi esegue lo scrape sul sito idealista, riesco ad avere indietro il titolo e il prezzo, il link immagini e il permalink del titolo degli annunci assolutamente no, le ho provate tutte. Inoltre quando ci sono più di 2 risultati nella pagina, i "title" li mette tutti nella seconda riga del file csv che genero, di seguito il marckup html che teoricamente dovrebbe essere quello dove lo spider pesca i dati:
    http://pastebin.com/YppMMYvj
     



    --- Ultima modifica di Stew in data 2017-02-03 22:37:08 ---
  • Qualcuno Pratico di Scrapy
    Forum >> Principianti
    Ciao a tutti sono nuovo mi chiamo Stefano



    In questi giorni sto provando ad utilizzare lo script Python Scrapy, tutto funziona per bene ma ho seri problemi ad indentificare i selettori CSS, mi chiedevo se qualcuno potesse darmi una mano.

    Grazie