[Puppeteer] evaluate() 함수에 변수 전달하기[Puppeteer] evaluate() 함수에 변수 전달하기

Posted at 2019. 9. 30. 19:49 | Posted in Node.js/Puppeteer
반응형




참고 : https://code-examples.net/ko/q/2bf409f






■ evaluate( ) 함수에 변수 전달하기




이전 [Puppeteer] 퍼펫티어를 이용한 CRAWLING 작업 포스팅에서


티스토리 로그인을 하는 예제를 조금 수정하여 작업을 진행한다.


해당 포스팅에서는 자바스크립트의 코드를 사용 할 수 있게 해주는


evaluate( ) 함수가 존재하고,


해당 evaluate( ) 함수에 변수값을 사용하는데 있어 아래와 같이 사용 한 경우 에러가 발생하였다.



 puppeteer_evaluate.js

const puppeteer = require("puppeteer");

// 사용시 인위적인 딜레이를 주기위한 함수
function delay( timeout ) {
return new Promise(( resolve ) => {
setTimeout( resolve, timeout );
});
}

puppeteer.launch( { headless : true } ).then(async browser => {

const page = await browser.newPage();
await page.goto( "http://magic.wickedmiso.com/manage/", { waitUntil : "networkidle2" } );

let magicId = "tistoryId";      // 티스토리 아이디
let magicPw = "tistoryPw";    // 티스토리 패스워드

await page.evaluate(() => {
        document.getElementById( "loginId" ).value = magicId;
        document.getElementById( "loginPw" ).value = magicPw;
});

await delay(3000);


        // 로그인 SUBMIT 기능

const elementHandle = await page.waitFor( "input" );

await elementHandle.press( "Enter" );

await delay(5000);

        /* 로그인이후 방문 기록 데이터를 콘솔에 띄워본다. */

const emToDay = await page.waitFor( "div.box_blog > dl.count_visitor:nth-child(1) > dd" );

        const txtToDay = await page.evaluate( emToDay => emToDay.textContent, emToDay );

        console.log("-. 오늘 방문자 수", txtToDay);

    

const emYesterDay = await page.waitFor( "div.box_blog > dl.count_visitor:nth-child(2) > dd" );

        const txtYesterDay = await page.evaluate( emYesterDay => emYesterDay.textContent, emYesterDay );

        console.log("-. 어제 방문자 수", txtYesterDay);


const emCumulativ = await page.waitFor( "div.box_blog > dl.count_visitor:nth-child(3) > dd" );

        const txtCumulativ = await page.evaluateemCumulativ => emCumulativ.textContentemCumulativ );

        console.log("-. 누적 방문자 수", txtCumulativ);


});



# 에러 출력





evaluate( ) 함수 이기 때문에 해당 함수내에 값을 전달할려면


다른 함수들과 마찬가지로 전달할 값을 오버라이딩 해서 매개변수값을 전달해 주어야 한다.



 puppeteer_evaluate.js

const puppeteer = require("puppeteer");

// 사용시 인위적인 딜레이를 주기위한 함수
function delay( timeout ) {
return new Promise(( resolve ) => {
setTimeout( resolve, timeout );
});
}

puppeteer.launch( { headless : false } ).then(async browser => {

const page = await browser.newPage();
await page.goto( "http://magic.wickedmiso.com/manage/", { waitUntil : "networkidle2" } );

let magicId = "tistoryId";      // 티스토리 아이디
let magicPw = "tistoryPw";    // 티스토리 패스워드
       

        // 함수내에 매개변수를 지정해준다.

     await page.evaluate(( { magicId, magicPw } ) => {
        document.getElementById( "loginId" ).value = magicId;
        document.getElementById( "loginPw" ).value = magicPw;
// document.getElementsByClassName( "btn_login" ).disabled = false;
}, { magicId, magicPw } );


await delay(3000);


        // 로그인 SUBMIT 기능

const elementHandle = await page.waitFor( "input" );

await elementHandle.press( "Enter" );

await delay(5000);

        /* 로그인이후 방문 기록 데이터를 콘솔에 띄워본다. */

const emToDay = await page.waitFor( "div.box_blog > dl.count_visitor:nth-child(1) > dd" );

        const txtToDay = await page.evaluate( emToDay => emToDay.textContent, emToDay );

        console.log("-. 오늘 방문자 수", txtToDay);

    

const emYesterDay = await page.waitFor( "div.box_blog > dl.count_visitor:nth-child(2) > dd" );

        const txtYesterDay = await page.evaluate( emYesterDay => emYesterDay.textContent, emYesterDay );

        console.log("-. 어제 방문자 수", txtYesterDay);


const emCumulativ = await page.waitFor( "div.box_blog > dl.count_visitor:nth-child(3) > dd" );

        const txtCumulativ = await page.evaluateemCumulativ => emCumulativ.textContentemCumulativ );

        console.log("-. 누적 방문자 수", txtCumulativ);


});



위 코드를 실행시켜보면.


이제 위와 같은 에러가 나타나지 않는것을 확인 할 수 있다.


출력결과는 아래와 같다.




# 실행 결과



다시한번 evaluate( )는 함수임을 기억하자.










# 참고




티스토리의 아이디, 패스워드 입력창의 경우


키보드 입력으로 판단되지 않았기 때문에.


로그인 버튼이 활성화 되지 않은 것을 확인 되었다.


이때는 Puppeteer의 키보드 입력과 같은 이벤트를 발생시켜서 처리할 수 있게끔 작업을 진행해 주어야 한다.






반응형
//

[Puppeteer] Cheerio 모듈을 활용한 데이터 스크랩핑[Puppeteer] Cheerio 모듈을 활용한 데이터 스크랩핑

Posted at 2019. 6. 20. 21:10 | Posted in Node.js/Puppeteer
반응형




■ 퍼펫티어를 이용한 유튜브 채널 스크랩핑




유튜브 API가 제대로 동작하지 않게 되었다.


cheerio-httpcli 모듈로 YouTube 페이지의 데이터를 스크래핑 하려 해보았지만.


유튜브의 경우 cheerio-httpcli를 통한 단순한 데이터 스크랩핑을 해보니


많은 수의 json형태의 데이터를 가져오기에


포기하던 차에 puppeteer를 활용해 보기로 했고


결과는 어느정도 만족할 수 있는 수준이었다.






위와 같이 유튜브 특정 채널의 업로드 영상을 가져와 보려고 한다.




# 소스코드

 puppeteer_ra_om_musiq.js

const puppeteer = require( "puppeteer" );

const cheerio = require( "cheerio" );


puppeteer.launch( { headless : true } ).then(async browser => {


const page = await browser.newPage();

await page.goto( "https://www.youtube.com/user/RaOmMusiq/videos/", { waitUntil : "networkidle2" } );

        // YouTube 페이지의 <ytd-grid-renderer> 태그 안의 내용을 가져온다.

const html = await page.$eval( "ytd-grid-renderer", e => e.outerHTML );


        // console.log(html);


const datacheerio.loadhtml );

data( "a.ytd-grid-video-renderer" ).each( function( key, val ) {


               // substring을 사용하여 불필요한 값을 잘라낸다. 

var videoId = data( val ).attr( "href" ).substring( 9, 20 );

var videoTitle = data( val ).text();

console.log( "VIDEO ID = ", videoId );

console.log( "VIDEO TITLE = ", videoTitle );

});

});





# 출력결과




위와같이 필요로 하는 YouTube 영상의 아이디 값 타이틀 제목을 얻어오는 모습을 확인 할 수 있다.






반응형
//

[Puppeteer] 페이지 클릭 및 입력 이벤트[Puppeteer] 페이지 클릭 및 입력 이벤트

Posted at 2019. 5. 10. 18:31 | Posted in Node.js/Puppeteer
반응형





■ 페이지의 특정 영역 클릭 이벤트




퍼펫티어에서 클릭 이벤트는 해당 앨리먼트를 셀렉터 값을 설정하고 click( ) 메서드로 실행시키기만 하면 된다.



# 소스 코드

 tommorrow_weather.js

const puppeteer = require( "puppeteer" );


puppeteer.launch({

headless : false

}).then(async browser => {


const page = await browser.newPage();

await page.goto( "https://weather.naver.com/", { waitUntil : "networkidle2" } );


page.waitForNavigation( ), // 해당 페이지의 탐색이 완료되면 클릭 이벤트를 실행

page.click( "div.weather_info > div.w_map > ul.tab > li:nth-child(4) > a" ); // 클릭이벤트를 실행

});




# 출력 결과

 $ node tomorrow_weather.js 









■ 페이지의 특정 영역에 값 입력 하기




#01. input 박스에 값 입력하기



위 예제에서는 click( 앨리먼트 ) 를 지정하여 손쉽게 클릭 이벤트를 진행 할 수 있었다.


입력도 이와 마찬기자로 type( ) 메서드에 앨리먼트의 셀렉터 주소와 입력 값을 지정해 주는것으로 손쉽게 진행할 수 있다.




# 소스 코드

 twitter_login.js

const puppeteer = require( "puppeteer" );


puppeteer.launch({

headless : false

}).then(async browser => {


const page = await browser.newPage();

await page.goto("https://twitter.com/login?lang=ko", { waitUntil : "networkidle2" } );

// 트위터 아이디 값 입력

await page.type( "div.clearfix:nth-child(2) > input", "트위터 아이디" );

// 트위터 패스워드 패스워드 값 입력

await page.type( "div.clearfix:nth-child(3)> input", "트위터 패스워드" );

// 트위터 로그인 버튼 클릭

await page.click( "button.submit" );

});




# 출력 결과

 $ node twitter_login.js







#02. 키보드로 직접 입력하는것과 같은 이벤트


이전에 page.type(엘리먼트, 입력값)과 같은 형태로 input 타입에 값을 입력 할 수 있었다.


그렇지만 직접 키보드를 입력해야 하는 것과 같은 자연스러운 입력이 필요한 경우가 존재하기에 추가적으로 작업을 더 해보려고 한다.



# 소스 코드

 facebook_login.js

const puppeteer = require( "puppeteer" );


puppeteer.launch({

headless : false

}).then(async browser => {


const page = await browser.newPage();

await page.goto( "https://www.facebook.com/", { waitUntil : "networkidle2" } );

// 페이지가 전부 로드된 이후 작업 실행

await page.waitForNavigation( );

// 페이스북 이메일 입력 부분 클릭

await page.click( "input#email" );

// 페이스북 아이디를 키보드로 입력한다.

await page.keyboard.type( "페이스북 이메일 주소" );

// TAB 버튼을 클릭하여 바로 옆에있는 패스워드 입력 영역으로 커서를 이동시킨다.

await page.keyboard.press( "Tab" );

// 페이스북 패스워드를 키보드로 입력한다.

// 이때 자연스러운 입력을 버튼을 하나씩 입력할때마다  DELAY를 통한 시간차가 있게끔 설정한다.

await page.keyboard.type( "페이스북 패스워드", { delay : 100 } ); // 시간은 밀리세컨드(ms) 단위로 계산된다.

// TAB 버튼을 클릭하여 좌측에 존재하는 로그인 버튼이 선택되게 한다.

await page.keyboard.press( "Tab" );

// ENTER 키를 클릭하여 로그인한다.

await page.keyboard.press( "Enter" );

});





# 출력 결과

 $ node facebook_login.js






위와같이 트위터와 페이스북에 손쉽게 로그인 할 수 있었다.


그렇지만 보안이 중요한 사이트의 경우 키보드의 물리 입력을 감지하거나 하는 형식으로


작업을 진행하는 경우가 존재하는데, 이 경우 위와같은 입력 및 클릭방법은 전혀 도움이 되지 못한다.


그러한 경우는 아래 글을 참고하자.








■ 키보드 보안을 우회하기 위한 방법




원문 : https://2cpu.co.kr/bbs/board.php?bo_table=QnA&wr_id=591362












반응형
//

[Puppeteer] 퍼펫티어에서 크롬 확장프로그램 사용하기[Puppeteer] 퍼펫티어에서 크롬 확장프로그램 사용하기

Posted at 2019. 4. 30. 16:59 | Posted in Node.js/Puppeteer
반응형




이전글: [Puppeteer] 퍼펫티어의 브라우저를 크롬으로 변경하기





필자는 프로젝트에서 사용할 크롤링 프로그램의 개발중 퍼펫티어에 대해서 알게 되었다.


개중 롬 확장프로그램을 통한 인증이 꼭 필요한 부분이 존재하였고.


이것때문에 많은 고생을 하였기에, 해당 포스팅을 찾아오신 분들은 그 부분을 손쉽게 넘어갈 수 있기를 바라는 마음에


퍼펫티어에서 롬 확장프로그램을 사용할 수 있는 방법을 정리하였다.







■ 크롬 확장프로그램의 설치 경로





크롬 웹스토어(https://chrome.google.com/webstore/category/extensions?hl=ko)에서 다운받은 크롬 확장프로그램들은


크롬에 로그인을 하지 않았을 경우를 기준으로


확장 프로그램은 Windows 10의 경우


C:\Users\사용자 폴더\AppData\Local\Google\Chrome\User Data\Default\Extensions\Default 경로에 설치된다.



맥(Mac OS X) or 리눅스(LINUX)등 다른 OS의 사용은 https://chromium.googlesource.com/chromium/src/+/master/docs/user_data_dir.md에서 확인할 수 있다.







위와같이 크롬 웹스토어에서 확장 프로그램을 한가지 설치해 보자.


이때 위 이미지처럼 자신의 크롬이 로그인된 상태인지 그렇지 않은지를 잘 확인해 둘 필요가 있다.


기본적으로 로그인을 하지 않은 상태라면 Default 폴더에 설치되지만


로그인을 한 사용자의 경우에는 Profile 임의로 주어지는 숫자 폴더에 설치되어 있을 것이다.









크롬 확장프로그램을 설치완료하고 설치된 폴더로 이동해 보자.









자신이 설치한 프로그램의 파일명을 확인하고 그안의 버전정보 까지의 경로가


이번 크롬 확장 프로그램까지 같이 샐행하는데 필요한 부분이다.
















■ 퍼펫티어에서 크롬 확장프로그램을 사용하기





이제 퍼펫티어를 이용하여 크롬 확장 프로그램을 사용해 보려 한다.


그렇지만 브라우저는 꼭 크롬을 사용할 필요는 없다.


크롬 확장프로그램의 사용이 가능한 크로미엄을 기반으로 하는 브라우저라고 하면


확장프로그램의 설치경로를 지정해 주는것만으로도 사용이 가능하기에


아래 예제는 기본 설치 모듈의 크로미움을 사용하였다.





# 소스 코드

 puppeteer_extensions.js

const puppeteer = require("puppeteer");


puppeteer.launch({

  headless : false


  // 크롬 확장프로그램의 정확하 설치경로만 알고 있다면

  // executablePath을 이용하여 꼭 크롬을 사용할 필요는 없다.

  // , executablePath : "C:/Program Files (x86)/Google/Chrome/Application/chrome.exe"


          // 크롬 확장프로그램을 한개 이상 사용하는경우 콤마( , )로 각 프로그램을 구분하여 작성하여 준다.

, args : [

  "--disable-extensions-except=C:/첫번째 크롬 확장프로그램 설치경로/,C:/두번째 크롬 확장프로그램 설치경로/"

, "--load-extension=C:/첫번째 크롬 확장프로그램 설치경로/,C:/두번째 크롬 확장프로그램 설치경로/"

]

}).then(async browser => {

const page = await browser.newPage();

await page.goto("https://www.naver.com/", { waitUntil : "networkidle2" } );

});





크롬 확장프로그램을 한개 이상 실행하게 될 경우


콤마( , )를 구분자로 사용하여 이어서 경로를 작성해 주면 함께 사용할 수 있다.





# 출력 결과




위 출력결과와 같이 설치한 크롬 확장 프로그램이 잘 나타나는 것을 확인 할 수 있다.





반응형
//