웹 페이지에서 텍스트를 추출하는 방법

웹 페이지에서 텍스트를 추출하는 방법에는 여러 가지가 있습니다. 선택한 방법은 텍스트에 대해 염두에 두어야 할 목적에 따라 달라집니다. 모든 비즈니스 요구 사항이 지침이나 지침으로 사용하기 위해 텍스트를 인쇄하는 것이라면 텍스트 만 HTML로 추출 할 수 있습니다. 웹 페이지에 이미지와 텍스트가 있고 페이지를 원본 양식으로 유지하려면 전체 웹 페이지를 추출해야합니다. 텍스트를 추출하는 세 가지 방법이 있으며 텍스트와 이미지를 함께 추출하는 데는 두 가지 방법이 있습니다.
텍스트 만 추출
1.
텍스트를 추출 할 웹 페이지를 엽니 다. "파일"메뉴를 클릭하고 "다른 이름으로 저장"또는 "다른 이름으로 페이지 저장"옵션을 클릭하십시오. 파일 형식 드롭 다운 메뉴에서 "웹 페이지, HTML 만"을 선택하고 파일 이름을 입력 한 다음 "저장"을 클릭하십시오. 원본 페이지 형식 옵션이 그대로 유지 된 상태에서 텍스트가 추출되어 HTML 파일로 저장됩니다. 이 파일은 웹 브라우저에서 볼 수 있으며 메모장과 같은 텍스트 편집기에서 편집 할 수 있습니다.
2.
"다른 이름으로 저장"또는 "다른 이름으로 페이지 저장"옵션을 클릭하고 파일 형식 드롭 다운 메뉴에서 "텍스트 파일"을 선택하십시오. 텍스트 파일의 이름을 입력하고 "저장"을 클릭하십시오. 웹 페이지의 텍스트가 추출되어 Microsoft Word와 같은 텍스트 편집기 및 문서 프로그램에서 볼 수있는 텍스트 파일로 저장됩니다.
삼.
클릭하고 드래그하여 추출하려는 웹 페이지의 텍스트를 선택하고 "Ctrl-C"를 눌러 텍스트를 복사하십시오. 텍스트 편집기 또는 문서 프로그램을 열고 "Ctrl-V"를 눌러 웹 페이지의 텍스트를 텍스트 파일 또는 문서 창에 붙여 넣습니다. 텍스트 파일이나 문서를 컴퓨터에 저장하십시오.
텍스트 및 이미지 추출
1.
웹 브라우저에서 "파일"메뉴를 클릭하고 "다른 이름으로 저장"또는 "다른 이름으로 페이지 저장"옵션을 클릭하십시오. 파일 형식 드롭 다운 메뉴에서 "웹 페이지, 완료"를 선택하고 파일 이름을 입력하십시오. "저장"을 클릭하십시오. 웹 페이지의 텍스트와 이미지가 추출되어 저장됩니다. 텍스트는 HTML 파일에 저장되며 이미지는 HTML 파일과 같은 위치에있는 폴더에 저장됩니다.
2.
추출 된 텍스트와 이미지를 보려면 HTML 파일을 두 번 클릭하십시오. 웹 브라우저에서 열립니다. 텍스트와 이미지를 추출하는 다른 방법은 Internet Explorer 브라우저에서만 사용할 수 있습니다. 다음 단계를 계속하기 전에 Internet Explorer에서 원하는 웹 페이지를 엽니 다.
삼.
파일 메뉴에서 "다른 이름으로 저장"옵션을 클릭하고 파일 형식 드롭 다운 메뉴에서 "웹 아카이브, 단일 파일 (* .mht)"을 선택하십시오. 파일의 이름을 입력하고 "저장"버튼을 클릭하십시오. 텍스트와 이미지는 웹 페이지에서 파일로 추출됩니다. 파일을 두 번 클릭하여 압축 해제 된 텍스트 및 이미지를 웹 브라우저에서보십시오.