전체 글150 [챗gpt 활용법] pdf 파일 요약 방법 (PyPDF2 txt 파일로 변환) 챗gpt가 가장 잘하는 것 중 하나가 긴 글의 내용을 파악해서 핵심내용만 짧게 요약해 주는 일입니다. 하지만 pdf파일에 있는 내용을 요약하고 싶을 때 현재는 파일업로드 기능이 없기 때문에 어떻게 하면 pdf파일 내용도 chatgpt를 이용하여 요약할 수 있는지 알아보겠습니다. 1. pdf 파일 -> txt 파일로 변환하기 드래그하여 복사+붙여 넣기 했을 때 텍스트가 깨지지 않는 pdf라면 내용을 복사하여 챗gpt에 붙여 넣기 하는 게 가장 편할 텐데요. pdf파일에 따라 복사+붙여 넣기 했을 때 글씨 띄어쓰기 등이 깨지거나 원하는 형태로 잘 추출이 되지 않는 경우가 많습니다. pdf파일을 txt파일로 변환하는 툴 같은 것들도 있지만, 파이썬 코드를 활용하면 쉽게 txt파일로 변환이 가능합니다. 이전에 .. 2023. 2. 24. 머신러닝 Decision Tree 핵심 개념 (데이터 사이언티스트 면접 질문) 이번 포스팅에서는 머신러닝 Classification 모델 중 Decision Tree(의사결정트리)와 관련된 데이터사이언티스트 단골 면접(인터뷰) 질문 및 꼭 알고 넘어가야 하는 핵심 개념들에 대해 정리해 보겠습니다. 엔트로피(Entropy)와 인포메이션 게인(Information Gain)은 무엇인지? 엔트로피(Entropy)는 데이터의 불순도 또는 무질서를 측정하는 단위입니다. 따라서 데이터가 섞여있을 수록 높은 엔트로피를 가지고, 데이터가 하나의 클래스로 이루어져 있을수록 낮은 엔트로피를 가집니다. 인포메이션 게인(Information Gain)은 Classification Tree에서 부모 노드에서 자식 노드로 내려왔을 때 불순도(엔트로피)를 얼마나 낮춰줬는지를 측정하는 지표입니다. Decisi.. 2023. 2. 23. 불균형 데이터(Imbalanced Data) 머신러닝 Classification 문제점 해결방법 머신러닝 Classification을 할 때 흔히 접하는 문제는 데이터가 불균형하게 형성되어 있는 것입니다. 우리가 관심가지는 데이터를 현실적으로 충분하게 얻을 수 없을 때 발생합니다. 불균형 데이터(Imbalanced Data)를 가지고 머신러닝할 때 발생할 수 있는 문제점과 해결 방법에 대해 알아보겠습니다. 불균형 데이터란(Imbalanced Data)? 불균형 데이터는 데이터 세트의 클래스 분포가 불균일한 상황을 의미하며, 한 클래스의 샘플 수가 다른 클래스보다 현저히 적은 경우입니다. 이는 주로 사기 탐지(Fraud Detection, 스팸 필터링(Spam filtering) 또는 의료 진단과 같은 실제 Classification에서 일반적으로 발생하는 문제로, 소수 클래스(positive)에 해.. 2023. 2. 23. [챗gpt 활용] 네이버 크롤링 웹스크래핑 하는 방법(파이썬 노코드) 챗gpt가 코딩에 정말 능하다는 사실을 알고 계시나요? 이제는 코딩을 할 줄 몰라도 챗gpt 도움을 받아서 여러 가지 프로그램을 직접 짜볼 수 있습니다. 이번 포스팅에서는 챗gpt를 이용하여 네이버 블로그 검색결과를 크롤링/웹스크래핑 하는 방법을 알아보도록 하겠습니다. 챗gpt를 이용하여 네이버 블로그 검색결과 크롤링(웹스크래핑) 하는 방법 방법은 챗gpt에게 URL을 주면서 어떤 식으로 크롤링(웹스크래핑) 할 건지 말로 설명을 하는 것인데요. 실제로 프로그래머에게 의뢰를 한다고 생각하고 필요한 정보를 챗gpt에게 알려주면 됩니다. 크롤링(웹스크래핑)을 위해서는 우선 어떤 URL에서 크롤링을 할건지를 알려줘야겠죠? 그리고 어떤 걸 원하는지 구체적으로 알려줘야 합니다. 예를 들어 네이버에 특정 검색어를 입.. 2023. 2. 22. 이전 1 ··· 23 24 25 26 27 28 29 ··· 38 다음