ku-ring · rlagkswn00 · Dec 3, 2024 · Nov 27, 2024 · Nov 27, 2024 · Nov 27, 2024
diff --git a/src/main/java/com/kustacks/kuring/common/utils/converter/EmailConverter.java b/src/main/java/com/kustacks/kuring/common/utils/converter/EmailConverter.java
@@ -0,0 +1,57 @@
+package com.kustacks.kuring.common.utils.converter;
+
+import java.util.regex.Pattern;
+
+public class EmailConverter {
+    private static final Pattern AT_PATTERN = Pattern.compile("\\s+at\\s+");
+    private static final Pattern DOT_PATTERN = Pattern.compile("\\s+dot\\s+");
+    private static final Pattern EMAIL_PATTERN = Pattern.compile("^[a-zA-Z0-9_!#$%&'\\*+/=?{|}~^.-]+@[a-zA-Z0-9.-]+$");
+
+    private static final String KONKUK_DOMAIN = "@konkuk.ac.kr";
+
+    public static String convertValidEmail(String email) {
+        if (email == null || email.isBlank()) {
+            return ""; // 빈 입력 처리
+        }
+
+        //여러 이메일인 경우 있으니 분리.
+        String[] emailGroups = email.split("[/,]");
+        //정상 구조가 아닌 경우 구조 정상화
+        for (int i = 0; i < emailGroups.length; i++) {
+            emailGroups[i] = normalizeEmail(emailGroups[i]);
+        }
+
+        //여러 이메일 중 konkuk을 우선 선택, 없으면 첫번째 내용
+        return selectEmail(emailGroups);
+    }
+
+    private static String normalizeEmail(String email) {
+        if (email == null || email.isBlank()) {
+            return "";
+        }
+
+        // 정상 이메일인지 확인
+        if (EMAIL_PATTERN.matcher(email).matches()) {
+            return email;
+        }
+
+        // "@", "." 대신 "at", "dot"으로 되어있는 경우 변환
+        if (DOT_PATTERN.matcher(email).find() && AT_PATTERN.matcher(email).find()) {
+            return email.replaceAll(DOT_PATTERN.pattern(), ".")
+                    .replaceAll(AT_PATTERN.pattern(), "@");
+        }
+
+        // 기타 이상한 형식은 빈공백으로 저장
+        return "";
+    }
+
+    // Konkuk 도메인 우선 선택
+    private static String selectEmail(String[] emails) {
+        for (String email : emails) {
+            if (email.endsWith(KONKUK_DOMAIN)) {
+                return email;
+            }
+        }
+        return emails[0];
+    }
+}
diff --git a/src/main/java/com/kustacks/kuring/common/utils/converter/PhoneNumberConverter.java b/src/main/java/com/kustacks/kuring/common/utils/converter/PhoneNumberConverter.java
@@ -0,0 +1,28 @@
+package com.kustacks.kuring.common.utils.converter;
+
+import java.util.regex.Pattern;
+
+public class PhoneNumberConverter {
+
+    private static final Pattern LAST_FOUR_NUMBER_PATTERN = Pattern.compile("\\d{4}");
+    private static final Pattern FULL_NUMBER_PATTERN = Pattern.compile("02-\\d{3,4}-\\d{4}");
+    private static final Pattern FULL_NUMBER_WITH_PARENTHESES_PATTERN = Pattern.compile("02[)]\\d{3,4}-\\d{4}");
+
+    public static String convertFullExtensionNumber(String number) {
+        if (number == null || number.isBlank()) {
+            return "";
+        }
+        if (LAST_FOUR_NUMBER_PATTERN.matcher(number).matches()) {
+            return "02-450-" + number;
+        }
+        if (FULL_NUMBER_PATTERN.matcher(number).matches()) {
+            return number;
+        }
+        if (FULL_NUMBER_WITH_PARENTHESES_PATTERN.matcher(number).matches()) {
+            return number.replace(")", "-");
+        }
+
+        //기타 이상한 형식은 빈공백으로 저장 ex. 218) 이게뭔데;
+        return "";
+    }
+}
diff --git a/src/main/java/com/kustacks/kuring/worker/parser/staff/EachDeptStaffHtmlParser.java b/src/main/java/com/kustacks/kuring/worker/parser/staff/EachDeptStaffHtmlParser.java
@@ -1,8 +1,6 @@
 package com.kustacks.kuring.worker.parser.staff;
 
 import com.kustacks.kuring.worker.scrap.deptinfo.DeptInfo;
-import com.kustacks.kuring.worker.scrap.deptinfo.art_design.CommunicationDesignDept;
-import com.kustacks.kuring.worker.scrap.deptinfo.art_design.LivingDesignDept;
 import com.kustacks.kuring.worker.scrap.deptinfo.real_estate.RealEstateDept;
 import lombok.NoArgsConstructor;
 import lombok.extern.slf4j.Slf4j;
@@ -18,33 +16,22 @@ public class EachDeptStaffHtmlParser extends StaffHtmlParserTemplate {
 
     @Override
     public boolean support(DeptInfo deptInfo) {
-        return !(deptInfo instanceof RealEstateDept) &&
-                !(deptInfo instanceof LivingDesignDept) &&
-                !(deptInfo instanceof CommunicationDesignDept);
+        return !(deptInfo instanceof RealEstateDept);
     }
 
     protected Elements selectStaffInfoRows(Document document) {
-        Element table = document.select(".photo_intro").get(0);
-        return table.getElementsByTag("dl");
+        return document.select(".row");
     }
 
     protected String[] extractStaffInfoFromRow(Element row) {
-        Elements infos = row.getElementsByTag("dd");
-
-        // 교수명, 직위, 세부전공, 연구실, 연락처, 이메일 순으로 파싱
-        // 연구실, 연락처 정보는 없는 경우가 종종 있으므로, childNode접근 전 인덱스 체크하는 로직을 넣었음
-        String name = infos.get(0).getElementsByTag("span").get(1).text();
-
-        String jobPosition = String.valueOf(infos.get(1).childNodeSize() < 2 ? "" : infos.get(1).childNode(1));
-        if (jobPosition.contains("명예") || jobPosition.contains("대우") || jobPosition.contains("휴직") || !jobPosition.contains("교수")) {
-            log.info("스크래핑 스킵 -> {} 교수", name);
-            return new String[]{};
-        }
-
-        String major = infos.get(2).childNodeSize() < 2 ? "" : String.valueOf(infos.get(2).childNode(1));
-        String lab = infos.get(3).childNodeSize() < 2 ? "" : String.valueOf(infos.get(3).childNode(1));
-        String phone = infos.get(4).childNodeSize() < 2 ? "" : String.valueOf(infos.get(4).childNode(1));
-        String email = infos.get(5).getElementsByTag("a").get(0).text();
-        return new String[]{name, major, lab, phone, email};
+        String name = row.select(".info .title .name").text();
+
+        Elements detailElement = row.select(".detail");
+        String jobPosition = detailElement.select(".ico1 dd").text().trim();
+        String major = detailElement.select(".ico2 dd").text().trim();
+        String lab = detailElement.select(".ico3 dd").text().trim();
+        String extensionNumber = detailElement.select(".ico4 dd").text().trim();
+        String email = detailElement.select(".ico5 dd").text().trim();
+        return new String[]{name, jobPosition, major, lab, extensionNumber, email};
     }
 }
diff --git a/.../com/kustacks/kuring/worker/parser/staff/LivingAndCommunicationDesignStaffHtmlParser.java b/.../com/kustacks/kuring/worker/parser/staff/LivingAndCommunicationDesignStaffHtmlParser.java
diff --git a/src/main/java/com/kustacks/kuring/worker/parser/staff/RealEstateStaffHtmlParser.java b/src/main/java/com/kustacks/kuring/worker/parser/staff/RealEstateStaffHtmlParser.java
@@ -7,30 +7,30 @@
 import org.jsoup.select.Elements;
 import org.springframework.stereotype.Component;
 
+import java.util.HashMap;
+import java.util.Map;
+
 @Component
 public class RealEstateStaffHtmlParser extends StaffHtmlParserTemplate {
 
     @Override
     public boolean support(DeptInfo deptInfo) {
         return deptInfo instanceof RealEstateDept;
     }
-
     protected Elements selectStaffInfoRows(Document document) {
-        Element table = document.select(".sub0201_list").get(0).getElementsByTag("ul").get(0);
-        return table.getElementsByTag("li");
+        return document.select(".row");
     }
 
     protected String[] extractStaffInfoFromRow(Element row) {
-        Element content = row.select(".con").get(0);
-
-        String name = content.select("dl > dt > a > strong").get(0).text();
-        String major = String.valueOf(content.select("dl > dd").get(0).childNode(4)).replaceFirst("\\s", "").trim();
-
-        Element textMore = content.select(".text_more").get(0);
-
-        String lab = String.valueOf(textMore.childNode(4)).split(":")[1].replaceFirst("\\s", "").trim();
-        String phone = String.valueOf(textMore.childNode(6)).split(":")[1].replaceFirst("\\s", "").trim();
-        String email = textMore.getElementsByTag("a").get(0).text();
-        return new String[]{name, major, lab, phone, email};
+        String name = row.select(".info .title .name").text();
+
+        Elements detalTagElement = row.select(".detail");
+        String jobPosition = detalTagElement.select("dt:contains(직위) + dd").text();
+        String major = detalTagElement.select("dt:contains(연구분야) + dd").text().trim();
+        String lab = detalTagElement.select("dt:contains(연구실) + dd").text().trim();
+        String extensionNumber = detalTagElement.select("dt:contains(연락처) + dd").text().trim();
+        String email = detalTagElement.select("dt:contains(이메일) + dd").text().trim();
+        return new String[]{name, jobPosition, major, lab, extensionNumber, email};
     }
 }
+
diff --git a/src/main/java/com/kustacks/kuring/worker/scrap/StaffScraper.java b/src/main/java/com/kustacks/kuring/worker/scrap/StaffScraper.java
@@ -2,6 +2,8 @@
 
 import com.kustacks.kuring.common.exception.InternalLogicException;
 import com.kustacks.kuring.common.exception.code.ErrorCode;
+import com.kustacks.kuring.common.utils.converter.EmailConverter;
+import com.kustacks.kuring.common.utils.converter.PhoneNumberConverter;
 import com.kustacks.kuring.worker.scrap.client.staff.StaffApiClient;
 import com.kustacks.kuring.worker.scrap.deptinfo.DeptInfo;
 import com.kustacks.kuring.worker.parser.staff.StaffHtmlParserTemplate;
@@ -60,10 +62,11 @@ private static List<StaffDto> convertStaffDtos(DeptInfo deptInfo, List<String[]>
         return parseResult.stream()
                 .map(oneStaffInfo -> StaffDto.builder()
                         .name(oneStaffInfo[0])
-                        .major(oneStaffInfo[1])
-                        .lab(oneStaffInfo[2])
-                        .phone(oneStaffInfo[3])
-                        .email(oneStaffInfo[4])
+                        .position(oneStaffInfo[1])
+                        .major(oneStaffInfo[2])
+                        .lab(oneStaffInfo[3])
+                        .phone(PhoneNumberConverter.convertFullExtensionNumber(oneStaffInfo[4]))
+                        .email(EmailConverter.convertValidEmail(oneStaffInfo[5]))
                         .deptName(deptInfo.getDeptName())
                         .collegeName(deptInfo.getCollegeName()
                         ).build()

diff --git a/src/main/java/com/kustacks/kuring/worker/scrap/client/staff/EachDeptStaffApiClient.java b/src/main/java/com/kustacks/kuring/worker/scrap/client/staff/EachDeptStaffApiClient.java
@@ -4,20 +4,13 @@
 import com.kustacks.kuring.common.exception.code.ErrorCode;
 import com.kustacks.kuring.worker.scrap.client.NormalJsoupClient;
 import com.kustacks.kuring.worker.scrap.deptinfo.DeptInfo;
-import com.kustacks.kuring.worker.scrap.deptinfo.art_design.CommunicationDesignDept;
-import com.kustacks.kuring.worker.scrap.deptinfo.art_design.LivingDesignDept;
-import com.kustacks.kuring.worker.scrap.deptinfo.real_estate.RealEstateDept;
 import org.jsoup.nodes.Document;
-import org.jsoup.nodes.Element;
 import org.springframework.beans.factory.annotation.Value;
 import org.springframework.stereotype.Component;
-import org.springframework.web.util.UriComponentsBuilder;
 
 import java.io.IOException;
-import java.util.HashMap;
 import java.util.LinkedList;
 import java.util.List;
-import java.util.Map;
 
 @Component
 public class EachDeptStaffApiClient implements StaffApiClient {
@@ -32,49 +25,30 @@ public EachDeptStaffApiClient(NormalJsoupClient normalJsoupClient) {
         this.jsoupClient = normalJsoupClient;
     }
 
+    /*
+    TODO: 만약, 학과별로 다른 API Client를 구성해야 한다면 support 구현 필요.(현재는 교직원 스크랩을 위한 모든 API 클래이언트 스펙 동일, 파싱에서 분리) [2024.11.28 김한주]
+     */
     @Override
     public boolean support(DeptInfo deptInfo) {
-        return !(deptInfo instanceof RealEstateDept) &&
-                !(deptInfo instanceof LivingDesignDept) &&
-                !(deptInfo instanceof CommunicationDesignDept);
+        return true;
     }
 
     @Override
     public List<Document> getHTML(DeptInfo deptInfo) throws InternalLogicException {
-        return deptInfo.getProfessorForumIds().stream()
-                .flatMap(professorForumId -> getProfessorHtmlById(professorForumId).stream())
+        return deptInfo.getStaffSiteIds().stream()
+                .flatMap(siteId -> getProfessorHtmlByDeptAndSiteId(deptInfo.getStaffSiteName(), siteId).stream())
                 .toList();
     }
 
-    private List<Document> getProfessorHtmlById(String professorForumId) {
+    private List<Document> getProfessorHtmlByDeptAndSiteId(String siteName, int siteId) {
         LinkedList<Document> documents = new LinkedList<>();
 
-        String url = buildProfessorInfoUrl(professorForumId);
+        String url = buildDeptStaffPageUrl(siteName, siteId);
         Document document = getDocument(url);
         documents.add(document);
-
-        int totalPageNum = getTotalPageNumber(document);
-        for (int pageNumber = 2; pageNumber <= totalPageNum; pageNumber++) {
-            documents.add(parseDocumentByPageNumber(url, pageNumber));
-        }
-
         return documents;
     }
 
-    private Document parseDocumentByPageNumber(String url, int pageNumber) {
-        try {
-            Map<String, String> requestBody = new HashMap<>();
-            requestBody.put("pageNum", String.valueOf(pageNumber));
-            return jsoupClient.post(url, STAFF_SCRAP_TIMEOUT, requestBody);
-        } catch (IOException e) {
-            throw new InternalLogicException(ErrorCode.STAFF_SCRAPER_CANNOT_SCRAP, e);
-        }
-    }
-
-    private static int getTotalPageNumber(Document document) {
-        Element pageNumHiddenInput = document.getElementById("totalPageCount");
-        return Integer.parseInt(pageNumHiddenInput.val());
-    }
 
     private Document getDocument(String url) {
         try {
@@ -84,7 +58,8 @@ private Document getDocument(String url) {
         }
     }
 
-    private String buildProfessorInfoUrl(String pfForumId) {
-        return UriComponentsBuilder.fromUriString(baseUrl).queryParam("pfForumId", pfForumId).toUriString();
+    private String buildDeptStaffPageUrl(String department, int siteId) {
+        return baseUrl.replaceAll("\\{department\\}", department)
+                .replace("{siteId}", String.valueOf(siteId));
     }
 }