init

2026-02-09 19:46:13 +01:00
commit 9690367d70
8 changed files with 537 additions and 0 deletions
@@ -0,0 +1,36 @@
+import random
+
+from src.EpubHandler import EpubHandler
+from src.Translator import Translator
+from src.WebScrapper import WebScrapper
+
+# Press the green button in the gutter to run the script.
+if __name__ == '__main__':
+    # scrapper = WebScrapper("https://www.fanmtl.com/novel/", r"E:\temp\WN\Game of the World Tree\HTML", "en")
+    # scrapper.getHtml("game-of-the-world-tree_{}.html", 1, 987)
+
+    # epubHandler = EpubHandler(r"E:\temp\WN\Game of the World Tree\HTML", r"E:\temp\WN\Game of the World Tree\epub")
+    # epubHandler.convertHtmlToEpub("en", r"C:\Users\JohannesBOZZ\Downloads\01605-game-of-the-world-tree.jpg")
+
+
+
+    #scrapper = WebScrapper("https://ncode.syosetu.com/n0806fu/", r"E:\temp\WN\Golden Experience\HTML", "jp")
+    #scrapper.getHtml("{}/", 334, 620) # 612
+
+    # scrapper = WebScrapper("https://fenrirealm.com/series/dorothys-forbidden-grimoire/", r"E:\temp\WN\Dorothy’s Forbidden Grimoire\HTML", "en")
+    # scrapper.getHtml("{}", 377, 828, 2)
+    epubHandler = EpubHandler(r"E:\temp\WN\Dorothy’s Forbidden Grimoire\HTML", r"E:\temp\WN\Dorothy’s Forbidden Grimoire\EPUB")
+    epubHandler.convertHtmlToEpub("en", r"C:\Users\JohannesBOZZ\Downloads\6e1de333d6af7aaa3fdf3ffa66ac6f55.png")
+
+    # epubHandler = EpubHandler(r"E:\temp\WN\Golden Experience\501-609", r"E:\temp\WN\Golden Experience\epub")
+    # epubHandler = EpubHandler(r"C:\Users\JohannesBOZZ\Downloads\黄金の経験値 VI 特定災害生物「魔王」暗躍マグナメルム\html", r"C:\Users\JohannesBOZZ\Downloads\黄金の経験値 VI 特定災害生物「魔王」暗躍マグナメルム")
+    # epubHandler.epub_to_html(r"C:\Users\JohannesBOZZ\Downloads\黄金の経験値 VI 特定災害生物「魔王」暗躍マグナメルム\黄金の経験値 VI 特定災害生物「魔王」暗躍マグナメルム.epub")
+
+
+
+    # epubHandler = EpubHandler(r"W:\Temp\html", r"W:\Temp\epub")
+    #epubHandler.convertHtmlToEpub("jp")
+
+    # translator = Translator(r"facebook/nllb-200-3.3B", r"W:\Temp\html", r"W:\Temp\translate test")
+    # translator.doTranslate()
+
@@ -0,0 +1,12 @@
+requests
+bs4
+markdownify
+aspose-words
+ebooklib
+natsort
+transformers
+sentencepiece
+torch
+tensorflow
+flax
+protobuf==3.20.*
@@ -0,0 +1,162 @@
+import json
+import os.path
+from enum import unique
+from os import scandir, listdir
+
+import natsort
+from ebooklib import epub
+from bs4 import BeautifulSoup
+import aspose.words as aw
+from pprint import pprint
+
+from sympy import false
+
+from src.functions import makeDir, readFromFile, readFromJsonFile
+
+
+class EpubHandler:
+    def __init__(self, htmlPath, epubPath):
+        self.htmlPath = htmlPath
+        self.epubPath = epubPath
+        makeDir(self.htmlPath)
+        makeDir(self.epubPath)
+
+    def convertHtmlToEpub(self, language: str, coverImagePath=None):
+        jsonPath = os.path.join(self.htmlPath, listdir(self.htmlPath)[0].replace(".html", ".json"))
+        infosDict = readFromJsonFile(jsonPath)
+
+        book = epub.EpubBook()
+        book.set_title(infosDict["seriesTitle"])
+        book.set_language(infosDict["currentLanguage"])
+        if coverImagePath:
+            book.set_cover("cover.jpg", readFromFile("rb", coverImagePath))
+        spine = ["nav"]
+
+        files = natsort.os_sorted([x.path for x in scandir(self.htmlPath) if not x.path.endswith(".json")])
+        toc = []
+        chapterDict = {}
+        for htmlFile in files:
+            if htmlFile.endswith(".json"):
+                continue
+
+            infosDict = readFromJsonFile(htmlFile.replace(".html", ".json"))
+
+            chapter = epub.EpubHtml(title=infosDict["chapterTitle"], file_name=f"chapter{infosDict['chapter']}.xhtml",
+                                    lang=language)
+            chapter.content = readFromFile("r", htmlFile)
+
+            book.add_item(chapter)
+            try:
+                chapterDict[int(infosDict["chapter"])] = chapter
+            except IndexError:
+                pprint(infosDict['chapter'])
+
+        # Dictionary nach Keys sortieren und Kapitel zur spine hinzufügen
+        for key in sorted(chapterDict.keys()):
+            chapter = chapterDict[key]
+            toc.append(epub.Link(chapter.file_name, chapter.title, chapter.title))
+            spine.append(chapter)
+
+        book.toc = toc
+        book.spine = spine
+        book.add_item(epub.EpubNcx())
+        book.add_item(epub.EpubNav())
+        epub.write_epub(os.path.join(self.epubPath, f"{book.title}.epub"), book)
+
+
+    # ======================================================
+    # EPUB → HTML
+    # ======================================================
+    def epub_to_html(self, epub_file):
+        book = epub.read_epub(epub_file)
+
+        images_dir = os.path.join(self.htmlPath, "images")
+        makeDir(images_dir)
+
+        chapter_index = 1
+
+        for item_id, _ in book.spine:
+            item = book.get_item_with_id(item_id)
+
+            # Kapitel
+            if item.get_type() == epub.ITEM_DOCUMENT:
+                filename = f"{chapter_index:03d}_{os.path.basename(item.file_name)}"
+                filepath = os.path.join(self.htmlPath, filename)
+
+                with open(filepath, "wb") as f:
+                    f.write(item.get_content())
+
+                chapter_index += 1
+
+            # Bilder
+            elif item.get_type() == epub.ITEM_IMAGE:
+                image_path = os.path.join(images_dir, os.path.basename(item.file_name))
+                with open(image_path, "wb") as f:
+                    f.write(item.get_content())
+
+        print(f"✔ EPUB nach HTML exportiert ({chapter_index - 1} Kapitel)")
+
+    # ======================================================
+    # HTML → EPUB
+    # ======================================================
+    def html_to_epub(self, output_epub, title="Translated Book", lang="de"):
+        book = epub.EpubBook()
+        book.set_title(title)
+        book.set_language(lang)
+
+        # Kapitel laden (sortiert!)
+        html_files = sorted(
+            f for f in os.listdir(self.htmlPath)
+            if f.endswith(".html")
+        )
+
+        spine = ["nav"]
+        chapters = []
+
+        for html_file in html_files:
+            with open(os.path.join(self.htmlPath, html_file), "r", encoding="utf-8") as f:
+                content = f.read()
+
+            chapter = epub.EpubHtml(
+                title=html_file,
+                file_name=html_file,
+                content=content
+            )
+            book.add_item(chapter)
+            chapters.append(chapter)
+            spine.append(chapter)
+
+        # Bilder wieder einbinden
+        images_dir = os.path.join(self.htmlPath, "images")
+        if os.path.exists(images_dir):
+            for img in os.listdir(images_dir):
+                img_path = os.path.join(images_dir, img)
+                with open(img_path, "rb") as f:
+                    image = epub.EpubItem(
+                        uid=img,
+                        file_name=f"images/{img}",
+                        media_type=self._guess_mime(img),
+                        content=f.read()
+                    )
+                    book.add_item(image)
+
+        book.spine = spine
+        book.add_item(epub.EpubNcx())
+        book.add_item(epub.EpubNav())
+
+        epub.write_epub(output_epub, book)
+        print("✔ EPUB neu erstellt")
+
+    # ======================================================
+    # MIME helper
+    # ======================================================
+    def _guess_mime(self, filename):
+        ext = filename.lower().split(".")[-1]
+        return {
+            "jpg": "image/jpeg",
+            "jpeg": "image/jpeg",
+            "png": "image/png",
+            "gif": "image/gif",
+            "svg": "image/svg+xml",
+            "webp": "image/webp"
+        }.get(ext, "application/octet-stream")
@@ -0,0 +1,69 @@
+from pprint import pprint
+
+from transformers import T5Tokenizer, T5ForConditionalGeneration, AutoTokenizer, AutoModelForSeq2SeqLM
+from bs4 import BeautifulSoup
+import torch
+import os
+
+class Translator:
+    def __init__(self, modalPath:str, inputFolder:str, outputFolder:str):
+        # Ändere das Modell und den Tokenizer auf google/madlad400-3b-mt
+        self.tokenizer = AutoTokenizer.from_pretrained(modalPath, src_lang="jpn_Jpan")
+        self.model = AutoModelForSeq2SeqLM.from_pretrained(modalPath, torch_dtype=torch.float16)
+        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        pprint(self.device)
+        self.model = self.model.to(self.device)
+        self.inputFolder = inputFolder
+        self.outputFolder = outputFolder
+
+        os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
+
+    def downloadModal(self, modalName:str, savePath:str):
+        tokenizer = T5Tokenizer.from_pretrained(modalName)
+        model = T5ForConditionalGeneration.from_pretrained(modalName)
+
+        # Lokal speichern
+        tokenizer.save_pretrained(savePath)
+        model.save_pretrained(savePath)
+
+        print(f"Modell gespeichert unter {savePath}")
+
+    def _is_valid_text(self, text):
+        return text and len(text.strip()) > 0  # Sicherstellen, dass der Text nicht leer ist und nur Leerzeichen entfernt werden
+
+    def _translate(self, text):
+        if not self._is_valid_text(text):
+            print("Ungültiger Text, überspringe Übersetzung.")
+            return None
+
+        batch = self.tokenizer([text], return_tensors="pt", padding=True, truncation=True).to(self.device)
+        with torch.no_grad():
+            try:
+                # Verwende generate() von T5ForConditionalGeneration
+                generated = self.model.generate(**batch, do_sample=True, forced_bos_token_id=self.tokenizer.convert_tokens_to_ids("eng_Latn"), max_new_tokens=150)
+            except Exception as e:
+                print(f"Fehler bei der Modellvorhersage: {e}")
+                return None
+        translated = self.tokenizer.decode(generated[0], skip_special_tokens=True)
+        return translated
+
+    def doTranslate(self):
+        with open(r"W:\Temp\html\第１話　「レア」.html", "r", encoding="utf-8") as f:
+            soup = BeautifulSoup(f, "html.parser")
+
+        # --- 2. Text finden und übersetzen ---
+        for elem in soup.find_all(text=True):
+            if elem.parent.name not in ['script', 'style']:  # Kein JS oder CSS übersetzen
+                original_text = elem.strip()
+                print(original_text)
+                if original_text:  # Nur wenn etwas da ist
+                    try:
+                        translated_text = self._translate(original_text)
+                        elem.replace_with(translated_text)
+                        print(translated_text)
+                    except Exception as e:
+                        print(f"Fehler beim Übersetzen von: {original_text[:30]}... => {e}")
+
+        # --- 3. Übersetzte Datei speichern ---
+        with open(r"W:\Temp\translate test\test2.html", "w", encoding="utf-8") as f:
+            f.write(str(soup))
@@ -0,0 +1,116 @@
+import os
+import re
+import time
+from urllib.parse import urljoin
+from pprint import pprint
+import requests
+from bs4 import BeautifulSoup, NavigableString
+from src.functions import writeToFile, makeDir, writeToJsonFile
+
+
+# https://ncode.syosetu.com/n0806fu
+
+
+
+class WebScrapper:
+    def __init__(self, baseLink:str, htmlFolderPath:str, currentLanguage:str):
+        self.baseLink = baseLink
+        self.htmlFolderPath = htmlFolderPath
+        self.currentLanguage = currentLanguage
+        makeDir(self.htmlFolderPath)
+
+    def getHtml(self, uriWithFormat:str, fromChapter:int, toChapter:int, sleepTime:float=0):
+        """
+        uriWithFormat: inserts the current chapter number into the {} brackets
+        """
+        for chapterNumber in range(fromChapter, toChapter + 1):
+            time.sleep(sleepTime) # to avoid getting blocked by the website for sending too many requests in a short time
+
+            infoDict = {
+                "chapter": chapterNumber,
+                "originalLanguage": self.currentLanguage,
+                "currentLanguage": self.currentLanguage,
+            }
+            link = urljoin(self.baseLink, uriWithFormat.format(chapterNumber))
+            print(link)
+            headers = {
+                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36',
+                #'Referer': 'https://ncode.syosetu.com/',
+                #'Accept-Language': 'de,en;q=0.9',
+            }
+
+            soup = BeautifulSoup(requests.get(link, headers=headers).content, "html.parser")
+            if not soup:
+                print(f"skipping Chapter {chapterNumber}")
+                continue
+
+            chapterContent = self._getChapterContent(soup)
+            if not chapterContent:
+                print(f"skipping Chapter {chapterNumber}. No content found")
+                continue
+
+            self._removeUnwantedThinsFromHtml(chapterContent)
+            chapterTitle = self._addChapterTitle(soup, chapterContent, chapterNumber, infoDict)
+            infoDict["chapterTitle"] = chapterTitle
+
+            filePath = os.path.join(self.htmlFolderPath, f"{chapterTitle}.html")
+            writeToFile("wb", filePath, chapterContent.renderContents("utf-8", True, 4))
+            writeToJsonFile(filePath.replace(".html", ".json"), infoDict)
+
+    def _getChapterContent(self, soup:BeautifulSoup):
+        chapterContent = None
+
+        if "fanmtl.com" in self.baseLink:
+            chapterContent = soup.find("div", {"class": "chapter-content"})
+        elif "syosetu.com" in self.baseLink:
+            body = soup.select("div.p-novel__body div.js-novel-text.p-novel__text")
+            for x in body:
+                if len(x.text) > 1000:
+                    chapterContent = x
+        elif "fenrirealm.com" in self.baseLink:
+            chapterContent = soup.select("div.chapter-view > div.content-area")[0]
+
+        return chapterContent
+
+    def _removeUnwantedThinsFromHtml(self, content:BeautifulSoup|NavigableString):
+        if not content:
+            return
+
+        # FanMTL advertisements
+        if "fanmtl.com" in self.baseLink:
+            for div in content.find_all('div', {'align': 'center'}):
+                if div.find('script'):
+                    div.decompose()
+
+        #general
+        for script in content.find_all('script'):
+            script.decompose()
+
+
+    def _addChapterTitle(self, soup:BeautifulSoup, content:BeautifulSoup|NavigableString, chapterNumber, infoDict:dict):
+        chapterTitle = f"Chapter {chapterNumber}"
+        if "fanmtl.com" in self.baseLink:
+            infoDict["seriesTitle"] = re.sub("\(.*?\)|[<>|\?:\*\"\\/]", "", soup.select("div.titles h1 a")[0].text)
+            chapterTitle = re.sub("\(.*?\)|[<>|\?:\*\"\\/]", "", soup.select("div.titles h2")[0].text)
+            infoDict["chapterTitle"] =chapterTitle
+            infoDict["author"] = ""
+        elif "syosetu.com" in self.baseLink:
+            chapterTitle = soup.select_one("h1.p-novel__title.p-novel__title--rensai").get_text(strip=True).strip()
+            # = soup.select("h1.p-novel__title font font")
+            infoDict["seriesTitle"] = re.sub("\[.*?\]", "", soup.select(".c-announce > a:first-of-type")[0].text).strip()
+            infoDict["author"] = soup.select(".c-announce > a:nth-of-type(2)")[0].text.strip()
+        elif "fenrirealm.com" in self.baseLink:
+            chapterTitle = soup.select_one(".chapter-view > div > h2").get_text(strip=True).split(":")[-1].strip()
+            infoDict["seriesTitle"] = soup.select_one("title").get_text(strip=True).split(" - ")[0].strip()
+            infoDict["author"] = "unknown"
+
+        titleElement = soup.new_tag("h1")
+        titleElement.string = chapterTitle
+        content.insert(0, titleElement)
+        content.insert(1, soup.new_tag("br"))
+        content.insert(2, soup.new_tag("br"))
+
+        return chapterTitle
+
+
+
@@ -0,0 +1,30 @@
+import json
+import os
+
+from mysql.connector.aio.charsets import charsets
+
+
+def writeToFile(mode:str, path:str, content: str | bytes):
+    encoding = None if "b" in mode else "utf-8"
+    with open(path, mode, encoding=encoding) as file:
+        file.write(content)
+
+
+def readFromFile(mode:str, path:str):
+    encoding = None if "b" in mode else "utf-8"
+    with open(path, mode, encoding=encoding) as file:
+        return file.read()
+
+
+def makeDir(directory:str):
+    if not os.path.exists(directory):
+        os.makedirs(directory)
+
+def writeToJsonFile(path:str, content:dict):
+    with open(path, "w", encoding="utf-8") as file:
+        json.dump(content, file)
+
+
+def readFromJsonFile(path:str):
+    with open(path, "r", encoding="utf-8") as file:
+        return json.load(file)
@@ -0,0 +1,69 @@
+from pprint import pprint
+
+from transformers import MarianMTModel, MarianTokenizer, T5Tokenizer, T5Model
+from bs4 import BeautifulSoup
+import torch
+import os
+
+class TranslatorOld:
+    def __init__(self, modalPath:str, inputFolder:str, outputFolder:str):
+        self.tokenizer = T5Tokenizer.from_pretrained(modalPath)
+        self.model = T5Model.from_pretrained(modalPath)
+        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        pprint(self.device)
+        self.model = self.model.to(self.device)
+        self.inputFolder = inputFolder
+        self.outputFolder = outputFolder
+
+        os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
+
+    def downloadModal(self, modalName:str, savePath:str):
+        tokenizer = MarianTokenizer.from_pretrained(modalName)
+        model = MarianMTModel.from_pretrained(modalName)
+
+        # Lokal speichern
+        tokenizer.save_pretrained(savePath)
+        model.save_pretrained(savePath)
+
+        print(f"Modell gespeichert unter {savePath}")
+
+    def _is_valid_text(self, text):
+        return text and len(
+            text.strip()) > 0  # Sicherstellen, dass der Text nicht leer ist und nur Leerzeichen entfernt werden
+
+    def _translate(self, text):
+        if not self._is_valid_text(text):
+            print("Ungültiger Text, überspringe Übersetzung.")
+            return None
+
+        batch = self.tokenizer([text], return_tensors="pt", padding=True, truncation=True).to(self.device)
+        with torch.no_grad():
+            try:
+                generated = self.model.generate(**batch, do_sample=True, top_k=50, top_p=0.95, temperature=0.7)
+            except Exception as e:
+                print(f"Fehler bei der Modellvorhersage: {e}")
+                return None
+        translated = self.tokenizer.decode(generated[0], skip_special_tokens=True)
+        return translated
+
+
+    def doTranslate(self):
+        with open(r"W:\Temp\html\第１話　「レア」.html", "r", encoding="utf-8") as f:
+            soup = BeautifulSoup(f, "html.parser")
+
+        # --- 2. Text finden und übersetzen ---
+        for elem in soup.find_all(text=True):
+            if elem.parent.name not in ['script', 'style']:  # Kein JS oder CSS übersetzen
+                original_text = elem.strip()
+                print(original_text)
+                if original_text:  # Nur wenn etwas da ist
+                    try:
+                        translated_text = self._translate(original_text)
+                        elem.replace_with(translated_text)
+                        print(translated_text)
+                    except Exception as e:
+                        print(f"Fehler beim Übersetzen von: {original_text[:30]}... => {e}")
+
+        # --- 3. Übersetzte Datei speichern ---
+        with open(r"W:\Temp\translate test\test1.html", "w", encoding="utf-8") as f:
+            f.write(str(soup))
@@ -0,0 +1,43 @@
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, M2M100Model, M2M100Tokenizer, NllbTokenizer, \
+    NllbMoeModel, NllbTokenizerFast, T5Tokenizer, T5Model, T5ForConditionalGeneration
+import torch
+import os
+
+
+os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
+
+# Modell und Tokenizer für NLLB laden
+model_name = r"facebook/nllb-200-3.3B"
+
+# Tokenizer und Modell laden
+tokenizer = AutoTokenizer.from_pretrained(model_name, src_lang="jpn_Jpan")
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name, torch_dtype=torch.float16)
+
+model.save_pretrained(f"E:\\4K Anime\\models\\{model_name}", safe_serialization=False)
+tokenizer.save_pretrained(f"E:\\4K Anime\\models\\{model_name}")
+
+# Gerät wählen
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model = model.to(device)
+
+# Übersetzungsfunktion
+def translate(text):
+    # Text tokenisieren und an das gleiche Gerät wie das Modell schicken
+    batch = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512).to(device)
+
+    with torch.no_grad():
+        # Modellvorhersage erzeugen
+        try:
+            generated = model.generate(**batch, do_sample=False, forced_bos_token_id=tokenizer.convert_tokens_to_ids("eng_Latn"), max_new_tokens=150)
+        except Exception as e:
+            print(f"Fehler bei der Modellvorhersage: {e}")
+            return None
+
+    # Übersetzung dekodieren
+    translated = tokenizer.decode(generated[0], skip_special_tokens=True)
+    return translated
+
+# Beispieltext übersetzen
+text = f"新暦12年。人類は地球の重力という枷から解き放たれる前に、肉体という枷から逃げ出すほうに注力していた。"
+result = translate(text)
+print(result)