The Will Will Web

記載著 Will 在網路世界的學習心得與技術分享

如何讓 Python 程式正確的處理 UTF-8 字元編碼

最近在嘗試微軟最近推出的 MarkItDown 工具,它使用 Python 開發,可用於將各種文件檔案轉換為 Markdown 格式,支援的文件格式也非常多,這在 AI 盛行的時代是非常有用的。因為文件換為 Markdown 格式之後,可以讓大語言模型進行分析。不過我在 PowerShell 底下使用的時候,沒有意外的又出意外了,因為它無法正確的處理 UTF-8 字元的輸入輸出,所以只要遇到中文就掛掉,真的很煩,這種問題都不知道處理幾次了。這篇文章我打算來介紹如何讓 Python 程式正確的處理 UTF-8 字元。

... 繼續閱讀 ...

如何用 Python 取得 GPT-4o 模型最新的 Tokenizer 詞彙表 (o200k_base)

昨晚 OpenAI 的 2024 春季更新發佈會,宣布了最新的 GPT-4o 模型,其中最讓我好奇的地方是,他將 Tokenizer 的詞彙表擴充了兩倍之多,理論上整體的文字處理速度會提升,且呼叫 API 的成本也會大幅降低。我就好奇到底他們增加了哪些詞彙?這篇文章將介紹如何用 Python 取得這個詞彙表的內容。

... 繼續閱讀 ...

如何在 Windows 打造一個完全沒問題的 Python 執行環境

不知道大家有沒有這種經驗?就算你裝了 Python 之後還是問題一大堆,沒事的時候就沒事,但只要一出問題就會搞好幾個小時查問題。這篇文章就是要寫給 Python 新手的執行環境安裝手冊。

... 繼續閱讀 ...

ASP.NET 發現重大資安弱點影響範圍涵蓋 ASP.NET 1.1 ~ 4.0

幾天前從 ScottGu's Blog 得知了一個 ASP.NET 的重大資安弱點,微軟緊急的在最短時間內推出安全性更新,目前已正式發佈至 Windows Update 網站,各位 IT 人員隨時都能透過 Windows Update 套用這次的安全性重大更新,以確保 ASP.NET 網站能夠正常運作。由於這次的安全性更新被歸類為「重大」等級,所以各位還是盡可能早更新早安心,不要等出事了才反應喔!

... 繼續閱讀 ...