AI文檔查重軟件開發(fā)
大家好,我們是成都小火科技,今天是2025年6月30日,星期一。我們公司成立于2013年,有自己的全棧技術(shù)開發(fā)團隊。目前我們開發(fā)的APP等軟件系統(tǒng)中,90%都有AI的功能。可以這樣說,AI可以讓傳統(tǒng)的軟件更進一步,甲方可以選擇接入AI功能,或者重新開發(fā)AI相關(guān)的功能。
去年我們接了個高校的需求,他們想要一套AI文檔查重系統(tǒng),解決畢業(yè)論文抄襲檢測的問題。當時市面上的查重工具只能查文字重復(fù),遇到圖表、公式就歇菜,而我們的目標是做全類型文檔的查重。開發(fā)初期,我們用傳統(tǒng)的TF-IDF算法測試,發(fā)現(xiàn)對改寫后的文本識別率只有60%,比如“軟件開發(fā)”換成“軟件研發(fā)”就識別不出來,這讓我們意識到必須上深度學(xué)習(xí)模型。
核心技術(shù)架構(gòu)上,我們采用了“文本向量化+圖神經(jīng)網(wǎng)絡(luò)”的方案。先用BERT模型把文檔轉(zhuǎn)換成768維的語義向量,這樣即使句子結(jié)構(gòu)改變,意思相近的文本也能被識別。記得訓(xùn)練模型時,我們爬取了10億字的學(xué)術(shù)文獻做語料庫,用了8塊GPU跑了三天三夜,才把模型準確率提升到92%。然后用圖神經(jīng)網(wǎng)絡(luò)建模文檔間的引用關(guān)系,比如A文檔引用B文檔的某個觀點,即使文字表述不同,系統(tǒng)也能識別出關(guān)聯(lián)。
文檔預(yù)處理模塊藏著很多細節(jié)。我們支持20多種格式解析,像PDF、Word、PPT都得轉(zhuǎn)換成純文本。遇到掃描版文檔,還得用OCR技術(shù)識別文字,起初用開源的Tesseract,在復(fù)雜排版下識別率只有75%,后來我們用PaddleOCR做了定制訓(xùn)練,識別率才提到90%。公式處理更麻煩,傳統(tǒng)方法把公式轉(zhuǎn)成Latex字符串比對,但“y=kx+b”和“kx+b=y”會被當成不同公式,后來我們用符號計算庫SymPy解析公式結(jié)構(gòu),準確率提升到85%。 相似度計算模塊我們做了三級優(yōu)化。初級階段用余弦相似度比對語義向量,速度快但不夠精準;中級階段用編輯距離計算句子相似度,能識別改寫后的文本;高級階段引入強化學(xué)習(xí),讓模型根據(jù)歷史查重結(jié)果自動調(diào)整權(quán)重。有次檢測一篇論文,系統(tǒng)發(fā)現(xiàn)作者把某段話拆分成三段混在文中,普通算法沒識別出來,但我們的強化學(xué)習(xí)模型通過上下文關(guān)聯(lián),準確標記了重復(fù)區(qū)域。
系統(tǒng)還加入了AI輔助降重功能。用戶上傳文檔后,系統(tǒng)不僅標出重復(fù)處,還會給出改寫建議,比如“建議將‘軟件開發(fā)流程’替換為‘軟件研發(fā)生命周期’”。這個功能用了序列到序列(Seq2Seq)模型,我們用100萬對“原文-改寫”數(shù)據(jù)訓(xùn)練,現(xiàn)在建議的可讀性達到82%。有個學(xué)生用了降重功能后,論文重復(fù)率從35%降到了8%,還特意給我們發(fā)來了感謝信。 在隱私保護方面,我們做了三層防護。文檔上傳時用AES-256加密,存儲時拆分成1024個碎片存在不同服務(wù)器,查重完成后72小時自動刪除。記得給某律所做項目時,他們要求本地部署,我們就開發(fā)了離線版查重系統(tǒng),所有計算都在本地服務(wù)器完成,斷網(wǎng)狀態(tài)下也能使用,那次項目讓我們積累了私有化部署的經(jīng)驗。
現(xiàn)在這個系統(tǒng)已經(jīng)迭代到3.0版本,新加入了跨語言查重功能。我們用mBERT多語言模型,能檢測中文、英文、日文等10種語言的文檔重復(fù)。有次幫出版社檢測一本翻譯書,發(fā)現(xiàn)譯者大段照搬了另一本已出版書籍的內(nèi)容,跨語言查重功能準確識別出了問題。目前系統(tǒng)每天處理超過20萬篇文檔,最高并發(fā)時能同時檢測5000篇,響應(yīng)時間控制在15秒以內(nèi)。
開發(fā)過程中遇到過不少挑戰(zhàn)。有次處理古籍文檔,里面的繁體字和異體字讓模型犯了難,我們只好手動構(gòu)建了3萬字的古籍詞庫,才解決了這個問題。還有圖表查重,我們用計算機視覺技術(shù)提取圖表特征,比如折線圖的走勢、柱狀圖的比例,現(xiàn)在圖表重復(fù)識別率達到78%。這些細節(jié)優(yōu)化讓系統(tǒng)不僅能查文字,還能查公式、圖表、甚至代碼片段,真正實現(xiàn)了全類型文檔的智能查重。
文章來源網(wǎng)址:http://www.cndaixiao.net/archives/xitongkaifa01/1953,轉(zhuǎn)載請注明出處!

精選案例
推薦文章
Core competence
高質(zhì)量軟件開發(fā)公司-成都小火科技
多一套方案,多一份選擇
聯(lián)系小火科技項目經(jīng)理,免費獲取專屬《項目方案》及開發(fā)報價
咨詢相關(guān)問題或預(yù)約面談,可以通過以下方式與我們聯(lián)系
業(yè)務(wù)熱線 19113551853

